Weesdata

English version: scroll down

Men spreekt over ‘weesdata’ als een dataset geen ouders meer heeft. Dus niet meer kan worden gerelateerd aan de data of activiteit waaruit deze data ooit is ontstaan. Het is dan ook onmogelijk doel en betekenis van die data te duiden. Deze data bewaren heeft weinig zin meer, omdat het gebruik ervan nooit kan worden gerechtvaardigd. We zien in folders, die jaren niet meer zijn geopend, vaak weesdata. De eventuele link die er oorspronkelijk was naar het ontstaan, is verdwenen. De stamboom is als het ware losgeknipt en de herkomst verdwenen.

Oude applicatiedata

In een wereld die digitaliseert en is gebaseerd op verschillende en gedecentraliseerde databases en registers, wordt het gevaar van weesdata groter. Als de oorspronkelijke bron wordt aangepast, veranderd of verplaatst, werken de oorspronkelijke verwijzende links niet meer. Ooit waardevolle data wordt ‘formeel’ opeens onbruikbaar. Oude business applicaties bevatten data die decennia lang is verzameld en in dezelfde database is verzameld. Maar de achterliggende bronapplicaties zijn intussen gemuteerd, naar een cloud gebracht of ‘gewoon’ verdwenen. Een volle database met slechts nog minimaal bruikbare data. 

Moet je ‘gewoon’ de hele database dan maar weggooien? Want de kosten om te onderzoeken of er nog relevante en belangrijke data aanwezig is, zijn waarschijnlijk (veel) hoger dan de uiteindelijke waarde van die gevonden data. Een probleem waar ik afgelopen jaren bij klanten regelmatig tegenaan liep. Bij het overzetten van business data naar de cloud, bleek dat grote delen van die oude data, weesdata was geworden. De oude applicatie waaruit het gemaakt was, bestond niet meer. De metadata was onvolledig en soms niet meer te begrijpen. Oude en onbekende dataformaten met links naar standaarden die niet meer gevoerd worden. 

Weesgebruikers

Naast weesdata zijn er ook weesgebruikers. Gebruikersprofielen van medewerkers die er niet meer zijn. Waarvan we de (toenmalige) manager of opvolgers niet kunnen traceren. Gebruikersdata die ooit belangrijk genoeg was om op te slaan. Maar nu als onbekende historie  in storage systemen opgeslagen en al jarenlang niet is gebruikt. We praten over warme data, koude data en bevroren data om aan te geven hoe actief data is in een proces of voor een gebruiker. ‘Bevroren data’ is gearchiveerde data waarvan de gebruiker ooit heeft aangegeven dat deze het waard was om te archiveren. Als het goed is, werd op dat moment de inhoudelijke metadata aangemaakt met alle voor de historie belangrijke brondata. 

De digitale archivaris

Een digitaal archivaris weet dit als geen ander. Maar helaas zijn dit soort medewerkers schaars; zeker geschoolde en gecertificeerde archivarissen. Terwijl ons digitale archief alleen maar groeit en de archivaris formeel de eindgebruiker van alle data zou moeten zijn! En wordt verspreid over tientallen verschillende clouds waarvan vele gebruikers (terecht) niet eens meer weten waar die data fysiek en contractueel is opgeslagen. Een perfect scenario om weesdata te genereren. En met mijn storage-achtergrond weet ik als geen ander dat de cloud-leveranciers met plezier elke maand hiervoor opslagkosten in rekening brengen. 

De prijs voor opslag is afgelopen jaren flink gedaald, maar uit vroegere onderzoeken bleek al dat 70+ % van de opgeslagen data zou kunnen worden gearchiveerd en/of vernietigd. En dat de kosten om dit – zeker geautomatiseerd – te doen lager waren dan de geaccumuleerde opslagkosten voor de toekomst. Een terugverdientijd van enkele jaren voor adequaat datamanagement van data die aan het einde van een actieve lifecycle zijn gekomen. Enerzijds omdat project, programma, activiteit of proces is afgelopen en anderzijds omdat er veel, heel veel kopieën en versies van die data rondzwerven en onevenredig veel opslag kosten. 

Omkomen in data

We maken steeds meer data. Zoveel dat deze niet eens meer fysiek kan worden opgeslagen. Er is gewoon niet genoeg hardware om alle data die we jaarlijks maken op te slaan. Veel data is gelukkig eenmalig of een kopie van gemaakte master-data. Dat is prima, kopieën van data hoef je niet voor de eeuwigheid te bewaren. Vijftig exemplaren van dezelfde bedrijfspresentatie op evenzoveel verschillende data-omgevingen is onzin. Maar het gebeurt elke dag. Bij (bijna) elke organisatie. We zijn als mens slordig met het opslaan van data omdat het toch weinig meer kost. Dat klopt per individuele dataset. Maar niet voor de miljarden mensen die elke dag data opslaan. Zie mijn eerdere blog: ruim je data toch eens op!

We creëren een enorme data-afvalberg. Die kost inspanning, kostbare energie en schaarse materialen waarmee we opslagsystemen maken en hebben gemaakt. In een artikel van CMS wire wordt terecht beschreven dat weesdata ook een privacy risico heeft. Immers als je data bewaart waar je niet meer direct van weet wat het is of was, weet je ook niet of het privacy data was die niet eens mocht worden bewaard. Je weet natuurlijk nooit wat je niet weet. Maar bij datamanagement, privacy en cybercriminaliteit kan weten wat je hebt, waar je het hebt en welke waarde en verplichtingen het heeft en geeft, opeens heel belangrijk worden. 

Datacentrisch denken

Bij de huidige digitale transformatie wordt steeds vaker de nadruk gelegd op datacentrisch werken. Leg bij de data die je opslaat, de processtappen vast waarom, door wie en waarvoor die data is gegenereerd. Maakt automatisch veel completere metadata files aan, opdat je later bij elke dataset de historie kun terugvinden. Een soort genealogie voor data-stambomen: wie zijn de ouders en voorouders van dit datakind? En leg dit niet in een applicatie of een cloud toepassing vast, maar in hiervoor ingerichte datastores of repositories. Zie ook mijn blog over ‘repositories, een rustplaats voor data’. 

Steeds vaker zal de wetgever een garantie van oorsprong van (digitale) data willen zien. Net zoals we dat in de oude analoge papieren wereld deden met certificaten en bewijsstukken, vaak nog via de notaris. In onze wereld van digitalisering is dat niet anders. Een certificaat dat de oorspong van een informatieproduct eenduidig aangeeft. Een ‘garantie van oorsprong’ wordt momenteel steeds vaker gebruikt om bijvoorbeeld duurzaam geproduceerde energie goed te kunnen duiden en sjoemelstroom uit te sluiten. 

Betrouwbare digitale boekhouding

Blockchain voorziet in een behoefte om digitaal transactionele data veilig en ondubbelzinnig vast te leggen. Het is in feite een gedeelde database waarbij elke input via een vingerafdruk verbonden met de vorige input (block), waar door een rij verbonden schakels (chain) ontstaat die in principe niet veranderd of verwijderd kunnen worden. De vingerafdruk gebruikt een cryptografische handtekening die ‘hash’ wordt genoemd. De keten vormt als het ware een ‘Digital Ledger’ waardoor geïnitieerde en vastgelegde garanties van oorsprong (Guarentees of Origin, GO’s) in genoemde keten kunnen worden vastgelegd. 

Als die “Digitaal Ledger’ ook nog eens gedistribueerde databases zijn, dat wil zeggen dat dezelfde keten op verschillende plaatsen wordt en is vastgelegd, dan is manipulatie zo goed als onmogelijk geworden. In de gedistribueerde ledger hebben immers alle files een tijdstempel en een unieke cryptografische handtekening of vingerafdruk. Iedereen kan die ketens zien waardoor de historie van die keten uniek, verifieerbaar en een te auditen dataset is geworden. Op die wijze leggen we ‘toekomstige historie’ goed en ondubbelzinnig vast. Geen weesdata meer en geen mogelijkheid deze data voor sjoemel-activiteiten te gebruiken. Wie wil dat niet?

Photo by Sigmund on Unsplash

—————–  Translated by ChatGPT   ——————-

Orphan Data

We speak of “orphan data” when a dataset no longer has parents — it can no longer be traced back to the data or activity from which it originally emerged. It becomes impossible to identify the meaning or purpose of that data. Storing it serves little value, because its use can never be justified. We often see orphan data in folders that have not been opened for years. The original link to its source has disappeared. Its family tree has essentially been cut, and the lineage lost.

Legacy Application Data

In a world that is becoming increasingly digital, fragmented and dependent on decentralized databases and registries, the risk of orphan data grows. When the original source is modified, changed, or moved, the original reference links no longer work. Data that was once valuable suddenly becomes formally unusable. Legacy business applications contain datasets that have been collected for decades within the same database. But the underlying source applications have evolved, been migrated to the cloud, or simply vanished. What remains is a full database with only minimally usable data.

Should you simply throw the entire database away? The costs of investigating whether it still contains relevant or valuable data are likely (far) higher than the actual value of anything you might find. It’s a problem I have repeatedly encountered at clients over recent years. During cloud migrations, large portions of old business data had become orphaned. The applications that produced it no longer existed. Metadata was incomplete and sometimes impossible to interpret. Old and unknown data formats with references to standards that are no longer used.

Orphan Users

Alongside orphan data, there are also orphan users. User profiles of employees who are no longer there, and whose former managers or successors cannot be traced. User data that was once deemed important enough to store, but now sits as forgotten history in storage systems and has not been accessed for years. We speak of hot data, cold data, and frozen data to indicate how active data is in processes or for users. “Frozen data” is archived data that a user once indicated was worth preserving. Ideally, meaningful metadata was created at that time, capturing all historically relevant source information.

The Digital Archivist

No one understands this better than a digital archivist. Unfortunately, these kinds of professionals are scarce — particularly trained and certified archivists. Meanwhile, our digital archive continues to grow, even though the archivist should formally be the ultimate end user of all data. And that archive is spread across dozens of different clouds, many of which users (understandably) no longer know where their data is physically or contractually stored. A perfect recipe for generating orphan data. And from my storage background, I know very well that cloud providers are more than happy to bill monthly for it.

Storage prices have dropped significantly over the years, but early research already showed that 70% or more of stored data could be archived or destroyed. And that the costs of doing so — especially when automated — were lower than the cumulative future cost of keeping that data stored. Effective data management at the end of a lifecycle could pay itself back within a few years. Sometimes because a project, program, or process has ended, and at other times because countless copies and versions of the same data are scattered everywhere, taking up disproportionate storage.

Drowning in Data

We create more and more data — so much that it physically can’t all be stored anymore. There simply isn’t enough hardware to store all the data produced annually. Fortunately, much of it is single-use or just a copy of master data. That’s fine; you don’t need to preserve every copy forever. Fifty versions of the same corporate presentation across dozens of environments is pointless. And yet it happens every single day, at almost every organization. We humans are careless with data storage because it appears to cost very little. True for individual datasets — but not for billions of people storing data every day. (See also my earlier blog: clean up your data!)

We are creating a massive data landfill. It consumes resources, valuable energy, and scarce materials from which storage systems are made. As described in a CMS Wire article, orphan data also poses a privacy risk. If you store data without knowing what it is or was, you also don’t know whether it contained personal data that should never have been stored. You don’t know what you don’t know. But in data management, privacy, and cybercrime, knowing what you have, where it is, and what value or obligations it holds suddenly becomes very important.

Data-Centric Thinking

In today’s digital transformation efforts, more emphasis is being placed on working in a data-centric way. When you store data, capture the process context: why it was created, by whom, and for what purpose. This automatically generates richer metadata, allowing the full history of each dataset to be retrieved later. A kind of genealogy for data: who are the parents and ancestors of this data child? And don’t store this inside an application or cloud service, but in designated datastores or repositories. (See also my blog on “repositories, a resting place for data.”)

Increasingly, regulators will demand a guarantee of origin for digital data, just as we did in the analogue paper world through certificates and notarized documents. The digital world is no different. A certificate clearly identifying the origin of an information product. “Guarantee of origin” is already used frequently to validate sustainably produced energy and prevent fraud with counterfeit sources.

Reliable Digital Accounting

Blockchain fulfills the need to record digital transactional data securely and unambiguously. In essence, it is a shared database where every input is linked via a fingerprint to the previous input (block), forming a chain of connected links that cannot be altered or deleted in principle. The fingerprint uses a cryptographic signature known as a hash. This produces a digital ledger in which initiated and validated Guarantees of Origin (GO’s) can be recorded.

If that digital ledger is also distributed — meaning that identical copies of the chain are stored in multiple locations — manipulation becomes virtually impossible. In a distributed ledger, all records have timestamps and unique cryptographic signatures. Anyone can inspect the chain, making its history unique, auditable, and verifiable. In this way we record “future history” clearly and beyond dispute. No more orphan data, and no opportunity to abuse data for fraudulent activities. Who wouldn’t want that?