Weesdata

Weesdata

Men spreekt over ‘weesdata’ als een dataset geen ouders meer heeft. Dus niet meer kan worden gerelateerd aan de data of activiteit waaruit deze data ooit is ontstaan. Het is dan ook onmogelijk doel en betekenis van die data te duiden. Deze data bewaren heeft weinig zin meer, omdat het gebruik ervan nooit kan worden gerechtvaardigd. We zien in folders, die jaren niet meer zijn geopend, vaak weesdata. De eventuele link die er oorspronkelijk was naar het ontstaan, is verdwenen. De stamboom is als het ware losgeknipt en de herkomst verdwenen.

Oude applicatiedata

In een wereld die digitaliseert en is gebaseerd op verschillende en gedecentraliseerde databases en registers, wordt het gevaar van weesdata groter. Als de oorspronkelijke bron wordt aangepast, veranderd of verplaatst, werken de oorspronkelijke verwijzende links niet meer. Ooit waardevolle data wordt ‘formeel’ opeens onbruikbaar. Oude business applicaties bevatten data die decennia lang is verzameld en in dezelfde database is verzameld. Maar de achterliggende bronapplicaties zijn intussen gemuteerd, naar een cloud gebracht of ‘gewoon’ verdwenen. Een volle database met slechts nog minimaal bruikbare data. 

Moet je ‘gewoon’ de hele database dan maar weggooien? Want de kosten om te onderzoeken of er nog relevante en belangrijke data aanwezig is, zijn waarschijnlijk (veel) hoger dan de uiteindelijke waarde van die gevonden data. Een probleem waar ik afgelopen jaren bij klanten regelmatig tegenaan liep. Bij het overzetten van business data naar de cloud, bleek dat grote delen van die oude data, weesdata was geworden. De oude applicatie waaruit het gemaakt was, bestond niet meer. De metadata was onvolledig en soms niet meer te begrijpen. Oude en onbekende dataformaten met links naar standaarden die niet meer gevoerd worden. 

Weesgebruikers

Naast weesdata zijn er ook weesgebruikers. Gebruikersprofielen van medewerkers die er niet meer zijn. Waarvan we de (toenmalige) manager of opvolgers niet kunnen traceren. Gebruikersdata die ooit belangrijk genoeg was om op te slaan. Maar nu als onbekende historie  in storage systemen opgeslagen en al jarenlang niet is gebruikt. We praten over warme data, koude data en bevroren data om aan te geven hoe actief data is in een proces of voor een gebruiker. ‘Bevroren data’ is gearchiveerde data waarvan de gebruiker ooit heeft aangegeven dat deze het waard was om te archiveren. Als het goed is, werd op dat moment de inhoudelijke metadata aangemaakt met alle voor de historie belangrijke brondata. 

De digitale archivaris

Een digitaal archivaris weet dit als geen ander. Maar helaas zijn dit soort medewerkers schaars; zeker geschoolde en gecertificeerde archivarissen. Terwijl ons digitale archief alleen maar groeit en de archivaris formeel de eindgebruiker van alle data zou moeten zijn! En wordt verspreid over tientallen verschillende clouds waarvan vele gebruikers (terecht) niet eens meer weten waar die data fysiek en contractueel is opgeslagen. Een perfect scenario om weesdata te genereren. En met mijn storage-achtergrond weet ik als geen ander dat de cloud-leveranciers met plezier elke maand hiervoor opslagkosten in rekening brengen. 

De prijs voor opslag is afgelopen jaren flink gedaald, maar uit vroegere onderzoeken bleek al dat 70+ % van de opgeslagen data zou kunnen worden gearchiveerd en/of vernietigd. En dat de kosten om dit – zeker geautomatiseerd – te doen lager waren dan de geaccumuleerde opslagkosten voor de toekomst. Een terugverdientijd van enkele jaren voor adequaat datamanagement van data die aan het einde van een actieve lifecycle zijn gekomen. Enerzijds omdat project, programma, activiteit of proces is afgelopen en anderzijds omdat er veel, heel veel kopieën en versies van die data rondzwerven en onevenredig veel opslag kosten. 

Omkomen in data

We maken steeds meer data. Zoveel dat deze niet eens meer fysiek kan worden opgeslagen. Er is gewoon niet genoeg hardware om alle data die we jaarlijks maken op te slaan. Veel data is gelukkig eenmalig of een kopie van gemaakte master-data. Dat is prima, kopieën van data hoef je niet voor de eeuwigheid te bewaren. Vijftig exemplaren van dezelfde bedrijfspresentatie op evenzoveel verschillende data-omgevingen is onzin. Maar het gebeurt elke dag. Bij (bijna) elke organisatie. We zijn als mens slordig met het opslaan van data omdat het toch weinig meer kost. Dat klopt per individuele dataset. Maar niet voor de miljarden mensen die elke dag data opslaan. Zie mijn eerdere blog: ruim je data toch eens op!

We creëren een enorme data-afvalberg. Die kost inspanning, kostbare energie en schaarse materialen waarmee we opslagsystemen maken en hebben gemaakt. In een artikel van CMS wire wordt terecht beschreven dat weesdata ook een privacy risico heeft. Immers als je data bewaart waar je niet meer direct van weet wat het is of was, weet je ook niet of het privacy data was die niet eens mocht worden bewaard. Je weet natuurlijk nooit wat je niet weet. Maar bij datamanagement, privacy en cybercriminaliteit kan weten wat je hebt, waar je het hebt en welke waarde en verplichtingen het heeft en geeft, opeens heel belangrijk worden. 

Datacentrisch denken

Bij de huidige digitale transformatie wordt steeds vaker de nadruk gelegd op datacentrisch werken. Leg bij de data die je opslaat, de processtappen vast waarom, door wie en waarvoor die data is gegenereerd. Maakt automatisch veel completere metadata files aan, opdat je later bij elke dataset de historie kun terugvinden. Een soort genealogie voor data-stambomen: wie zijn de ouders en voorouders van dit datakind? En leg dit niet in een applicatie of een cloud toepassing vast, maar in hiervoor ingerichte datastores of repositories. Zie ook mijn blog over ‘repositories, een rustplaats voor data’. 

Steeds vaker zal de wetgever een garantie van oorsprong van (digitale) data willen zien. Net zoals we dat in de oude analoge papieren wereld deden met certificaten en bewijsstukken, vaak nog via de notaris. In onze wereld van digitalisering is dat niet anders. Een certificaat dat de oorspong van een informatieproduct eenduidig aangeeft. Een ‘garantie van oorsprong’ wordt momenteel steeds vaker gebruikt om bijvoorbeeld duurzaam geproduceerde energie goed te kunnen duiden en sjoemelstroom uit te sluiten. 

Betrouwbare digitale boekhouding

Blockchain voorziet in een behoefte om digitaal transactionele data veilig en ondubbelzinnig vast te leggen. Het is in feite een gedeelde database waarbij elke input via een vingerafdruk verbonden met de vorige input (block), waar door een rij verbonden schakels (chain) ontstaat die in principe niet veranderd of verwijderd kunnen worden. De vingerafdruk gebruikt een cryptografische handtekening die ‘hash’ wordt genoemd. De keten vormt als het ware een ‘Digital Ledger’ waardoor geïnitieerde en vastgelegde garanties van oorsprong (Guarentees of Origin, GO’s) in genoemde keten kunnen worden vastgelegd. 

Als die “Digitaal Ledger’ ook nog eens gedistribueerde databases zijn, dat wil zeggen dat dezelfde keten op verschillende plaatsen wordt en is vastgelegd, dan is manipulatie zo goed als onmogelijk geworden. In de gedistribueerde ledger hebben immers alle files een tijdstempel en een unieke cryptografische handtekening of vingerafdruk. Iedereen kan die ketens zien waardoor de historie van die keten uniek, verifieerbaar en een te auditen dataset is geworden. Op die wijze leggen we ‘toekomstige historie’ goed en ondubbelzinnig vast. Geen weesdata meer en geen mogelijkheid deze data voor sjoemel-activiteiten te gebruiken. Wie wil dat niet?

Photo by Sigmund on Unsplash