Kunnen we het data-vliegwiel vertragen?

Digitale data ontstaat bijna moeiteloos. Surveillancecamera’s, IoT-sensoren, chats, social media en herinneringsmeldingen pompen onafgebroken een stroom informatie de wereld in—waarvan het merendeel nooit wordt bekeken. Datalakes voor analyses, digitale archieven om niets te vergeten, AI-databases om trends te signaleren: het vliegwiel draait steeds sneller. Het resultaat? Een explosie van ‘zwarte data’—informatie zonder duidelijke oorsprong en inhoud, die nooit zal worden geanalyseerd en die vaak wordt bewaard uit pure onzekerheid, soms tegen alle (privacy) regels in. 

De wereld is onverzadigbaar

Er wordt geschat dat we in 2028 ruim 400 zettabytes aan data genereren. Dat is 400 miljoen petabyte. En één petabyte is een miljoen gigabyte. We creëren zelfs (veel) meer data dan we fysiek kunnen opslaan. De dataproductie groeit jaarlijks met 24%, terwijl de opslagcapaciteit slechts met 17% toeneemt. Dit heeft twee belangrijke gevolgen: de prijs van dataopslag zal stijgen, en bedrijven zullen steeds strategischer moeten bepalen welke data ze (nog) willen bewaren en hoe ze deze data opslaan en op de lange termijn beheren.

Het efficiënt en zorgvuldig classificeren en vastleggen van metadata van bedrijfsdata in archieven en AI-ondersteunde datalakes wordt voor steeds meer organisaties een uitdaging. De achterstand in het archiveren van digitale informatie groeit jaarlijks, wat in sommige gevallen leidt tot wat we ‘digitale dementie’ noemen: het verlies van overzicht over de eigen data. Je verleden vergeten. Het niet meer kunnen terugvinden of zelfs herinneren. Datagedreven werken is een mooie strategie, maar als je je eigen data niet meer kunt terugvinden, doe je toch iets verkeerd!

Probleem van elke tijd

Eén van mijn eerste blogs in 2010 ging al over dit onderwerp. Lees de blogRuim je data toch eens op’ er maar op na. IT-afdelingen worstelen met de enorme hoeveelheden data die de organisatie produceert en die ergens opgeslagen moeten worden. De business geeft echter nog steeds te weinig richtlijnen over de waarde, houdbaarheid, veiligheid en duurzaamheid van de gegenereerde data. Destijds stelde ik al dat als je niet direct bij de bron iets over de verwachte of geplande lifecycle van de informatie vermeldt, de data onbedoeld een eeuwig leven in de vergetelheid kan krijgen.

Denk aan de factuur uit 1995 die formeel allang vernietigd had moeten zijn. De sollicitatiebrief uit 2002 die nog rondzwerft van een kandidaat die nooit is aangenomen. Een beoordelingsgesprek met een medewerker die al jaren niet meer in dienst is, opgeslagen in een oud dossier van een manager. Of de zelfgemaakte kopieën van een medewerker uit een bedrijfsdossier. Naast bewaarplicht is er een vernietigingsplicht. Bestuurders kunnen erop aangesproken worden als documenten niet of te laat worden verwijderd. De vernietigingsplicht is vooral in de wet opgenomen ter bescherming van persoonsgegevens, zoals vastgelegd in de Wet bescherming persoonsgegevens (WBP).

Noodvernietiging

In enkele gevallen mag zelfs eerder worden overgegaan tot vernietiging van documenten. Dit heet ‘noodvernietiging’ (zie ook de Archiefwet, art. 9, lid 2). Dit is vooral toegestaan in tijden van oorlog of als geheime documenten in verkeerde handen dreigen te vallen. Denk aan uitzonderlijke situaties zoals het binnenvallen van een buitenlandse vijand of de bestorming van een ambassade.

Een historisch verhaal uit de VOC-tijd beschrijft hoe Martinus Bruno, die in 1672 aanmonstert als tweede schrijver op een VOC-schip, een noodvernietigingsprocedure meemaakt. Het schip loopt in een storm op een zandbank en wordt vervolgens gekaapt door de Engelsen. Uit verslagen blijkt dat de kapitein van het VOC-schip een noodvernietigingsprocedure toepaste om te voorkomen dat het scheepsarchief in handen van de vijand zou vallen. De methode was simpel: de kapitein haalde een pakket documenten uit zijn hut, verzwaarde dit met stukken lood en gooide het overboord. Een effectieve en beproefde methode die in veel militaire verslagen terugkomt.

Als EMC leverden we aan het leger zelfs storageboxen met zowel noodwisprocedures als ingebouwde explosieven. Bij nood konden alle schijven effectief worden gewist, of als daar geen tijd meer voor was, met één druk op de knop fysiek worden vernietigd.

Automatisering van archivering en vernietiging

Een effectieve oplossing om achterstanden in zowel archivering als vernietiging te voorkomen, is om een digitaal document—of het nu een brief, dossier, chat of e-mail is—direct bij vrijgave formeel te archiveren. Compleet met de juiste metadata, zodat het document later door het archiefsysteem op tijd en op de juiste wijze kan worden vernietigd. Immers, niet alleen mag er geen toegang meer zijn tot het document, ook alle digitale versies die op andere plaatsen zijn opgeslagen, moeten aantoonbaar zijn gewist.

Daarom worden archiefplatformen steeds belangrijker. Een DMS of archiefapplicatie zoals ArQiver kan wel de opdracht geven tot vernietiging, maar uiteindelijk moeten diep in het datacenter alle bestanden—van master tot uitwijk en back-up—daadwerkelijk worden verwijderd. Deze platformen moeten zelfstandig, los van een DMS of archiefapplicatie, de in de metadata verankerde lifecycle van de gearchiveerde documenten beheren en zonodig zelfstandig tot vernietiging kunnen overgaan. Immers zowel DMS-en als applicaties hebben nu eenmaal niet het eeuwige leven. 

Het archiefplatform moet zorgdragen dat de gearchiveerde documenten, vanuit business continuity-oogpunt, veilig zijn opgeslagen op meerdere locaties, die zonodig verspreid zijn over verschillende energiegebieden. Daarnaast moet het platform ervoor zorgen dat bestanden digitaal leesbaar blijven zolang de verplichte archiveringsperiode loopt en regelmatig hierop controles uitvoeren. En last but not least, moet het uiteindelijk – aantoonbaar! – alle bestanden fysiek kunnen vernietigen.

Op archivering gerichte storageplatformen

De afgelopen twintig jaar kregen steeds meer storageplatformen specifieke ingebouwde archieffuncties. De door EMC in 2002 gelanceerde Centera was een van de eerste versies die online te archiveren bestanden, inclusief hash en timestamp, veilig en gedistribueerd kon opslaan. Vooral in de wereld van grote bestanden, zoals MRI-scans, bleek deze vorm van dataopslag zeer effectief. Voor de echt lange termijn blijft zelfs tape nog steeds een energiezuinige en efficiënte vorm van opslag. Daarnaast bieden steeds meer cloudaanbieders diverse vormen van archiefopslag aan, wat een interessante optie is mits ze daar de noodzakelijke archief- en opslagplatformen voor hebben. 

Zodra archieven een restrictievere vorm van bescherming, opslag, beschikbaarheid en geografische locatie vereisen, worden soevereine oplossingen interessant. Hierbij moet binnen landsgrenzen voldoende uitwijk en decentralisatie mogelijk zijn voor continuïteit, beschikbaarheid en veiligheid. Een recent ge-update platform dat aan deze eisen voldoet, is het Hitachi Content Platform (HCP). Dit platform biedt een solide fysieke basis voor digitale archieven die conform e-depotnormen wettelijk bewaard moeten worden. Daarboven zorgen SaaS-oplossingen zoals ArQiver ervoor dat alle relevante documenten uit verschillende contentplatformen en kantoorsystemen, voorzien van de noodzakelijke metadata, via hubs op deze fysieke opslagplatformen kunnen worden opgeslagen.

In een tijd waarin data exponentieel groeit, wordt een goed doordachte en geautomatiseerde archiveringsstrategie steeds belangrijker. Het is tijd om grip te krijgen op het data-vliegwiel.

Photo by cottonbro studio

——————    Translated by ChatGPT —————

Can We Slow Down the Data Flywheel?

Digital data is created almost effortlessly. Surveillance cameras, IoT sensors, chats, social media, and reminders continuously pump out a stream of information—most of which is never even looked at. Data lakes for analysis, digital archives to ensure nothing is forgotten, AI databases to detect trends—the flywheel spins faster and faster. The result? An explosion of ‘dark data’—information with no clear origin or content, never to be analyzed, yet often retained out of sheer uncertainty, sometimes even in violation of (privacy) regulations.

An Insatiable World

By 2028, we are expected to generate over 400 zettabytes of data—that’s 400 million petabytes. One petabyte alone equals a million gigabytes. We are creating far more data than we can physically store. While data production grows by 24% annually, storage capacity increases by only 17%. This leads to two major consequences: data storage costs will rise, and businesses must become more strategic in deciding what data they keep and how they manage and store it.

Efficiently classifying and tagging corporate data with metadata in archives and AI-driven data lakes is becoming a growing challenge for many organizations. The backlog in archiving digital information increases each year, sometimes leading to what we call ‘digital dementia’—a loss of oversight over one’s own data. Forgetting the past. Being unable to find or even remember information. Data-driven decision-making is a great strategy, but if you can’t even locate your own data, you’re doing something wrong!

A Timeless Problem

One of my earliest blogs in 2010 already addressed this issue—check out Clean Up Your Data. IT departments struggle with the massive volumes of data their organizations generate, all of which must be stored somewhere. Yet, business departments still provide too few guidelines on the value, lifespan, security, and sustainability of the data being created. I have long argued that if you don’t define an expected or planned lifecycle at the source, data can unintentionally linger in obscurity indefinitely.

Think of an invoice from 1995 that should have been destroyed long ago. A job application from 2002 still floating around from a candidate who was never hired. A performance review of an employee who left years ago, buried in an old manager’s files. Or personal copies of corporate records kept by an employee. Alongside the obligation to retain data, there is also a duty to destroy it. Executives can be held accountable if documents are not deleted in time. This obligation is primarily established by law to protect personal data, as outlined in the General Data Protection Regulation (GDPR).

Emergency Destruction

In some cases, documents may be destroyed even earlier than required—this is called ‘emergency destruction’ (see Archives Act, Article 9, Section 2). This is typically permitted during wartime or when classified documents risk falling into the wrong hands. Think of exceptional situations like a foreign invasion or the storming of an embassy.

A historical account from the Dutch East India Company (VOC) era illustrates this practice. In 1672, Martinus Bruno, serving as a junior clerk on a VOC ship, witnessed an emergency destruction procedure firsthand. The ship ran aground during a storm and was later seized by the English. Records indicate that the captain took immediate action to prevent the ship’s archives from falling into enemy hands. His method was simple: he retrieved a bundle of documents from his cabin, weighed them down with lead, and threw them overboard. A straightforward yet highly effective approach, common in military history.

As EMC, we even supplied the military with storage boxes equipped with emergency wipe procedures and built-in explosives. If needed, all drives could be securely erased—or if time was short, physically destroyed at the push of a button.

Automating Archiving and Destruction

A highly effective way to prevent backlogs in both archiving and destruction is to formally archive a digital document—whether a letter, file, chat, or email—at the moment of release. By embedding the right metadata, the document can later be automatically retrieved and destroyed at the correct time. After all, it’s not just about restricting access; all digital versions must be provably erased.

This is why archive platforms are becoming increasingly important. A Document Management System (DMS) or archive application like ArQiver can issue destruction commands, but deep within the data center, all associated files—from master copies to backups—must actually be eliminated. These platforms must function independently from DMS or archive applications, managing the metadata-driven lifecycle of archived documents and initiating destruction when required.

The archive platform must ensure that archived documents are securely stored at multiple locations for business continuity, ideally spread across different energy grids to prevent disruptions. It must also guarantee that files remain digitally readable throughout the legally mandated retention period, with regular compliance checks. And, last but not least, it must be able to provably destroy all files at the end of their lifecycle.

Storage Platforms Designed for Archiving

Over the past two decades, storage platforms have increasingly incorporated built-in archiving capabilities. EMC’s Centera, launched in 2002, was one of the first to securely and distributively store online archive files, complete with hash and timestamp protection. This approach proved particularly effective for managing large file systems, such as MRI scans. For long-term storage, tape remains one of the most energy-efficient and cost-effective solutions. Additionally, cloud providers are offering more archiving options, provided they have the necessary storage and compliance capabilities.

However, when archives require stricter security, storage control, availability, and geographic sovereignty, sovereign solutions become more appealing. These ensure that data remains within national borders while maintaining sufficient redundancy for continuity, availability, and security. A newly updated platform that meets these stringent requirements is the Hitachi Content Platform (HCP). This platform provides a robust, physically anchored solution for legally mandated digital archives. Above this infrastructure, SaaS solutions like ArQiver ensure that all relevant documents from various content platforms and office systems—complete with metadata—are efficiently stored within this secure, sovereign storage.

In an era of exponential data growth, a well-thought-out and automated archiving strategy is no longer optional—it’s essential. It’s time to regain control over the data flywheel.