DNA: De Oervorm van Data-opslag
English version: scroll down
Een zettabyte is een triljard bytes — een 1 met 21 nullen. Omgerekend: één miljoen petabytes, ofwel één biljoen gigabytes. In 2012 overschreden we voor het eerst de grens van één zettabyte aan gegenereerde data. In 2016 werd één zettabyte via internet verstuurd. En nu, in 2025? Dan produceren we naar verwachting zo’n 180 zettabyte aan data wereldwijd — een hoeveelheid die ongeveer elke twee jaar verdubbelt.
Vooralsnog exponentiële groei
AI versterkt die groei exponentieel. En daarmee rijzen ook urgente vragen: Waar laten we al die data? Hoeveel moet er bewaard blijven? En hoe lang? Vragen die voor storage-engineers geen abstracte kwesties zijn, maar harde, fysieke uitdagingen. Want de cloud is geen wolk, maar een verzameling datacenters die gebouwd, gekoeld, gevoed en betaald moeten worden. We produceren inmiddels meer data dan we ooit kunnen opslaan. Veel daarvan bestaat slechts kortstondig in sensoren of streaming: gemaakt, gebruikt en weer verdwenen. Er is simpelweg niet genoeg fysieke opslagcapaciteit beschikbaar om het allemaal te bewaren.
Terwijl we systemen bouwen die schaken winnen, foto’s genereren en agenda’s beheren, blijft één verschil opvallend: zelfs de meest geavanceerde AI krabbelt pas aan het oppervlak van menselijke intelligentie. En op het gebied van data-opslag is het verschil misschien nog schrijnender. Want niets, echt niets, komt ook maar in de buurt van wat de natuur al miljarden jaren feilloos doet: DNA-gebaseerde opslag.
De Ultieme Compacte Opslag: DNA
Elke menselijke cel bevat zo’n 3 miljard baseparen aan genetische code. Dat staat gelijk aan tientallen gigabytes aan informatie — gecomprimeerd in een volume kleiner dan een stofkorrel. Zet dat af tegen onze meest geavanceerde opslagmedia en de conclusie is duidelijk: DNA is nog steeds de meest compacte, duurzame en betrouwbare opslagtechnologie die we kennen.
In een recent artikel in The New Yorker – “The Race to Save the World’s DNA” – wordt beschreven hoe onderzoekers wereldwijd experimenteren met het opslaan van digitale bestanden in synthetisch DNA. Bestanden worden vertaald naar de letters A, C, G en T, en vervolgens moleculair gesynthetiseerd. De opslagcapaciteit? Tot 215 petabyte per gram DNA. De houdbaarheid? Tientallen tot honderdduizenden jaren — mits goed bewaard.
Epigenetica: Opslag én Intelligentie
Maar de natuur doet meer dan alleen opslaan. DNA werkt ook als processor. Dankzij epigenetica — chemische schakelaars zoals methylgroepen — bepaalt een cel dynamisch welke genen worden ‘gelezen’ en wanneer. Geen centrale processor. Geen besturingssysteem. Geen cloud. Het is alsof elke cel haar eigen slimme, zelfregulerende dataserver is.
We zien hier een fascinerende analogie: zoals AI nog ver verwijderd is van menselijke intuïtie, creativiteit en contextbegrip, zo blijven onze opslagtechnologieën ver achter bij de elegantie en efficiëntie van biologische opslag. Wij bouwen datacenters van duizenden vierkante meters en honderden megawatt. De natuur doet hetzelfde in een eicel van 0,1 millimeter.
De Toekomst: DNA als Archiefdrager
Onderzoekers bouwen inmiddels prototypes van DNA-gebaseerde archieven. Microsoft Research slaagde erin om video’s, tekst en muziek te coderen in synthetisch DNA. Start-ups ontwikkelen DNA-kopieerapparaten als alternatief voor magneetband. In biohackinglabs worden zelfs logische bewerkingen met DNA getest: DNA-computing in plaats van elektronica.
Toch staan we pas aan het begin. Synthese is duur. Lezen vereist complexe sequencing. Opslagsnelheden zijn traag. Maar de richting is duidelijk: een technologische ontdekkingstocht waarin de natuur al miljarden jaren voorloopt.
Slimme Data: Van Dode Informatie naar Levend Archief
Veel van onze opgeslagen data is ‘dom’: platte teksten, statische beelden, simpele datasets. Metadata geeft wel wat extra context, maar data-objecten kunnen nog niet zelfstandig waarde creëren. Zelfs met AI-agents ontbreekt het vaak aan begrip van relaties, relevantie en context.
Maar stel dat we metadata verrijken met betekenis: context, semantiek, doelgerichtheid. Dan kunnen informatie-objecten — met hulp van AI-agents en microservices — zelfstandig waarde opbouwen door verwante informatie te verzamelen en te combineren. Van passieve archieven naar actieve kennisnetwerken.
Een Lessenboek van de Natuur
Zoals onze hersenen herinneringen koppelen en associatief denken — zo zouden ook onze data-architecturen kunnen werken. Informatie die niet alleen vindbaar is, maar zichzelf organiseert en verbindt. Dan wordt opslag geen eindstation, maar een bron voor creativiteit, begrip en innovatie.
De natuur laat ons zien hoe het kan. Veerkrachtig, energiezuinig, zelforganiserend. Misschien is het tijd dat we — in plaats van de natuur te imiteren — eerst leren begrijpen hoe zij al miljarden jaren met data omgaat. En pas daarna, met gepaste nederigheid, proberen te bouwen wat zij allang beheerst.
Photo by Sangharsh Lohakare on Unsplash
———————– Translated by ChatGPT ——————–
DNA: The Primal Form of Data Storage
A zettabyte is a trillion gigabytes — a 1 followed by 21 zeros. That’s one million petabytes, or a billion terabytes. In 2012, we crossed the threshold of generating one zettabyte of data globally. In 2016, one zettabyte was transmitted across the internet. And now, in 2025? We’re expected to generate around 180 zettabytes of data this year — a volume that roughly doubles every two years.
Still an Exponential Surge
AI is accelerating this growth exponentially. And with that, some fundamental questions arise: Where will we store all that data? How much should be kept? And for how long? These are not abstract dilemmas for storage engineers — they’re physical challenges with real-world consequences. The cloud, after all, is not a vaporous entity, but a collection of physical data centers that must be built, cooled, powered and paid for.
We’re now generating more data than we could ever store. Much of it exists only fleetingly — created by sensors, streamed, used, and gone. There simply isn’t enough physical storage capacity available to preserve it all.
And while we build systems that win chess games, generate images, and manage calendars, one striking gap remains: even the most advanced AI only scratches the surface of human intelligence. And in the domain of data storage, the gap is perhaps even more stark. Because nothing — truly nothing — comes close to what nature has already been doing flawlessly for billions of years: DNA-based storage.
The Ultimate Compact Storage Medium: DNA
Every human cell contains about 3 billion base pairs of genetic code. That’s equivalent to dozens of gigabytes of information — compressed into a volume smaller than a speck of dust. Compare that to our most advanced storage media, and the conclusion is clear: DNA is still the most compact, durable, and reliable storage system we know.
In a recent New Yorker article — “The Race to Save the World’s DNA” — researchers describe how they’re experimenting with storing digital files in synthetic DNA. Files are translated into the letters A, C, G, and T, and then molecularly synthesized. The capacity? Up to 215 petabytes per gram of DNA. The durability? Tens of thousands to hundreds of thousands of years, provided it’s stored correctly.
Epigenetics: Storage and Intelligence
But nature does more than store data. DNA also acts as a processor. Thanks to epigenetics — chemical switches like methyl groups — each cell dynamically determines which genes to read and when. No central processor. No operating system. No cloud. It’s as if every cell is its own intelligent, self-regulating data server.
Here we find a fascinating analogy: just as AI is still far from achieving human intuition, creativity, and contextual awareness, our storage technologies remain rudimentary compared to the elegance and efficiency of biological storage. We build data centers the size of aircraft hangars, consuming hundreds of megawatts. Nature does the same in a 0.1-millimeter egg cell.
The Future: DNA as Archival Medium
Researchers are already building prototypes of DNA-based archives. Microsoft Research has successfully encoded video, text, and music into synthetic DNA. Start-ups are developing DNA copiers as alternatives to magnetic tape. And in biohacking labs, logical operations using DNA are being tested — DNA computing instead of electronics.
But this is still the beginning. DNA synthesis is expensive. Reading requires complex sequencing. Storage speeds are slow. Yet the direction is clear: a technological exploration where nature has been leading for billions of years.
Smart Data: From Dead Information to Living Archives
Much of our stored data is ‘dead’: flat text, static images, simple datasets. Metadata adds some context, but data objects cannot yet create value on their own. Even with AI agents, there’s often a lack of understanding of relationships, relevance, and context.
But imagine enriching metadata with meaning: context, semantics, purpose. Information objects could then — supported by AI agents and microservices — autonomously build value by gathering and linking related content. From passive archives to active knowledge networks.
A Lesson Book from Nature
Just as our brains link memories and think associatively, so too could our data architectures function. Information not just indexed, but self-organizing and self-connecting. Storage would no longer be a destination, but a source of creativity, insight, and innovation.
Nature already shows us how it can be done — resilient, energy-efficient, and self-organizing. Perhaps it’s time we stop merely trying to imitate nature, and start truly understanding how she has handled data for billions of years. Only then, with humility, can we begin to build what she already masters effortlessly.