Betrouwbaarheid is ontworpen wantrouwen
English version: scroll down
Complexe systemen falen altijd. Dat is geen pessimisme. Het is een natuurwet. Reliability Engineering is geboren in de luchtvaart, defensie en ruimtevaart — niet uit academische nieuwsgierigheid, maar uit noodzaak. Wanneer mensenlevens afhankelijk zijn van elektronica, software en hydraulica, wordt optimisme gevaarlijk.
Complexe systemen falen altijd. De enige vraag is wanneer — en of je het ziet aankomen.
Mijn carrière in de storage-industrie leerde mij dat dezelfde wetmatigheid geldt wanneer niet alleen levens, maar ook data en bedrijfscontinuïteit op het spel staan. Availability is geen feature. Het is een randvoorwaarde. Net als in de luchtvaart werd in de wereld van data-opslag redundantie doctrine. Net als bij fly-by-wire systemen — digitale besturing in plaats van mechanische kabels — worden signalen meervoudig uitgevoerd. Communicatiepaden zijn dubbel uitgevoerd. Controllers controleren elkaar continu. Vertoont één kanaal afwijkend gedrag, dan wordt het geïsoleerd. Niet na een crash. Tijdens operatie.
Een moderne storage-omgeving is geen systeem dat simpelweg “werkt”. Het is een systeem dat zichzelf permanent verifieert. Replicatie, failover, checksums en logging bestaan om afwijkingen zichtbaar te maken. Testen is geen fase. Het is een permanente toestand.
Beschikbaarheid is niet genoeg
Maar beschikbaarheid alleen is niet voldoende. Data moet niet alleen toegankelijk zijn — ze moet ook integer zijn. Ongewijzigd, onaangetast en vertrouwbaar. Soms is het onderscheid tussen data en leven kunstmatig. Wanneer tijdens een medische operatie de data-voorziening uitvalt, wordt onbeschikbaarheid direct levensbedreigend. Wanneer hulpdiensten onverwacht de toegang tot essentiële informatie verliezen, kan dat mensenlevens kosten. Maar wanneer data wél beschikbaar is en ongemerkt gemanipuleerd blijkt, kan de schade minstens zo groot zijn. Wat niet beschikbaar is, verlamt. Wat niet integer is, misleidt.
In moderne oorlogsvoering moet defensie continu beschikken over betrouwbare, integere data. Niet alleen toegang, maar zekerheid. Ook daar is falen geen vraag of. Alleen wanneer. En daar wordt betrouwbaarheid strategisch. Wanneer kritieke data-infrastructuren afhankelijk zijn van externe leveranciers, ondoorzichtige ketens of gecentraliseerde controle, zijn zowel beschikbaarheid als integriteit kwetsbaar. Een systeem dat zijn eigen continuïteit én betrouwbaarheid niet kan garanderen, kan zijn autonomie niet waarborgen.
Betrouwbaarheid is dan geen optimalisatie. Het is een voorwaarde voor soevereiniteit.
De digitale wereld dacht dat ze anders was
In cyberspace zijn we minder streng geweest. We hebben infrastructuren gebouwd op snelheid, schaal en efficiëntie. Cloudplatforms groeiden sneller dan governance kon bijbenen. Software werd continu uitgerold, maar zelden continu getest op systeemniveau. Logging werd een bijzaak — terwijl het in feite de black box van onze digitale wereld had moeten zijn. We hebben uptime verward met betrouwbaarheid.
En ondertussen zijn we een digitale oorlog ingerold zonder een eigen digitale oorlogsindustrie te bezitten. Kritieke infrastructuur draait op buitenlandse hyperscalers. Hardwareproductie is uitbesteed. Kernsoftware is afhankelijk van mondiale ketens. Digitale soevereiniteit blijkt een kwetsbare constructie. Betrouwbaarheid is daarmee geen technische optimalisatie meer. Het is een geopolitieke voorwaarde.
Dat betekent ook: kunnen terugvallen. Op eenvoudiger systemen. Op gescheiden netwerken. Op een tweede of derde laag van zekerheid wanneer het primaire systeem uitvalt — of doelbewust wordt afgesloten. Getrapte zekerheid in plaats van binaire afhankelijkheid. Een volwassen infrastructuur kent altijd een fall-back. Desnoods analoog. Niet uit nostalgie, maar uit strategisch realisme. Fail-safe is geen eigenschap van één systeem, maar van een architectuur die meerdere werkelijkheden kan dragen — digitaal waar mogelijk, eenvoudiger waar noodzakelijk.
Testen als permanente parallelle realiteit
Echte reliability betekent dat je systeem nooit “af” is. Het bevindt zich permanent in een parallelle testfase. Dat idee is in de ICT-wereld teruggekeerd onder nieuwe namen: observability, continuous monitoring, chaos engineering. Maar de principes zijn oud. In aerospace en defensie weet men al decennia dat logging essentieel is. De flight data recorder — de black box — registreert niet alleen wat misgaat, maar ook wat goed gaat. Juist om afwijkingen vroegtijdig te detecteren en te weten dat iets niet (meer) klopt.
Wanneer logging intelligent wordt — wanneer AI patronen herkent die voor mensen onzichtbaar blijven — ontstaat iets fundamenteel nieuws: ‘continuous testing’ op systeemniveau. Niet alleen controleren of een functie werkt. Maar controleren of het systeem zich nog gedraagt zoals ontworpen. Inclusief de fouten. De kern van procesgerichte kwaliteitsborging. Meten van non-kwaliteit. Immers als kwaliteit de norm en dus vanzelfsprekend is, kun je alleen nog maar de afwijkingen, de fouten, de non-kwaliteit meten.
Dat laatste is cruciaal. Een goed ontworpen systeem bevat expliciet gedefinieerde foutcondities. Als een gebruiker iets verkeerds doet, moet een voorspelbare fout optreden. Als die fout níet optreedt, is dat een alarmsignaal. Want dan wijkt het systeem af van zijn ontwerp. AI maakt het mogelijk om dit continu te toetsen. Parallel. Op schaal. Zonder dat het primaire proces wordt stilgelegd. Je systeem draait dan feitelijk in twee werkelijkheden tegelijk: de operationele realiteit en de verificatierealiteit. Als een digital twin, maar dan beiden digitaal.
Gecontroleerd falen als strategie
Chaos engineering klinkt modern, maar het principe is oud. In defensiesystemen worden red teams ingezet om kwetsbaarheden bloot te leggen. In ruimtevaartprogramma’s worden subsystemen getest tot ze breken — op de grond, niet in de lucht. Gecontroleerd falen is geen zwaktebod. Het is een vorm van strategisch realisme. Het sluit naadloos aan bij het idee van antifragiliteit waar ik eerder over schreef: systemen die sterker worden door blootstelling aan stress. Maar antifragiliteit zonder reliability is roekeloosheid. Eerst moet het systeem zijn faalgrenzen kennen. Pas daarna kan het gecontroleerd worden belast. Dat betekent: verstoren om te leren. Simuleren om te begrijpen. Testen om soeverein te blijven.
Reliability Engineering is een discipline binnen systems engineering. Het kijkt niet naar losse componenten, maar naar interacties, afhankelijkheden en keteneffecten. In onze digitale infrastructuur zijn single points of failure eerder regel dan uitzondering. Centrale identity-providers. Monoculturen in software. Globale updates die wereldwijd identieke kwetsbaarheden introduceren. Wanneer we digitale soevereiniteit serieus nemen, moeten we reliability positioneren als kerncompetentie. Niet als compliance-checklist. Niet als IT-bijlage. Maar als strategisch ontwerpprincipe.
Complexiteit vraagt volwassenheid
Complexe systemen falen altijd. Maar volwassen systemen falen gecontroleerd. Ze loggen. Ze testen. Ze simuleren hun eigen ondergang — om die te voorkomen. Misschien is dat de echte les uit de ruimtevaart, de luchtvaart en de storage wereld. Niet dat techniek onfeilbaar kan worden. Maar dat betrouwbaarheid voortkomt uit georganiseerd wantrouwen. Vindt de minimale non-kwaliteit die ergens altijd nog aanwezig zal zijn.
In een wereld waarin digitale infrastructuur een slagveld is geworden, kunnen we ons geen naïviteit meer permitteren. Zelfs de kleinste systeemfout zal gevonden worden, dus moeten we hem zelf vinden. Betrouwbaarheid is geen luxe. Het is geen optimalisatie. Het is de voorwaarde voor autonomie. En misschien zelfs voor vrijheid.
Photo by Pixabay
—————————- Translated by ChatGPT ————————
Reliability Is Designed Distrust
Complex systems always fail. This is not pessimism. It is a law of nature. Reliability Engineering was born in aviation, defense, and spaceflight — not out of academic curiosity, but out of necessity. When human lives depend on electronics, software, and hydraulics, optimism becomes dangerous.
Complex systems always fail. The only question is when — and whether you see it coming.
My career in the storage industry taught me that the same principle applies when not only lives, but data and business continuity are at stake. Availability is not a feature. It is a precondition. And sometimes the distinction between data and life is artificial.
If data provision fails during surgery, unavailability becomes immediately life-threatening. If emergency services suddenly lose access to essential information, lives can be lost. In modern warfare, defense must have continuous access to trusted, uncompromised data. Here too, failure is never a question of if. Only of when.
Availability is not enough
Redundancy therefore became doctrine in the world of data storage, just as it did in aviation. As with fly-by-wire systems — digital control replacing mechanical cables — signals are executed multiple times. Communication paths are duplicated. Controllers continuously verify one another. If one channel behaves anomalously, it is isolated. Not after a crash. During operation.
A modern storage environment is not a system that simply “works.” It is a system that continuously audits itself. Replication, failover, checksums, logging — they exist to make deviation visible. Testing is not a phase. It is a permanent state.
And this is where reliability becomes strategic. When critical data infrastructures depend on external providers, opaque supply chains, or centralized control, availability is no longer purely technical. It becomes geopolitical. A system that cannot guarantee its own continuity cannot guarantee its autonomy. Reliability, then, is not merely engineering discipline. It is a condition for sovereignty.
The Digital World Thought It Was Different
In cyberspace, we have been less rigorous. We built infrastructures on speed, scale, and efficiency. Cloud platforms expanded faster than governance could keep up. Software was continuously deployed, but rarely continuously tested at system level. Logging became an afterthought — while in reality it should have been the black box of our digital world. We confused uptime with reliability.
Meanwhile, we have entered a digital war without possessing our own digital war industry. Critical infrastructure runs on foreign hyperscalers. Hardware production is outsourced. Core software depends on global supply chains. Digital sovereignty proves to be a fragile construct. Reliability is no longer a technical optimization. It is a geopolitical precondition.
This also means being able to fall back. To simpler systems. To segregated networks. To a second or third layer of assurance when the primary system fails — or is deliberately taken offline. Layered reliability instead of binary dependence. A mature infrastructure always has a fallback. Even analogue, if necessary. Not out of nostalgia, but out of strategic realism. Fail-safe is not a property of a single system; it is a property of an architecture capable of sustaining multiple realities — digital where possible, simpler where required.
Testing as a Permanent Parallel Reality
True reliability means your system is never “finished.” It permanently exists in a parallel testing phase. In the ICT world, this idea has re-emerged under new labels: observability, continuous monitoring, chaos engineering. But the principles are old. In aerospace and defense, logging has been essential for decades. The flight data recorder — the black box — records not only what goes wrong, but also what goes right. Precisely to detect deviations early and to know when something no longer behaves as intended.
When logging becomes intelligent — when AI recognizes patterns invisible to humans — something fundamentally new emerges: continuous testing at system level. Not merely verifying whether a function works, but verifying whether the system still behaves as designed. Including its failures. That is the essence of process-oriented quality assurance: measuring non-quality. If quality is the norm, then only deviations, errors, and non-quality can be measured.
This last point is crucial. A well-designed system explicitly defines its failure conditions. If a user does something incorrect, a predictable error must occur. If that error does not occur, it is an alarm signal — because the system is deviating from its design. AI makes it possible to verify this continuously. In parallel. At scale. Without shutting down the primary process. Your system effectively operates in two realities at once: the operational reality and the verification reality. Like a digital twin, bu now both digital.
Controlled Failure as Strategy
Chaos engineering may sound modern, but the principle is old. In defense systems, red teams are deployed to expose vulnerabilities. In space programs, subsystems are tested until they break — on the ground, not in the air. Controlled failure is not a sign of weakness. It is a form of strategic realism.
It aligns seamlessly with the concept of antifragility I have written about before: systems that grow stronger through exposure to stress. But antifragility without reliability is recklessness. First, the system must know its failure boundaries. Only then can it be deliberately stressed. That means: disrupt to learn. Simulate to understand. Test to remain sovereign.
Systems Engineering as a Resilience Strategy
Reliability Engineering is a discipline within systems engineering. It does not look at isolated components, but at interactions, dependencies, and cascading effects. In our digital infrastructure, single points of failure are more the rule than the exception. Central identity providers. Software monocultures. Global updates introducing identical vulnerabilities worldwide.
In aerospace, that would be unthinkable. There, any potential single failure is a design flaw. If we take digital sovereignty seriously, we must position reliability as a core competence. Not as a compliance checklist. Not as an IT appendix. But as a strategic design principle.
Complexity Demands Maturity
Complex systems always fail. But mature systems fail in a controlled manner. They log. They test. They simulate their own demise — in order to prevent it. Perhaps that is the real lesson from spaceflight and aviation. Not that technology can become infallible. But that reliability emerges from organized distrust. From identifying the minimal non-quality that will always exist somewhere.
In a world where digital infrastructure has become a battlefield, we can no longer afford naivety. Even the smallest system flaw will be found — so we must find it ourselves. Reliability is not a luxury. It is not an optimization. It is the precondition for autonomy. And perhaps even for freedom.