Antifragility: gecontroleerd falen
English version: scroll down.
Een vliegtuig mag falen. Maar nooit ongecontroleerd. In die twee zinnen zit eigenlijk alles besloten wat we in het digitale domein nog aan het leren zijn. Ik kom uit de aerospace. Daar is falen geen theoretische mogelijkheid, maar een ontwerpparameter. Hydrauliek kan uitvallen. Sensoren kunnen verkeerde waarden geven. Een motor kan in brand raken. De vraag is nooit of een systeem perfect is. De vraag is wat er gebeurt als het dat niet meer is. Een vliegtuig dat alleen veilig is zolang alles werkt, is per definitie onveilig.
Dat is antifragility in technische vorm. Het begrip werd populair gemaakt door Nassim Nicholas Taleb in zijn boek Antifragile. Hij beschrijft systemen die niet alleen bestand zijn tegen schokken, maar sterker worden van volatiliteit en stress. In de luchtvaart is dat geen filosofische exercitie, maar dagelijkse realiteit. Elk incident, elk bijna-incident, elke afwijking wordt geanalyseerd. Niet om schuldigen aan te wijzen, maar om het systeem veiliger te maken.
Luchtwaardigheid is ingebouwde antifragility.
Luchtwaardigheid betekent dat een toestel alleen mag vliegen als het aantoonbaar veilig is. Niet ‘waarschijnlijk veilig’, maar aantoonbaar veilig. Wereldwijde luchtvaartautoriteiten hebben dat vertaald in een fijnmazig systeem van eisen, inspecties en certificeringen. Redundantie is verplicht. Single points of failure zijn onacceptabel. Gecontroleerde degradatie is onderdeel van het ontwerp. Als systeem A uitvalt, neemt systeem B het over. Als meerdere systemen falen, volgt een procedure. Als onzekerheid te groot is, blijft het toestel aan de grond. Grounded. Dat woord zouden we vaker moeten gebruiken in digitale omgevingen.
In de IT-wereld zie ik te vaak het tegenovergestelde. Systemen gaan “weer live” terwijl de oorzaak van een incident nog niet volledig begrepen is. Back-ups blijken niet getest. Logs ontbreken of zijn onvolledig. Ketenafhankelijkheden zijn diffuus. Maar we willen weer door. Beschikbaarheid is immers heilig. Beschikbaarheid zonder aantoonbare integriteit is echter geen kracht, maar een risico.
De digitale dreiging neemt toe. AI maakt aanvallen adaptief. Identiteiten worden gekaapt met een geloofwaardigheid die nauwelijks van echt te onderscheiden is. Ketens maken ons flexibel, maar ook afhankelijk van partijen die we niet volledig controleren. Met de komst van de Europese NIS2 Directive verschuift cybersecurity bovendien van technische zorg naar bestuurlijke verantwoordelijkheid. Toch blijft de reflex vaak defensief: hoe houden we indringers buiten? Dat is de verkeerde vraag. De juiste vraag is: wat gebeurt er als ze binnen zijn? Wat gebeurt er dan en wat doen we dan!
Gecontroleerd falen
In de luchtvaart is die vraag allang beantwoord. Een vliegtuig is ontworpen met het besef dat er onderweg iets misgaat. Daarom zijn er meerdere hydraulische circuits. Daarom zijn er dubbele en driedubbele systemen. Daarom worden piloten getraind op scenario’s die ze hopelijk nooit meemaken. Daarom bestaan checklists voor het moment dat de druk wegvalt of de motor stilvalt. Het toestel mag falen, maar nooit ongecontroleerd. Voor vrijwel elk faalscenario is vooraf een respons bedacht. Digitale antifragility begint precies daar. Niet bij het idee van perfecte beveiliging, maar bij het ontwerp van gecontroleerde degradatie.
Wat is het minimale functionele niveau waarop een organisatie veilig kan blijven opereren? Welke kernprocessen moeten absoluut blijven draaien? Welke data is kritisch? Welke identiteiten zijn cruciaal? En belangrijker: kunnen we terugschakelen naar dat veilige niveau als het nodig is? Dat is digitale luchtwaardigheid. Niet als certificaat aan de muur, maar als bestuursfilosofie. Een periodieke “airworthiness review” van de eigen digitale infrastructuur. Zijn er single points of failure? Is er redundantie in kritieke systemen? Kunnen we autonoom herstellen, of zijn we volledig afhankelijk van een leverancier? Wat gebeurt er als een identity provider uitvalt? Wat gebeurt er als een cloudomgeving niet beschikbaar is? Ik heb bij klanten veel ‘What if. . . . ‘ sessies mogen leiden, die altijd tot enorm veel lering leidden door onbekende of onbedachte afhankelijkheden of gevolgen.
Digitale soevereiniteit
Soevereiniteit krijgt hier een praktische betekenis. Niet als geopolitiek statement, maar als operationele zelfredzaamheid. Kunnen we veilig landen zonder hulp van buiten? In aerospace is er nog een ander element dat essentieel is voor antifragility: de flight recorder. De zwarte doos die alles vastlegt. Gesprekken in de cockpit. Technische parameters. Tijdlijnen tot op de seconde nauwkeurig. Na een crash — hoe tragisch ook — volgt een diepgravend onderzoek. Het doel is niet vergelding, maar begrip. Wat gebeurde er werkelijk? Welke aannames klopten niet? Welke procedures faalden? Welke ontwerpkeuzes moeten worden aangepast?
Het wrange is dat de luchtvaart veiliger wordt door crashes. Dat is geen troost voor verloren levens, maar wel een systeemkeuze: we leren structureel. We documenteren. We delen bevindingen. We passen standaarden aan. Wat vandaag een tragedie is, mag morgen niet opnieuw gebeuren. In digitale omgevingen ontbreekt die volwassenheid nog te vaak. Incidenten worden geminimaliseerd. Reputatieschade weegt zwaarder dan transparantie. ‘Root cause analyses’ blijven intern en oppervlakkig. Logs worden niet lang genoeg bewaard om werkelijk te reconstrueren wat er gebeurde.
Ieder zijn digitale flight recorder
Een antifragiele digitale organisatie heeft haar eigen flight recorder. Logging en monitoring zijn niet optioneel, maar fundamenteel. Post-incident reviews zijn standaard. Lessons learned leiden tot architectuuraanpassingen, niet tot tijdelijke pleisters. En soms betekent het: we blijven grounded. Dat is misschien wel de moeilijkste les. In aerospace is het ondenkbaar dat een toestel opnieuw opstijgt zonder inspectie na een incident. In het digitale domein zetten we systemen online omdat de business door moet. Begrijpelijk, maar gevaarlijk.
Antifragility vraagt om bestuurlijke discipline. De moed om tijdelijke beschikbaarheid op te offeren voor structurele veiligheid. De bereidheid om afhankelijkheden zichtbaar te maken. De volwassenheid om te accepteren dat incidenten onvermijdelijk zijn — en dat juist daar de kans ligt om sterker te worden. Dat raakt ook aan cultuur. In de luchtvaart is het melden van bijna-incidenten geen zwakte, maar professionaliteit. Transparantie redt levens. Een piloot die een afwijking rapporteert, beschermt zijn collega’s. Een engineer die een fout documenteert, verhoogt de standaard.
Gecontroleerd durven falen, is oefenen
Digitale organisaties kunnen die cultuur overnemen. Niet zoeken naar schuldigen, maar naar oorzaken. Niet alleen investeren in preventie, maar in herstelcapaciteit. Niet streven naar het onmogelijke — absolute veiligheid — maar naar gecontroleerde beheersing van falen. Een vliegtuig dat veilig kan landen met één motor minder, is sterker dan een toestel dat alleen onder ideale omstandigheden kan vliegen. Een organisatie die kan blijven functioneren onder digitale verstoring, is sterker dan een organisatie die alleen floreert zolang alles meezit.
Antifragility is geen hype. Het is luchtwaardigheid voor het digitale tijdperk. De vraag is niet of systemen falen. De vraag is of wij hebben ontworpen voor het moment dat ze dat doen. En dat we dan genoeg geoefend hebben om te weten hoe we het beste kunnen – of moeten – reageren! Dat is werkelijke digitale luchtwaardigheid . . .
Photo by Giu Vicente on Unsplash
—————————- Translated by ChatGPT —————————-
Antifragility: Learning to Fail Safely
An aircraft may fail. But it must never fail uncontrollably.
Those two sentences sum up almost everything we are still learning in the digital world. I come from aerospace, and in that world, failure is not an abstract possibility—it’s a design parameter. Hydraulics can fail. Sensors can give the wrong reading. An engine can catch fire. The question is never whether a system is perfect. The question is what happens when it is not.
An aircraft that is only safe when everything works perfectly is inherently unsafe. That is what antifragility looks like in practice. The term was popularized by Nassim Nicholas Taleb in Antifragile. He describes systems that not only survive shocks but grow stronger because of them. In aviation, this is not theory—it is daily reality. Every incident, near-miss, or deviation is carefully studied. Not to assign blame, but to make the system safer. Airworthiness is built-in antifragility.
Airworthiness means that a plane can only fly if it is demonstrably safe. Not probably safe, not “safe enough”—but verifiably safe. Global aviation authorities have turned this principle into a rigorous system of rules, inspections, and certifications. Redundancy is required. Single points of failure are unacceptable. Controlled degradation is part of the design. If system A fails, system B takes over. If multiple systems fail, there is a procedure to follow. And if uncertainty becomes too high, the plane simply stays grounded.
Grounded.
We should use that word more often in the digital world. Too often, in IT, the opposite happens. Systems are brought back online while the cause of an incident is still unclear. Backups turn out to be untested. Logs are missing or incomplete. Dependencies across suppliers and systems are murky. And yet, we push forward—availability is sacred, after all.
But availability without integrity is not a strength. It’s a risk.
Digital threats are growing more complex by the day. AI makes attacks adaptive. Identities are stolen with a realism that’s almost indistinguishable from the real person. Supply chains make us flexible, but also more dependent on parties we cannot fully control. And with regulations like the European NIS2 Directive, cybersecurity is no longer just a technical concern—it’s a leadership responsibility. Yet the reflex is often defensive: how do we keep attackers out? That’s the wrong question. The real question is: what happens when they get in?
Designing for Controlled Failure
In aviation, we’ve already answered that question. Planes are built with the understanding that something will go wrong in flight. That’s why hydraulic systems are duplicated, engines and instruments have backups, and pilots train for scenarios they hope never to see. Checklists exist for sudden pressure drops, engine failures, and every other contingency. A plane may fail—but never uncontrollably. For almost every failure scenario, a response has already been planned.
Digital antifragility starts the same way. It isn’t about perfect security; it’s about designing for controlled degradation. What is the minimum level at which an organization can remain operational and safe? Which core processes must continue no matter what? Which data is essential, and which identities are critical? Most importantly, can we revert to that safe level when needed? That is digital airworthiness.
Not as a certificate on the wall, but as a governance philosophy. A regular “airworthiness review” of your digital infrastructure ensures there are no single points of failure, that redundancy exists for critical systems, and that autonomous recovery is possible. What happens if your identity provider fails? What if a key cloud environment goes offline? Over the years, I’ve run countless “What if…?” sessions with clients, each revealing previously unknown dependencies and consequences—and always leading to invaluable learning.
Digital Sovereignty
Sovereignty here has a practical meaning. Not a geopolitical statement, but operational self-sufficiency. Can we land safely without help from the outside? In aviation, there is another critical element: the flight recorder. The black box captures everything—cockpit conversations, technical data, timelines accurate to the second. After a crash, as tragic as it may be, a thorough investigation follows. The goal is understanding, not blame. What really happened? Which assumptions were wrong? Which procedures failed? Which design choices need adjustment?
The paradox is that aviation becomes safer through crashes. It is not consolation for lost lives, but a deliberate systemic choice: we learn structurally. We document, share findings, and adjust standards. What is a tragedy today should never happen again tomorrow. In digital environments, that level of maturity is still often missing. Incidents are minimized. Reputation concerns outweigh transparency. Root cause analyses remain superficial and internal. Logs are not retained long enough to reconstruct what really happened.
Everyone Needs a Digital Flight Recorder
An antifragile digital organization has its own flight recorder. Logging and monitoring are not optional—they are fundamental. Post-incident reviews are standard. Lessons learned lead to architectural improvements, not temporary patches. And sometimes that means staying grounded. That may be the hardest lesson. In aviation, it is unthinkable to fly again without inspection after an incident. In the digital world, systems are often brought online because the business must continue. Understandable, but dangerous.
Antifragility demands governance discipline. The courage to trade short-term availability for structural safety. The willingness to make dependencies visible. The maturity to accept that incidents are inevitable—and that exactly there lies the opportunity to become stronger. It is also a cultural challenge. In aviation, reporting near-misses is not weakness—it’s professionalism. Transparency saves lives. A pilot reporting a deviation protects colleagues. An engineer documenting a mistake raises the standard.
Learning to Fail Safely
Digital organizations can adopt the same mindset. Focus not on blame, but on understanding causes. Invest not just in prevention, but in recovery. Strive not for the impossible—absolute safety—but for controlled management of failure. A plane that can land safely with one engine out is stronger than one that only works under perfect conditions. An organization that can continue functioning under digital disruption is stronger than one that thrives only when everything goes smoothly.
Antifragility is not a trend. It is airworthiness for the digital age.
The question is not whether systems will fail.
The question is whether we have designed for the moment they do—and whether we have practiced enough to know how best—or must—respond.