Accountability in AI
In een eerdere blog ‘AI de allesomvattende toekomstbelofte?’ was ik al kritisch over de uitkomsten die alle nieuwe, mooie AI-gereedschappen ons aanreiken. Door de slimme taalmodellen kunnen we ‘opeens’ als mens heel makkelijk met de computer converseren. Dat kon natuurlijk al decennia lang, maar daarvoor moest je wel gedegen programmeerkennis hebben. Daarnaast hebben moderne AI-systemen zich uitgebreid kunnen ‘in-leren’ op een veelheid van informatie die publiek aanwezig is op het internet. Veel meer, dan wij als mens ooit kunnen bevatten. Dus AI maakt het heel makkelijk vragen te stellen aan een kennissysteem dat oneindig veel meer informatie heeft dan jij of ik. Maar toch blijft het uiteindelijk een statistisch zoek-algoritme dat de best mogelijke antwoorden geeft. Maar ‘het beste’ antwoord is juridisch gezien niet het absolute en enig juiste antwoord. De toeslagenaffaire heeft dat wel aangetoond.
Verantwoording en aansprakelijkheid van AI-besluiten
Hoewel AI een fantastisch ondersteunend gereedschap is voor vele activiteiten, is en blijft een AI-systeem een ‘domme’ computer waarmee we makkelijk kunnen converseren. Niet meer in machinetaal maar gewoon in menselijke conversatie. Het is een kennissysteem opgebouwd uit algoritmes die statistisch de meest logische antwoorden geven op verzamelde informatie. Maar een AI-systeem zal nooit verantwoording (kunnen) afleggen. Dat zal altijd ‘een mens’ moeten doen. Een concrete ondersteunende maatregelen voor zinvolle AI-verantwoording is de prestaties en impact van de systemen consequent te beoordelen en hierover te rapporteren. Een AI-audit systeem dat aangeeft hoeveel ‘non-kwaliteit’ het systeem levert.
Het IEEE artikel ‘AI-auditing: The Broken Bus on the Road to AI Accountability’ beschrijft dat slechts een subset van alle AI-audit studies zich vertaalt naar serieuze verantwoordingsresultaten. De maatschappelijke verwachtingen van AI nemen steeds verder toe, maar de gevolgen van potentieel verkeerd genomen besluiten – op basis van met AI gecreëerde informatie – kan onomkeerbare gevolgen hebben voor de (geestelijke) gezondheid, personeelsverplaatsing en economische, regelgevende en wetshandhavingsuitdagingen. Vooral openbare diensten en gereguleerde instellingen moeten zorgen voor verantwoorde AI om bevooroordeelde of onjuiste besluitvorming te voorkomen. AI kan nooit aansprakelijk zijn voor een besluit, dat is uiteindelijk de mens die het AI-advies overneemt, uitvaardigt en/of uitvoert.
Beperkingen van AI-modellen
AI-modellen, zoals grote taalmodellen, kunnen slechts antwoorden genereren op basis van statistische waarschijnlijkheden en trainingsdata. Dit introduceert inherente onzekerheid en kans op fouten, vooral bij complexe (juridische) vraagstukken. Hoe complexer wetgeving is (geworden), hoe lastiger AI-modellen hier uiteindelijk – juridisch houdbare – beslissingen over kunnen nemen. Nog los van de daarmee verband houdende ethische en onomkeerbare consequenties van deze beslissingen. Immers, de bias die elk AI-systeem nu eenmaal heeft, kan snel leiden tot discriminatie of ongelijke behandeling.
Wanneer AI beslissingen neemt, blijft de vraag wie verantwoordelijk is voor fouten of schade: de gebruiker, ontwikkelaar, het algoritme of de persoon die het besluit uitvaardigt. Of de bestuurder die dit goedkeurde. Deze discussie is niet nieuw en al uitputtend beschreven in vele artikelen over de zelfrijdende auto. Het Rathenau Instituut heeft aan de ethiek van AI al diverse artikelen gewijd. Al in 2016 verscheen het boek van Cathy O’Neil met de mooie dubbelzinnige titel ‘Weapons of Math Destruction’, waarin zij de gevaren van bias in AI-modellen uitgebreid beschreef. Ze stelt dat deze wiskundige gereedschappen drie belangrijke kenmerken delen: ze zijn ondoorzichtig, ongereguleerd en moeilijk te betwisten.
Weapons of Math Destruction
WMD’s, of Weapons of Math Destruction, zijn wiskundige algoritmen die geselecteerde menselijke eigenschappen gebruiken om mogelijke antwoorden te kwantificeren, wat kan resulteren in schadelijke effecten en de instandhouding van vooroordelen tegen bepaalde groepen mensen. Omdat ze enorm schaalbaar zijn, worden inherente vooroordelen snel versterkt om steeds grotere populaties te beïnvloeden. We zien dat ook vaak in de ‘echo-kamers’ van de – ook op algoritmen gebaseerde – social media: berichten die (achteraf) aantoonbaar onwaar zijn, kunnen vooruitlopende op die ontkrachting al onomkeerbare maatschappelijke gevolgen hebben.
De toeslagenaffaire toont helaas aan dat het achteraf corrigeren en herstellen van verkeerde besluiten, menselijkerwijs bijna onmogelijk is. Dat het niet eens AI-gebaseerde systemen hoeven te zijn, maar dat gebrekkige automatisering en niet actuele software tot dezelfde gevolgen kunnen leiden, is de WIA-affaire bij het UWV. Ook hier was sprake van complexe wetgeving die overlappend was, terwijl de medewerkers uit vele verschillende, niet gekoppelde, niet actuele applicaties de gegevens moesten verzamelen en over en weer moesten intypen. De mens werkend als een gedwongen AI-model dat uiteindelijk een niet-verifieerbare uitkomst opleverde die niet meer te herkennen en terug te leiden fouten bevatte.
De computer zegt NEE
We kennen de voorbeelden dat de computer ‘NEE’ zei omdat de software niet in staat was een specifieke vraag te beoordelen. Omdat de computer geen 100% bevestiging op de vraag kon geven en het antwoord ‘ik weet het niet zeker’ niet bestond, werd het antwoord dus ‘Nee’. Dit is het grote probleem als kennissystemen worden gebruikt door minder deskundigen. Zij kunnen niet zeker beoordelen of een uitkomst (voldoende) logisch en redelijk is. Hoe kun je medewerkers – of breder gezegd organisaties – verantwoordelijk maken voor besluiten waarvan ze de inhoudelijke kennis niet meer in huis hebben en hun besluiten inhoudelijk niet meer kunnen uitleggen en onderbouwen. Dat wordt al snel juridisch drijfzand . . .
Daarom is de ontwikkeling van AI-auditing zo belangrijk. Een zero-trust instelling dat de computer altijd fout is, tenzij ondubbelzinnig kan worden aangetoond dat de computer echt gelijk heeft. Dus niet de computer zegt ‘Nee’ maar de mens zegt ‘Nee’ zolang er geen inhoudelijk bewijs of certificaat – inclusief aansprakelijke personen – is dat de uitkomst juist en juridisch houdbaar is. Dus in feite de zaak omdraaien en niet vanuit de organisatie denken, maar juist vanuit de burger of ondernemer. Niet van binnen naar buiten denken, maar juist van buiten naar binnen. De ambtenaar is fout, totdat deze heeft aangetoond dat dit het enige juiste besluit is dat kan worden genomen. Welke AI-gereedschappen hij of zij hiervoor ook heeft gebruikt.
Accountable, zonder of met gebruik van AI
Eigenlijk is de uitkomst dat iedere persoon uiteindelijk zelf verantwoordelijk blijft voor de door hem of haar genomen besluiten, of deze nu wel of niet gegeven of onderbouwd zijn door de gebruikte gereedschappen. En deze verantwoordelijkheid kun je alleen maar dragen als via audits overtuigend is vastgesteld dat het gebruik van deze gereedschappen goede en juridisch houdbare besluiten mogelijk maken. De praktijk zal zijn dat dit alleen maar mogelijk is als de onderliggende wetgeving zelf rechtlijnig en simpel genoeg is. Juridische kennissystemen bestaan en zijn betrouwbaar als we het over eenvoudige, rechtlijnige wetgeving hebben. Zonder uitzonderingen, zonder overlappende bepalingen en zonder aanzicht des persoons.
Photo by Ron Lach
———————— Translated by ChatGPT ———————–
Accountability in AI
In an earlier blog, “AI: The All-Encompassing Promise of the Future?”, I expressed skepticism about the outcomes offered by the new wave of AI tools. Thanks to advanced language models, we can now converse easily with computers in a human-like way—something that has technically been possible for decades, but only for those with extensive programming knowledge. Modern AI systems have trained extensively on publicly available online information, vastly surpassing what any individual human could ever comprehend. This allows us to ask AI questions and receive answers based on an incomprehensible wealth of data. However, at its core, AI remains a statistical search algorithm providing the best possible answer—not necessarily the correct or only valid answer. The Dutch childcare benefits scandal (toeslagenaffaire) starkly highlighted the consequences of such distinctions.
Responsibility and Liability for AI Decisions
AI, while an incredible support tool, is ultimately still a “dumb” computer. It enables human-like conversations but operates based on statistical probabilities derived from algorithms. Despite this, an AI system cannot be held accountable for its actions—only humans can take responsibility. One critical measure to ensure meaningful AI accountability is to consistently evaluate and report on the performance and impacts of these systems, a practice known as AI auditing.
An article in IEEE, “AI Auditing: The Broken Bus on the Road to AI Accountability”, notes that only a subset of AI audit studies currently leads to the desired accountability outcomes. As society increasingly relies on AI, the consequences of incorrect decisions based on AI-generated information can have irreversible effects on mental health, employment, the economy, and regulatory challenges. This is especially critical in public services and regulated institutions, which must ensure responsible AI use to prevent biased or flawed decision-making. Ultimately, AI cannot be held liable—only the individuals or organizations that adopt and act on AI’s recommendations bear that responsibility.
Limitations of AI Models
AI models, including large language models, generate responses based on statistical likelihood and training data. This approach inherently involves uncertainty and the potential for errors, particularly in complex legal or regulatory contexts. As legislation becomes increasingly intricate, AI struggles to provide legally sound decisions, let alone account for the ethical or irreversible consequences such decisions might entail. Additionally, inherent biases in AI systems can perpetuate discrimination and unequal treatment.
When AI makes decisions, questions of responsibility arise: Who is accountable for errors or harm caused—the user, the developer, the algorithm, or the individual implementing the decision? This debate is not new and has been explored extensively in discussions about self-driving cars. The Rathenau Institute and authors like Cathy O’Neil (“Weapons of Math Destruction”) have highlighted the risks of algorithmic bias, describing these tools as opaque, unregulated, and difficult to challenge.
Weapons of Math Destruction
Weapons of Math Destruction (WMDs) refer to mathematical algorithms that use human traits to quantify outcomes but often result in harmful effects and reinforce biases against specific groups. These algorithms, being highly scalable, can amplify inherent biases to influence vast populations. Social media, powered by algorithmic systems, provides a clear example: false information can spread widely and cause irreversible societal consequences before it is debunked.
The Dutch childcare benefits scandal exemplifies how correcting errors after the fact is almost impossible. Similarly, the inefficiencies of non-AI-based systems, such as outdated software and disjointed applications, were evident in cases like the WIA benefit system at the UWV. Here, employees had to manually compile data from disconnected systems, leading to untraceable errors and unjust outcomes.
“The Computer Says No”
We are familiar with scenarios where the computer simply says “No” because it cannot process a specific question or lacks the ability to respond with uncertainty. This is problematic when knowledge systems are used by less experienced users who cannot evaluate whether an outcome is logical or reasonable. How can organizations or employees be held accountable for decisions they do not fully understand or cannot explain? This creates a slippery slope of legal uncertainty.
This is why AI auditing is crucial. A zero-trust approach—assuming the computer is wrong unless proven otherwise—is essential. Decisions should not rely on a machine’s “No” but rather on a human’s informed evaluation, backed by evidence or certification ensuring the outcome is accurate and legally sound. Accountability should shift to prioritize the citizen or user rather than the organization, requiring officials to justify decisions rather than blindly trusting AI outputs.
Accountability, With or Without AI
Ultimately, accountability rests with the individual making the decision, regardless of whether it is informed by AI tools. This responsibility can only be fulfilled if audits confirm that these tools produce reliable and legally defensible outcomes. In practice, this is only feasible when the underlying regulations are straightforward and unambiguous. Legal knowledge systems are dependable when applied to simple, linear legislation without exceptions, overlaps, or subjective interpretation.
By adopting this approach, we can ensure AI remains a tool to assist human judgment rather than replace it—reinforcing the need for transparency, accountability, and ethical oversight in the age of AI.