Kindertoeslagen, onvolkomen data en slechte algoritmen.
Afgelopen week las ik op LinkedIn een interessante beschouwing over het gevaar van ‘ongewenst totalitair gedrag door slechte data analyse’ van Marlon Domingus, data protection officer bij de Erasmus Universiteit Rotterdam. Hij ging in op het ontstaan van ‘totalitair gedrag’ gebaseerd op het boek ’The Origins of Totalitarianism’ (Hannah Arendt, 1951) over de gruwelijkheden van de Tweede Wereldoorlog. Marlon legde in zijn beschouwing een vergelijkbare link met de actuele kindertoeslagenaffaire, die ontstond door het verkeerd gebruik algoritmen bij data analyse van de belastingdienst. Hoe een in eerste instantie oprecht ‘systeem’ ongemerkt en langdurig vele onschuldige burgers kon vermorzelen.
Willekeurige slachtoffers
In een artikel in Politico is de toeslagenaffaire al eerder als waarschuwing gebruikt voor het enorme risico van het verkeerd gebruik van algoritmen door een overheid. Het schandaal heeft zelfs een aparte Wikipedia pagina die de trieste resultaten uitputtend beschrijven. Ons land als wereldwijd voorbeeld hoe verkeerd gebruikt van data en algoritmen (grotendeels) onschuldige burgers door een systeem tot willekeurige slachtoffers van uitkeringsfraude maakte.
Marlon’s belangrijkste conclusie is dat ‘The Origins of Totalitarianism’ ons leert dat ook in onze tijd dit soort ongekende negatieve effecten voor burgers mogelijk zijn. In onze moderne datagedreven wereld met twijfelachtige besluitvormingsprocessen op basis van onvolledige dataverzamelingen en foute algoritmen. Hoe kan een door bureaucraten beheerd informatiesysteem, namens een democratische regering, burgers uiteindelijk hun fundamentele juridische en morele persoonlijkheid ontnemen? Burgers die slachtoffer worden van beleid om ‘fraudeurs’ hard aan te pakken. Met alle negatieve gevolgen van dien. Burgers die willekeurige slachtoffers worden door verkeerd gebruik van data, modellen en algoritmen, terwijl dit ironisch genoeg natuurlijk nooit een opzettelijk of geheim plan van de belastingdienst of de regering was geweest.
Onvolledige data en verkeerde algoritmen
De link die Marlon legt tussen de gruwelen uit de Tweede Wereldoorlog waar burgers ook door een ‘systeem’ willekeurige slachtoffers werden en de gruwelen van de toeslagenaffaire waar een ‘systeem’ in feite hetzelfde kon doen, geeft een angstig gevoel. Als maatschappij, zowel bedrijfsleven als overheid, hebben we zoveel data verzameld en zo veel algoritmen ‘bedacht’ dat een verkeerde of onjuiste combinatie dus ongemerkt en ongezien tot dit soort gruwelijkheden kan leiden. Ergens in de keten is de dan menselijke waarde van beslissingen over mensen, verdwenen: ‘de computer zegt dat u een fraudeur bent . . . ‘
Het belang van de blijvende inbreng van menselijke waarde bij het gebruik van data, zeker daar waar het over mensen c.q. burgers gaat, is groot. In eerdere discussies over data gedreven rechtspraak, waar blijkt dat de computer uit de veelheid van eerdere zaken vrij zuiver vergelijkbare zaken – en natuurlijk ook vonnissen – kan aangeven, moet toch altijd uiteindelijk de rechter, als mens, een eindoordeel geven. Ongeacht al de kille data en het technische materiaal, de menselijke waarde moet voorop staan om een menselijk oordeel te vellen. In dat kader haalt Marlon enkele uitspraken van de filosoof Immanuel Kant aan: “Gedachten zonder inhoud zijn leeg, intuïties zonder concepten zijn blind”.
Data zonder doel is waardeloos
Bovenstaande beschouwing leert ons dat data, waarvan we de bron, de betekenis en de inhoud onvoldoende kennen, eigenlijk waardeloos is. Die conclusie is best ernstig, omdat heel veel verzamelde data eigenlijk aan die kwalificatie voldoet. Dat is ook de discussie die vaak wordt gevoerd of je datacentrisch of informatiecentrisch moet werken. Immers data is nog geen informatie, nog geen boodschap maar slechts een waarde, een begrip, een toestand of een teken. Zoals het bekende voorbeeld dat pas de juiste combinatie en vertaling van de verschillende data-elementen – 32, graden Fahrenheit, buiten – een bruikbare boodschap wordt, als de vraag is of ik een jas aan moet trekken als ik naar buiten ga. Zonder die vraag heeft die data geen actuele waarde.
Dus data verzamelen, moet een doel, een vraagstelling in zich hebben om zinvol te zijn. Waar wil ik die data voor gebruiken? Waarom wil ik die data in dat formaat hebben? Mag ik die data wel verzamelen en bewaren? Kan ik ook op een andere wijze mijn vraag beantwoorden? Allemaal vragen die vaak niet worden gesteld als men besluit data te verzamelen. Zoals we tijdens de natuurkundelessen al leerden als we een meting gingen uitvoeren: wat wil je meten, wat kun je meten, hoe nauwkeurig is de meting en is één meting voldoende. Al snel bleek vroeger al, dat je met een op het oog simpele meting al gauw een hele practicum-middag zoet was, en aan het eind nog niet het exacte resultaat had waar je op gehoopt had. Goed meten is lastiger dan je denkt. Goed data verzamelen echter ook.
Modellen en algoritmen
Naast data, gebruiken we modellen en daaruit ontwikkelde algoritmen. Net zo als data een doel- en vraagstelling in zich moet hebben, geldt dat bij een model en algoritme ook. Waarvoor wil ik dat model gebruiken? Welke uitkomsten wil ik hiermee creëren? Welke vragen wil ik hiermee beantwoorden? Hoe nauwkeurig kan ik het antwoord berekenen? Ik kom nog uit de tijd dat we de rekenliniaal gebruikten die op fabelachtige wijze een vrij nauwkeurig decimaal antwoord kon geven. Echter zonder dimensie. Het was 1,3675 maar kon ook 13,675 zijn, of 136,75 of 0,13675. Die orde van grootte moest je als rekenaar zelf benoemen. Dat maakte dat je qua ordegrootte nooit echt de fout in kon gaan.
Met de komst van rekenmachine en computer verdween die ‘kennis over ordegrootte’ helaas en werd de uitkomst van de computer de waarheid. Zelfs als het ordes te klein of te groot was. Waarmee het begrip van de vragenstelling, het begrip van de berekening en het begrip van de uitkomst makkelijk vervaagde. Rekenen omdat we kunnen rekenen. Daarom is het gebruik van verzamelde data en computermodellen voor niet wiskundig onderlegde personen risicovol. Immers, als je gevoelsmatig niet de uitkomsten kunt aanvoelen en controleren, intuïtief gekke antwoorden niet herkent en qua ordegrootte lastig kunt inschatten of een antwoord reëel is, dan worden uitkomsten heel snel onzin en flauwekul.
Wiskunde is de basis voor informatica. Iedereen die met data, modellen en algoritmen werkt en aan de uitkomsten waarde wil toekennen, dient wiskundig geschoold zijn. En begrijpen dat niets absoluut is en altijd afwijkingen en toleranties heeft. Anders is het gevaar groot dat dit gebruik door leken tot ontsporingen leidt, zoals besproken in het begin van deze blog. Dat lijkt erg zwart wit, maar gezien de maatschappelijke gevaren zoals besproken aan het begin van deze blog, geen overbodige conclusie. In onze groeiende virtuele, datadreven wereld dienen we steeds strikter onder vingers aan de pols te houden wat betreft – en niet in de laatste plaats de controle van – de kwaliteit van data, modellen en algoritmen.