Aquarium of vissoep?
De Franse Oost-Europa deskundige Jacques Rupnik stelde ooit de retorische vraag: “We weten dat je van een aquarium vissoep kunt maken. Maar kun je van vissoep weer een aquarium maken?” Zijn opmerking was in de context of je van een communistische maatschappij, waarin alles gelijk en ondoorzichtig was gemaakt, ooit weer een open maatschappij zou kunnen maken, helder, doorzichtig met vrij zwemmende vissen. Sommige processen zijn onomkeerbaar. Teruggaan kan niet. Van voren af aan beginnen, is de enige mogelijkheid.
Datasoep
Aan deze vergelijking moet ik regelmatig denken, als ik de onoverzichtelijke data-structuren zie die in sommige organisaties zijn ontstaan. Vele losstaande silo’s met verschillende data zonder totaal-overzicht: datasoep. In de toeslagen-affaire meldde de staatsecretaris dat de belastingdienst 400 uur (!) werk heeft aan elk dossier. Dat betekent bij een 40-urige werkweek 10 volle weken werk om één dossier te vullen en compleet te maken. Terwijl ik vanuit mijn datacentrische visie denk: dat moet toch met één druk op de knop en wat aanvullende ordening makkelijk te creëren zijn? Maar ja, ik denk in heldere, doorzichtige aquaria met aan te wijzen vissen en bij een vissoep werkt dat toch iets anders.
Vooraf ordenen en instandhouden
Het is zo jammer dat we de mooie data-geordendheid die we aan het beging van het computer tijdperk nog hadden, de afgelopen decennia zijn kwijt geraakt. Het oude mainframe was een krachtige informatie-stoommachine met de beperking dat de data enorm goed gestructureerd en geordend moest zijn. Als een systeem relatief dom is, moet je de bouwstenen en grondstoffen goed ordenen en structureren. Dan is automatisering ook prima mogelijk. Denk aan de programmering van robots: als de voorwerpen die een robot moet pakken duidelijk georiënteerd aanwezig zijn, is het een fluitje van een cent om de robot te programmeren het voorwerp in de juiste positie van de juiste plaats op te pakken. Echter als alles door elkaar ligt, zijn dure vision-systemen nodig. Een hele tour die robot dan de juiste dingen te laten doen.
Bovenstaande is de simpele les uit de fysieke productie-automatisering waar ik vroeger actief was. Classificeren, ordenen en vooral: die ordening zo lang mogelijk instandhouden. Alle ordening die je verliest, kun je of nooit meer terug krijgen – denk aan de vissoep – of het kost je een vermogen om op te ruimen en die oude situatie weer te herstellen. Dat geldt in de wereld van data ook. Data is de belangrijkste grondstof in onze digitale maatschappij. Dus elke ordening die we in die data hebben – of makkelijk kunnen verkrijgen – moeten we omarmen. Daarnaast moeten we die data ook kunnen zien. Van vele kanten kunnen bekijken. Net als de vissen in het aquarium. Elke vis – vergelijkbaar met een gedefinieerde dataset – herkenbaar, in helder water en van alle kanten te bekijken.
Aquaria inrichten
Het organiseren van je data-omgeving is als het inrichten en onderhouden van een aquarium. Allereerst moet je weten hoeveel vissen en welke soorten je allemaal in dat aquarium wilt houden. Immers dat stelt niet alleen eisen aan de grootte van het aquarium maar ook aan de samenstelling van het water (zoet, zout), de temperatuur (kamertemperatuur of tropisch), de beplanting en beluchting (zuurstofbehoefte) en last bus not least de bodem (voer, mest, wortels waterplanten). Je kunt een voorbereid aquarium vergelijken met een goed gedefineerd datamodel: geschikt om alle data en informatie die je erin wil zetten op gezonde, zichtbare en herkenbare wijze een lange tijd in stand te houden.
Dan de keuze van de vissen. Je moet op zijn minst enige kennis van vissen hebben om in een aquarium een gezonde mix van vissen te hebben. En van elke vis of vissoort moet je weten waar deze vandaan komt en hoe je die moet verzorgen. Dat geldt ook bij data. In een goed datamodel kun je niet willekeurig elke data bij elkaar opslaan. De data moet aan bepaalde eisen voldoen en van elke dataset moet metadata bekend zijn om die data goed te kunnen beheren, terug te kunnen zoeken en te onderhouden. Data zonder enige achtergrond of kennis van de herkomst, wordt al gauw ‘weesdata’, zie mij eerdere blog hierover. En als je van data geen achtergrond hebt, is het steeds het lastig er nog waarde aan toe te kennen.
Vissoep voorkomen
Bovenstaande vergelijking tussen aquaria en vissoep is een waarschuwing, om absoluut te voorkomen dat in uw mooi georchestreerde dataland ‘ergens’ vissoep ontstaat. Het punt van vissoep is dat het op de korte termijn best smakelijk kan zijn, maar op lange termijn niet houdbaar is. En dus, als het geconsumeerd is, je de restjes moet weggooien. Op veel plaatsen wordt in projectomgevingen ongestructureerd een grote hoeveelheid data verzameld, nuttig voor actueel gebruik, maar die data heeft na afloop weinig waarde meer. Als data niet wordt gemaakt, verkregen of verzameld om later herbruikbaar te zijn, zijn het uiteindelijk niet meer dan eenmalige ingrediënten voor vissoep.
De kwaliteit van data is net zo belangrijk. Vergelijk het met de gezondheid van een vis. We zien bij de overheid een groeiende beschikbaarheid van open data ontstaan. Prachtig en volgens het Europese initiatief Inspire natuurlijk enorm belangrijk. Maar veel open data heeft helaas niet de kwaliteit die je zou willen. Van veel open data ontbreekt soms de achtergrond. Het is generieke vis die prima voor vissoep gebruikt kan worden maar die je niet makkelijk als een lang houdbare vis in je data-aquarium kunt plaatsen.
Tekortkomingen
Als wij vanuit Fortierra naar de open data kijken die de overheid beschikbaar stelt voor haar burgers, dan is die kwaliteit vaak onder de maat. Vis bedoelt voor eenmalige consumptie maar niet om aquaria mee te vullen of processen aan te sturen. Vis die interessant en wetenswaardig is, maar niet onderling vergelijkbaar, comptabel of herleidbaar. Zelfs maatschappelijk belangrijke projecten kampen met dit probleem. Als we het rapport VIVET lezen: Voorstellen om de informatievoorziening energietransitie te verbeteren (25 februari 2019) dan luidt de conclusie: Huidige informatievoorziening is ontoereikend. Ondanks de grote hoeveelheid data die momenteel beschikbaar is, zijn er toch nog belangrijke tekortkomingen.
Een letterlijke greep uit de conclusies: “. . . Veel relevante data wordt door uiteenlopende organisaties verzameld en op uiteenlopende wijze ontsloten. De ruimtelijke detaillering is regelmatig te beperkt om voldoende precieze berekeningen te kunnen maken. Er zijn doublures tussen verschillende bronnen zonder dat duidelijk is waar verschillen door worden veroorzaakt. Door verschillen in gehanteerde definities leidt combinatie van data uit verschillende bronnen ongemerkt tot inconsistenties. Over belangrijke onderdelen van het energiesysteem zijn geen open data beschikbaar. Soms zit wet- en regelgeving over toegestaan gebruik van data de toepassing voor ondersteuning van de energietrasistie in de weg. . . .”
Lange weg
De afgelopen jaren zijn mooie aquaria helaas te vaak in vissoep veranderd. Goed om snelle datahonger te stillen, maar niet voor een goede data-instandhouding. Natuurlijk zijn de essentiële registers in principe op orde, maar zelfs daar gaan dingen fout. Laatste ontdekte ik dat mijn perceel bij het kadaster onterecht aan een ander perceel was gekoppeld. Om als burger die fout te herstellen, ben ik 3 maanden in intensieve correspondentie met het kadaster geweest. En dan ben ik redelijk ingewerkt in die materie. Dus voor de gewone burger bijna niet te doen. Terwijl de burger de enige is die de fouten bij de overheid in zijn of haar data kan aankaarten en (laten) herstellen.
Datacentrisch denken in kwalitatief goede data is de meest kritische succesfactor voor een digitale transformatie. De tweede kritische succesfactor is openstaan voor elke verbetering van uw datakwaliteit. Want je weet nooit wat niet goed is, tenzij een ander u daar op wijst. Ook de overheid zou elke melding, die een burgers maakt over data-correcties of -verbeteringen, moeten omarmen. Immers open data groeit alleen maar in kwaliteit als burgers actief (kunnen) meehelpen die data verder te verbeteren.
Photo by Katie McNabb on Unsplash