Data Intelligence

Data gestuurde besluitvorming begon vele decennia geleden met de toepassing van Business Intelligence (BI), momenteel een markt van 23 miljard dollar. Aanvullend op BI is er intussen een net zo grote markt voor Kunstmatige Intelligentie. Beide markten hebben met elkaar gemeen dat ze data als bouwsteen hebben. Daarom wordt voor beide toepassingen kwaliteit van de onderliggende datastrategie steeds belangrijker. Immers ‘Garbage in’ is ‘Garbage out’. Daarom zien we een nieuwe categorie software opkomen – data-intelligence – die moet bepalen of te gebruiken data herleidbaar en betrouwbaar is. Immers, als je de output van een BI- of AI-systeem wilt certificeren, dan moet de grondstof van die eindproducten zelf ook certificeerbaar zijn.

Gekwalificeerde grondstof

Het ‘maken’ van gekwalificeerde ‘data’ is niet zo eenvoudig als het lijkt. Het gaat niet alleen over de herkomst en reden van het ontstaan, maar ook over de nauwkeurigheid en de normen, richtlijnen en kwaliteitssystemen waaraan die data moet voldoen. Als de mens (nog) in het proces is betrokken, kan die vaak aan de bel trekken als duidelijk wordt dat uitkomsten niet logisch of eenduidig zijn. Echter bij geautomatiseerde systemen – die er steeds meer komen – is die terugkoppeling er niet meer en val je terug op de kwaliteit van de grondstof. Net zoals dat geldt voor elk ander geautomatiseerd productiesysteem.   

Zeker bij Kunstmatige Intelligentie wordt de menselijke terugkoppeling al veel lastiger, omdat die mens wel moet ‘begrijpen’ wat het AI-systeem doet. Immers, als er een kleine fout optreedt, zal die zich vele malen herhalen en op die wijze uiteindelijk onzin produceren. Ondanks alle sterke punten van AI, lijdt deze techniek exponentieel onder de aanwezigheid van foute data. Voor betrouwbare AI zijn dus technieken nodig om die kwaliteit vóóraf te meten en dan ook toe te passen. Denk aan de inzet van metadata-beheer, datakwaliteit, data-governance, master data management, dataprofilering, data-curatie en data privacy.  Al deze individuele aandacht komt steeds vaker samen onder de paraplu van het algemene begrip ‘data-intelligence’. 

Actieve metadata

De markt van ‘data-intelligence’ groeit snel, vooral het specifieke onderdeel ‘actief metadata beheer’. ‘Actieve’ metadata is een effectief hulpmiddel om de enorme groei van beschikbare data, actief te kunnen ondersteunen. De data zelf in feite niet meer te overzien, dus zal noodgedwongen via de bijbehorende, veel kleinere metadata moeten gaan. Maar dan moet die metadata wel juist en actueel zijn. Dit kun je realiseren door metadata zelf actieve intelligentie te geven en zijn eigen datasets te (laten) controleren en beheren. 

Voorwaarde voor succesvol toepassen van data-intelligence is de aanwezigheid van een data-cultuur. Begrijpen hoe een kwaliteitssysteem voor gecontroleerde toevoer en opslag moet worden ingericht. Elke hoogwaardige industrie monitort immers constant zijn grondstoffen toevoer. Voor data als grondstof voor hoogwaardige informatie is dat niet anders. Net zoals we de term ‘pisbakken-staal’ hebben voor constructiestaal van lage kwaliteit versus ‘roestvast staal’ dat een veel betere kwaliteit, duurzaamheid en – last bus not least – strikt beheerde kwalificaties bezit. Op dezelfde wijze kun je met ‘pisbakken’ data ook geen hoogwaardige BI en AI producten maken. 

Confusius

Bijna alle organisaties zitten op vele silo’s historische data met vaak twijfelachtige kwaliteit. Toch gooien we die data niet weg, omdat het – net als archeologisch materiaal – nog steeds een bepaalde waarde bezit.  Maar archeologisch materiaal zit vol met onbekendheden. Zolang een gebruiker van data zich dat realiseert, is het geen probleem. Besef echter dat het een enorme ‘data-bibliotheek zonder goede catalogus’ is. Je weet pas welk ‘boek’ je hebt gepakt als je het voor je hebt liggen. Deze niet-geïnventariseerde data en kennis-silo’s zijn de belangrijkste uitdaging om data-intelligence goed in te richten. Elke slechte appel in de mand kan bij gelijktijdig gebruik de rest aantasten. 

Confucius wist 2500 jaar geleden al dat het beste moment om een boom te planten tien jaar geleden was. Het één na beste moment is die boom nu te planten. Deze wijsheid geldt ook voor data-kwaliteit: het een na beste moment is er zo snel mogelijk mee beginnen. We zijn immers in een tijdperk beland dat organisaties steeds meer data gaan delen. Als Fortierra zijn wij lid van de Data Sharing Coalition waar we in gezamenlijkheid met vele deelnemers onderzoeken hoe datasets in waarde stijgen als je ze breed kunt delen en hergebruiken. Nodig om succesvol nieuwe digitale ecosystemen te laten functioneren. De werkelijke waarde van data kan daarom alleen worden gerealiseerd als data wordt gedeeld en hergebruikt in de gehele digitale economie. 

Met wie deel je wat . . .

In die nieuwe data-economie gaat het niet alleen om nieuwe waarden creëren, maar ook over verantwoordelijkheid en aansprakelijkheid. Governance, compliance en risico-management zijn de basis voor bestuurlijke verantwoordelijkheden rond datasharing. Te vaak wordt alleen maar naar de aantrekkelijke voordelen en waardecreatie gekeken. Rond data-governance is intussen binnen Europa een heel goed kwaliteitssysteem ontwikkeld. Op 25 November 2020 is door de EU een nieuwe verordening inzake gegevensbeheer aangenomen – de Data Governance Act – die een belangrijke pijler is van de EU-datastrategie om een geborgde uitwisseling van gegevens te stimuleren. 

De Data Governance Act stelt voorwaarden voor het hergebruik van beschermde gegevens die in het bezit zijn van de publieke sector. Daarnaast stelt het kaders voor de oprichting van en het toezicht op onafhankelijke (commerciële) datadienstverleners en verzamelaars voor zogenaamde altruïstische doeleinden (zonder winstoogmerk). Europa loopt al jaren achter op de VS en China op het gebied van data. Maar ik heb daar eerder over geschreven, soms kun je als laatkomer juist wel het juiste voordeel uithalen. In de VS regeert de markt, in China regeert de partij. In Europa willen we juist de burger laten regeren. Ingebed in democratische grondrechten en niet de vrije markt, noch een partij of een centralistische overheid. 

Zelf in actie komen

Dat is een uitdaging, en die hebben we vaker gehad en met succes uitgevoerd. In een eerdere blog schreef ik over de nieuwe uitdagingen rond vernieuwing en ethiek. Over de traditie in Europa om de burger centraal te stellen en te beschermen. Niet de markt of de staat heeft de macht, maar de vertegenwoordigende macht van de burgers. Ook niet ‘overlaten’ aan de goedwillende vierde macht van ambtenaren, die – als we het als burgers niet actief inbrengen – achter hun bureau het voor ons wel zullen regelen. 

Daarom zullen we vaker zelf in actie moeten komen om de uitwassen van het internet en ongelimiteerd data verzamelen te elimineren. Zullen we vaker zelf in actie moeten komen om onze nieuwe open datawereld te beschermen. Zullen we vaker zelf in actie moeten komen om de kwaliteit van onze digitalisering in de maatschappij te borgen. Net als we eerder voor persoonlijke veiligheden en zekerheden voor ons als `Europese burgers’ hebben gedaan. Los van de VS en los van China. Maar zoals wij het samen al decennia op basis van samenwerking en met onze ‘oude vertrouwde’ democratische waarden willen hebben. 

Photo by Thomas Bormans on Unsplash