Het is tijd dat we data gaan zien als taal
Overal ter wereld leren we de taal van het land waar je geboren wordt. In onze jonge jaren leren we er wellicht nog enkele buitenlandse talen bij. In de informatiemaatschappij die nu ontstaat, wordt data ook een steeds belangrijkere ‘taal’. Met data en de daaruit opgebouwde digitale informatie communiceren we onderling steeds directer. En hoe sterker we afhankelijk worden van alle data, hoe belangrijker het is om te bepalen hoe we data moeten zien en hoe we deze moeten interpreteren.
Het artikel ‘Leer iedereen data als tweede taal’ citeert Frank Buytendijk van Gartner, die vorig jaar een lezing hield over dit onderwerp: “Eén van de belangrijkste initiatieven voor de komende jaren is het creëren van data-alfabetisme: leren data lezen.” De boodschap van Buytendijk is dat we het digitale ‘gekwebbel’ op sociale media, in persberichten en jaarverslagen beter moeten kunnen interpreteren. De data is er immers al, dus we moeten proberen als mens al die data als boodschap sneller te synthetiseren en te begrijpen. Dat is lastiger dan men denkt omdat we dan data op een taalkundige wijze moeten kunnen begrijpen.
Abstractie
Een Gartner-studie over nieuwe ‘data mesh networks’ gaat dieper in op data als levende taal. Een taal die niet dood is, zoals Latijn, maar elke dag weer veranderingen ondergaat. Een taal waarmee telkens nieuwe informatie wordt gemaakt. Een taal die zich steeds dieper in de haarvaten van onze belevingswereld nestelt. Naast het alom aanwezige internet digitaliseren we met IoT intussen dode materie om ons heen. De levende en dode wereld gaan data met elkaar uitwisselen: het niet begrijpen van die taal maakt je een data-analfabeet.
Data is naast gesproken taal mede een sociale communicatievorm geworden. Het overstijgt culturen en kan elk mogelijk logische concept representeren dat het menselijke brein kan bedenken. Elke taal heeft verschillende lagen van abstractie en voor ‘data als taal’is dat niet anders. En metadata is de aangewezen plek om daar afspraken over te maken. Metadata kan beschrijven hoe we data moeten interpreteren en op welk abstractieniveau die data betekenis heeft.
Data als taal
Als we data als een taal beschouwen, moeten we het niet slechts zien als gegevens over transacties, rapporten en analyses. Data is dan een communicatiemedium, losgekoppeld van eigenaarschap en specifieke usecases. Een taal die van iedereen is en die we allemaal vrij mogen en kunnen gebruiken. Net zoals bij natuurlijke talen voegen we allemaal onze eigen ervaringen toe aan onze spraak, we spreken immers allemaal vanuit sociale achtergrond, ervaringen en inzichten.
Taal bestaat uit drie lagen: de letters of symbolen om woorden en zinnen te maken, de sociale samenhang en betekenis van een boodschap en tenslotte het medium dat we voor communicatie gebruiken. Taal is meer dan een simpel lineair, algebraïsch proces: het bestaat uit semantiek, zinsbouw en grammatica. Het faciliteert communicatie in een context vanuit verschillende perspectieven. Als data een taal is dan moeten we kijken naar de linguïstieke interpretatie van de data. Dan is de data-boodschap niet meer puur algebraïsch opgebouwd, maar wordt net zo interpreteerbaar als natuurlijke tekst.
Datavaardigheid
Klinkt allemaal ingewikkeld, maar de waarde van data is in eerste instantie bepaald door de bron. De kwaliteit van de boodschap en de kwaliteit waarmee het gemaakt is, de reden van het bestaan en de (soms verborgen) reden dat de data is gecreëerd. Dat betekent dat we moeten weten wáár data in een informatie-infrastructuur is ontstaan, omdat dat veel zegt over de creatie zelf. Omdat bij ‘data als taal’ het strikte aspect data-eigenaarschap vervalt, wordt ‘data als taal’een boodschap voor en van ons allemaal. En vraagt algemene richtlijnen hoe we die data dan structureren en hiervoor de gewenste semantiek, zinsbouw en grammatica afspreken.
Het Information Capabilities Framework (ICF) van Gartner beschrijft een generieke aanpak voor informatie architecten om van data een taal te maken. Eigenlijk zou iedereen die met informatie werkt deze principes moeten kennen. Net zoals elk kind op school vaardigheden leert om zijn moedertaal te spreken. Je kan het data-vaardigheid noemen, als onderdeel van de digitale vaardigheden die de mens in de digitale maatschappij moet beheersen.
Data hebben we altijd gezien als een logische set gegevens uit een proces of operatie die op een bepaalde fysieke manier is samengesteld. Datafysica – hoe data fysiek is gemaakt – en datalogica – de boodschap van die data – hadden weinig met elkaar te maken. Fysica is technisch en rechtlijnig: verbindingen, lezen, schrijven, volume, compressie. Data wordt op dezelfde rechtlijnige wijze bewerkt, opgeslagen en bewaard. Maar als data een taal is die in een context en sociale samenhang moet worden beschouwd, is die kale rechtlijnigheid onhandig. Immers de intentie, de context in de tijd en de sociale interpretatie moeten dan ook worden bewaard.
Data Mesh Netwerken
Tussen de sociale omgang hoe wij ‘data als taal’ gebruiken om te communiceren en het fysieke datanetwerk, waar data als kale data wordt gecreëerd, verbonden en opgeslagen, is een tussenlaag nodig die data naar taal vertaalt. Dat is een ‘vermaasd’ netwerk waar we de metadata van al die data met elkaar kunnen relateren. Waar we de context, de gebruikte semantiek, zinsbouw en grammatica vastleggen van zeg maar de linguïstieke interpretatie van data.
Dat vraagt nieuwe vormen van meta-datamanagement. Hoe gaan we van data opgebouwd uit symbolen en letters, woorden en begrippen maken? Hoe gaan we die woorden vastleggen en in zinnen beschrijven opdat we ze kunnen gebruiken voor onderlinge communicatie. Hoe bruikbaar zijn ‘tokens’ daarvoor, in onze informatiewereld een veel gebruikte manier voor een gevalideerde representatie van een feit, bewijs of kwaliteit. Een token als identificatie of bewijsstuk levert vooral in sociale structuren gewenste betrouwbaarheid in communicatie.
Intelligentere data
Door tokens ook semantisch te gebruiken, krijgen we de bouwstenen om data werkelijk als taal te gaan toepassen. Daarmee kunnen we ‘dingen’ intelligenter maken waardoor ze in plaats van platte, rechtlijnige data veel meer intelligente boodschappen kunnen uitwisselen. Denk aan auto’s die naast of achter elkaar rijden en over hun positie en plannen willen communiceren. De wereld rond elke auto verandert ieder moment maar de afgesproken taal die zij onderling spreken, moet hetzelfde blijven. Data als taal is dus zeker ook interessant voor de opkomende wereld van het Internet of Things.
Als uw brandmelder of deurslot wil communiceren met uw bewakingssysteem, uw ijskast met uw slimme keuken en uw elektriciteitsmeter met uw slimme huis is ‘data als taal’ bijna een voorwaarde. Hoe mooi zou het zijn als die taal ook voor ons mensen begrijpelijk wordt en we die taal ook sociaal breder kunnen gebruiken. En makkelijker met de digitale wereld om ons kunnen communiceren. Een nieuwe taal die data én zijn gebruik en context beschrijft en niet slechts zijn oorsprong, metrische waarde en algebraïsche vorm of structuur.
Deze blog was eerder gepubliceerd op www.datacentered.nl op 17 juli 2018