Datageletterdheid (data literacy)

Datageletterdheid is de vaardigheid om databronnen te kunnen ‘lezen’, te kunnen ‘beargumenteren’ en uiteindelijk ‘ermee te kunnen werken’. Deze vaardigheid helpt bij het maken van keuzes, door aan de hand van grote hoeveelheden data, voorspellingen te geven van mogelijke uitkomsten. Een mooie definitie op de website van Ensie.nl, de systematisch ingerichte Nederlandse encyclopedie.

Een idee dat in 1943 ontstond bij de toenmalige Amsterdamse Boek en Courantmaatschappij N.V. In tegenstelling tot andere grote encyclopedieën, zoals de Winkler Prins, werd niet gekozen voor een alfabetische indeling van onderwerpen, maar voor een systematische indeling. Verschillende onderwerpen kregen hierdoor – binnen het geheel van alle kennis die de E.N.S.I.E. biedt – een logische opbouw.

E.N.S.I.E.
Zoals de ontstaansgeschiedenis van Ensie schrijft: “Men streefde er hiermee naar om het eenheidsverband tussen de verschillende wetenschappen en onderwerpen te kunnen geven”. In de eigen woorden van de ontwikkelaar professor Hendrik Pos: ‘Onze encyclopaedie heeft tot doel, boven de verzameling van feitelijke wetenswaardigheden uit te komen en de feiten af te ronden tot een geheel’. Vanaf het moment dat het eerste deel van de Eerste Nederlandse Systematisch Ingerichte Encyclopaedie (E.N.S.I.E.) werd uitgebracht in 1946, heeft het de redacteuren, drukkers en zetters een vrijwel onvoorstelbare hoeveelheid werk gekost om het gehele project in 1950 af te ronden. In 2014 werd de digitale versie ensie.nl gelanceerd. Ensie is momenteel een sociaal bedrijf en digitaliseert oude en nieuwe Encyclopedische werken die zij primair voor onderwijsdoeleinden beschikbaar stelt.

Datageletterdheid
Omdat geletterd met data omgaan een systematische aanpak vereist, kwam ik in mijn zoektocht op deze leuke zijstap over een systematisch ingedeelde encyclopedie. In een eerdere blog ‘Data als taal’ sprak ik over het woord geletterdheid. Naast het alfabet, waar we symbolen (letters) definiëren om woorden, begrippen en daarmee zinnen en boodschappen te kunnen vormen, kennen we ook een digibet. Een set symbolen (bits) waar we digitaal woorden, begrippen en daarmee zinnen en boodschappen kunnen vormen. Net als een alfabeet het alfabet kent, kent een digibeet het digibet. En analfabeet en adigibeet hebben die vaardigheid dus niet . . .

In onze digitaliserende wereld is de taal van data steeds belangrijker. Wat is de oorspronkelijke bron en bijbehorende brondata? Welke kopieën zijn ervan gemaakt? En nog belangrijker, hoe is de data aangepast voor verschillende gebruiksdoelen? Zeker in onze wereld van fakenews en de groeiende beroepsgroep van factcheckers is datageletterdheid een basisvaardigheid. Immers, data zijn net als letters de basis voor begrippen en boodschappen. En de vraag is altijd bij elke boodschap: wat is/was de intentie van een boodschapper om die boodschap te maken en te versturen? In de wereld van Big Data is de uitspraak over statistiek meer dan geldig: je hebt leugens, grove leugens en statistieken (toegeschreven aan Benjamin Disraeli).

Liegen met cijfers
Darrell Huff schreef in 1954 al het boek “How to lie with statistics”. In 2019 verscheen de Nederlandse vertaling ‘Liegen met cijfers’. Wereldwijd het meest gelezen boek over cijfers en statistiek ooit. Cijfers zijn absoluut, terwijl de waarheid dat nooit is. John Maynard Keynes zei al: ‘It’s better to be vaguely right than exactly wrong’. De interpretatie van data en cijfers is belangrijker dan de exacte waarde van die cijfers of die data. De nieuwe big data omgevingen en analytics en hun dataverzamelingen worden vaak zo precies en gedetailleerd doorgerekend dat er schijnprecisie ontstaat. Daarom kan big data niet zonder kennismanagement: wat zie ik, wat meet ik, wat betekent het en wat betekent het beslist (!) niet. Dat laatste is soms zelfs het belangrijkste, waar geeft deze data géén inzicht in.

Data zonder context is en blijft data zonder betekenis. Kennis en inzicht is en blijft nodig om de significantie te herkennen voor het gewenste doel. De oude rekenliniaal was een gereedschap dat zonder kennis en inzicht over wat je berekende, geen waarde had. De tientallen of duizendtallen moest je zelf benoemen en moesten passen in de realiteit van de uitkomst. Daarnaast heeft elke meting een onnauwkeurigheid. En onnauwkeurigheden vermenigvuldigen zich snel als je daarmee gaat rekenen omdat je steeds uit moet gaan van de grootste afwijking. Daarom kun je zonder kennis en inzicht zo heerlijk ‘liegen met cijfers’, de Nederlandse titel van het bovengenoemde boek. De kern van elk fakenews, het lijkt zo echt maar ergens is een verkeerde (schijnbaar logische) afslag genomen.

Kwaliteit van data
Wat heeft meer waarde? Veel onnauwkeurige data of weinig nauwkeurige data? In de tijd van big data hebben we het steeds vaker over enorme hoeveelheden data. Maar is méér data altijd beter? Waarschijnlijk één van de beroemdste citaten die de kracht van gegevens verdedigen, is die van Google’s onderzoeksdirecteur Peter Norvig die beweerde: ‘Wij hebben geen betere algoritmen. Wij hebben alleen meer gegevens.’ Peter is ook bekend van zijn artikel over “The unreasonable effectiveness of data”.  In situaties waar algoritmen niet de beperking zijn dan geldt inderdaad dat steeds meer data een steeds iets betere uitkomst biedt. Typisch het businessmodel van Google.

Maar meer gegevens verzamelen of gebruiken helpt niet altijd. Soms is het beter de beperkte beschikbare data op te werken tot betere data. Data-cleansing: het opschonen van data, het verwijderen van uitschieters en eliminatie van triviale en faliekante fouten vermindert de hoeveelheid beschikbare data: maar de beperktere dataset groeit in waarde. Maar het vraagt inhoudelijke kennis en inzicht om die waardevermeerdering te realiseren.

Daarnaast moet de bron benoemd zijn, inclusief de reden waarom die data is gegenereerd en het doel van de verzameling data is. Immers, data zonder een goede benadering is in feite ruis. Ruis: een willekeurige variatie in een signaal dat geen inhoudelijke informatie bevat. Helaas zien we steeds meer data als ruis ontstaan – denk aan de groeiende IoT datasets – die enthousiast worden verzameld, duur worden opgeslagen en helaas uiteindelijk weinig of zelfs geen waarde toevoegen of opleveren.

Datageletterdheid
Omgaan met data vraagt datageletterdheid. Begrijpen en inzien wat waarde van data is. Dat vraagt inzicht in, gevoel over en kennis van die data. Anders ben je ruis aan het verzamelen: dynamisch, veel activiteiten, grote dataverzamelingen maar uiteindelijk weinig toegevoegde waarde. Zonder datageletterdheid ontstaat geen big data capabiliteit. En zonder goede analytics is er uit die met moeite gecreëerde waardevolle dataverzameling op zijn beurt weer weinig waarde te halen. De wereld van big data analytics is een specialistisch vakgebied waar datageletterdheid een generieke deskundigheid is. Die moet je net als ‘gewone’ geletterdheid eigenlijk al in de schoolbanken worden aangeleerd. Dat gebeurt gelukkig zoals hier steeds vaker. Er is zelfs een handboek voor ontwikkeld. Datageletterdheid is een van de belangrijkste vaardigheden, eigenlijk zelfs een kerncompetentie voor de 21ste eeuw. Zoals deze deelnemers aan het Global Data Literacy Project reeds bewijzen.

Photo by Birmingham Museums Trust on Unsplash