De kunst van datamijnen
Datamijnen is een multidisciplinair onderzoeksgebied in de wetenschap en vaak onderdeel van wiskunde en statistiek. Tegenwoordig is datamijnen een onderdeel van computerkunde en nauw gelinkt aan zodanig analytisch leren dat we in staat zijn de juiste content te vinden en te begrijpen. Hoe vind je in grote hoeveelheden data juist díe data die voor jou toegevoegde waarde heeft? Zeker als die data heterogeen en niet gestandaardiseerd is. Het zoeken in grote datasets en patronen extraheren. Vaak om vervolgens databasesystemen te vullen om machine learning en kunstmatige intelligentie mogelijk te maken.
Indexeren
Volgens Wikipedia is datamining, ook wel gegevensdelving of datadelving genoemd, het gericht zoeken naar (statistische) verbanden tussen verschillende gegevens-verzamelingen met als doel wetenschappelijk, journalistiek of commercieel gebruik. Maar deze definitie gaat voorbij aan het feit dat je dan wel moet weten waar je moet graven en of er op die plek überhaupt wel relevante data te vinden is. Net als bij goud zoeken, kun je data op verschillende manieren zoeken. Toevallig datasets vinden zoals een goudzoeker met een zeef bij rivieren doet. Of gericht naar een datamijn zoeken en de daar aanwezige data-aders aanboren.
Met onze zoekmachines is er al heel veel (toevallige) data te vinden. Continu wordt het internet afgezocht en wordt data geïndexeerd om het weer snel (terug) te kunnen vinden. Met robots of spiders worden vooral webpagina’s wereldwijd ‘gescraped’ en specifieke woorden en verwijzingen ‘eraf geschraapt’ en vastgelegd. De spiders verzamelen die links in een gigantische database die uiteindelijk het intellectuele eigendom van de zoekmachine is. Oorspronkelijk werkten zoekmachines met door de webmasters zelf opgegeven zoektermen, maar daar werd al snel misbruik van gemaakt. Tegenwoordig zoekt men meer via de populariteit van een webpagina of hoe vaak naar een website door andere websites wordt verwezen.
Vragen of antwoorden?
Er zijn ook metazoekmachines zoals Metacrawler, die werken via de resultaten van andere zoekmachines. Een slimme aanpak om snel naar unieke en weinig vernoemde data te zoeken. Voor het zoeken van de naald in de hooiberg. Een andere manier van zoeken doet bijvoorbeeld Wolfram Alpha; deze machine zoekt naar antwoorden op vragen. Deze zoekmachine is in 2009 door Stephan Wolfram ontwikkeld en gebruikt zijn eigen software Mathematica. Deze software is door Wolfram research verder ontwikkeld en is in gebruik in informatica en vele bèta-wetenschappen. Het is een symbolische taal en ondersteunt veel functies zoals het plotten van grafieken, analyseren van geluidsbestanden of het oplossen van numerieke differentiaal- en integraalvergelijkingen die vaak voor kunstmatige intelligentie nodig zijn.
Zoeken is een kunst. Het gebruiken van de juiste zoektermen toont de ervaren datadeskundige. Soms is het ‘net even anders’ formuleren van een vraag essentieel om een juist antwoord of de juiste data te vinden. Daarom is het leuke van Wolfram Alpha dat het het zoekproces aan het einde start: met het antwoord. Welk antwoord zoek je en welke vragen zouden daarbij horen. Het is eerder zoeken in een kennisbank dan in een databank. Omdat gebruik wordt gemaakt van een symbolische taal kunnen ook ingewikkelder antwoorden worden gezocht: ‘Hoe oud was Albert II in 1985’ of ‘Welk land heeft de kleinste BBP per hoofd van de bevolking’.
Zoeken is zowel kunst als vaardigheid
Datamijnen is slim zoeken in een onoverzichtelijk oerwoud van data, informatie, kennis, intelligence en wijsheid. Wat is een vraag en wat een antwoord? In welke taal, vanuit welke discipline, met welke reden, voor welk doel. Waarom en met welke reden is de gevonden data ooit gemaakt en publiek gemaakt. Want niet publiek gemaakte data is helemaal lastig te vinden. Soms zit data achter betaal- of abonnementsmuur. Begrijpelijk als anderen inspanningen hebben gepleegd om die data te verzamelen, te rangschikken en publiceerbaar te maken. Maar anderzijds frustrerend als je iets wilt weten maar voor dat artikel 35 euro moet betalen.
Ook de open data die onze overheid beschikbaar stelt, vinden sommigen niet zo fijn. Het stelt de burger immers in staat antwoorden te vinden op vragen die men soms liever niet gesteld krijgt. De Accountability Hack die op 4 oktober 2019 werd gehouden in de Tweede Kamer gaven snel en inzichtelijk allerlei antwoorden op actuele en urgente Kamervragen. Met andere woorden, de Kamerleden hadden zelf de antwoorden op hun vragen kunnen vinden, als ze goed hadden gezocht. Goed (kunnen) zoeken is een essentiële vaardigheid in onze digitaliserende samenleving. Steeds meer samengestelde antwoorden zijn te vinden, mits je de plaats, de omgeving en de ‘geologie’ van de omgeving kent. Niet anders dan het oude goudzoeken.
Data is goud, kennis is macht
Kun je dan stellen dat data het nieuwe goud is? Dat degenen die het beste data kunnen zoeken en dus ook vinden, een voorsprong hebben? Moeten we als overheid zo snel mogelijk en zoveel mogelijk data voor onze burgers open maken? Minister Ollongren stelde in april 2019 dat overheden verkiezingsuitslagen zo snel mogelijk als open data beschikbaar moesten maken. Transparantie en controleerbaarheid van de uitslagberekening zijn van essentieel belang om vertrouwen te kunnen hebben (en te houden) in de uitslag van de verkiezingen”, aldus de minister. Data die betaald is door de burger is van en voor de burger.
Maar er is ook een andere kant van de medaille. ‘Op welke wijze worden grondrechten in Nederland aangetast als gevolg van het gebruik van Big Data, het Internet of Things en Kunstmatige intelligentie?’ Data combineren achter die open data. Impliciet stelt deze vraag dat data ook voor misbruik beschikbaar is. Dit 200 pagina lange rapport ‘Algoritmes en grondrechten’ komt niet verder dan: ‘In algemene zin geldt niettemin wel dat grondrechten potentieel vergaand en op diverse manieren kunnen worden aangetast, vaak ook op manieren die nog niet bekend waren voor ‘oude’ vormen van besluitvorming.’ Tsja, dat wisten we eigenlijk wel.
Publiek of privaat
De grens tussen privaat en publiek was vroeger heel vanzelfsprekend. Op de openbare weg ben je anoniem maar de overheid mag je staande houden en vragen naar je identiteit. Thuis ben je als bewoner bekend maar mag de overheid pas binnentreden met een huiszoekingsbevel. Vóór en àchter de voordeur zijn juridisch heel helder gescheiden. Maar de digitalisering maakt die grens waziger. Je telefoon met al je huiselijke en zakelijke privé-data mag op de openbare weg door een agent worden doorzocht. De slimme energiemeter, TV of thermostaat staat in je privé-omgeving data te mijnen en sluist die data door naar onbekende plaatsen.
Datamijnen is een kunst en een vaardigheid. In opengestelde en publieke omgevingen is dat toegestaan en wordt dat zelfs aangemoedigd. Maar datamining achter de voordeur, in privé omgevingen en zonder mandaat van de eigenaar is een overtreding. Trespassing en je dus illegaal toegang verschaffen tot privé-eigendom. We hebben steeds vaker ons virtuele huis bij ons dat net zo privaat is als de woning achter onze voordeur: ‘A man’s phone is his castle.’ Daar willen we data-mining ver vandaan houden.
Photo by Ben Ostrower on Unsplash