{"id":81129,"date":"2020-03-17T11:52:55","date_gmt":"2020-03-17T11:52:55","guid":{"rendered":"https:\/\/hanstimmerman.me\/?p=81129"},"modified":"2020-03-17T11:54:11","modified_gmt":"2020-03-17T11:54:11","slug":"de-kunst-van-datamijnen","status":"publish","type":"post","link":"https:\/\/hanstimmerman.me\/nl_nl\/de-kunst-van-datamijnen\/","title":{"rendered":"De kunst van datamijnen"},"content":{"rendered":"<p>Datamijnen is een multidisciplinair onderzoeksgebied in de wetenschap en vaak onderdeel van wiskunde en statistiek. Tegenwoordig is datamijnen een onderdeel van computerkunde en nauw gelinkt aan zodanig analytisch leren dat we in staat zijn de juiste content te vinden en te begrijpen. Hoe vind je in grote hoeveelheden data juist d\u00ede data die voor jou toegevoegde waarde heeft? Zeker als die data heterogeen en niet gestandaardiseerd is. Het zoeken in grote datasets en patronen extraheren. Vaak om vervolgens databasesystemen te vullen om machine learning en kunstmatige intelligentie mogelijk te maken.<\/p>\n<p><strong>Indexeren<br \/>\n<\/strong>Volgens <a href=\"https:\/\/nl.wikipedia.org\/wiki\/Datamining\">Wikipedia<\/a> is datamining, ook wel gegevensdelving of datadelving genoemd, het gericht zoeken naar (statistische) verbanden tussen verschillende gegevens-verzamelingen met als doel wetenschappelijk, journalistiek of commercieel gebruik. Maar deze definitie gaat voorbij aan het feit dat je dan wel moet weten waar je moet graven en of er op die plek \u00fcberhaupt wel relevante data te vinden is. Net als bij <a href=\"https:\/\/www.kijkmagazine.nl\/artikel\/goud\/\">goud zoeken<\/a>, kun je data op verschillende manieren zoeken. Toevallig datasets vinden zoals een goudzoeker met een zeef bij rivieren doet. Of gericht naar een datamijn zoeken en de daar aanwezige data-aders aanboren.<\/p>\n<p>Met onze <a href=\"https:\/\/nl.wikipedia.org\/wiki\/Zoekmachine\">zoekmachines<\/a> is er al heel veel (toevallige) data te vinden. Continu wordt het internet afgezocht en wordt data ge\u00efndexeerd om het weer snel (terug) te kunnen vinden. Met robots of spiders worden vooral webpagina\u2019s wereldwijd \u2018gescraped\u2019 en specifieke woorden en verwijzingen \u2018eraf geschraapt\u2019 en vastgelegd. De spiders verzamelen die links in een gigantische database die uiteindelijk het intellectuele eigendom van de zoekmachine is. Oorspronkelijk werkten zoekmachines met door de webmasters zelf opgegeven zoektermen, maar daar werd al snel misbruik van gemaakt. Tegenwoordig zoekt men meer via de populariteit van een webpagina of hoe vaak naar een website door andere websites wordt verwezen.<\/p>\n<p><strong>Vragen of antwoorden?<br \/>\n<\/strong>Er zijn ook <a href=\"https:\/\/nl.wikipedia.org\/wiki\/Metazoekmachine\">metazoekmachines<\/a> zoals <a href=\"https:\/\/www.metacrawler.com\/\">Metacrawler<\/a>, die werken via de resultaten van andere zoekmachines. Een slimme aanpak om snel naar unieke en weinig vernoemde data te zoeken. Voor het zoeken van de naald in de hooiberg. Een andere manier van zoeken doet bijvoorbeeld <a href=\"https:\/\/www.wolframalpha.com\/\">Wolfram Alpha<\/a>; deze machine zoekt naar antwoorden op vragen. Deze zoekmachine is in 2009 door Stephan Wolfram ontwikkeld en gebruikt zijn eigen software <a href=\"https:\/\/nl.wikipedia.org\/wiki\/Mathematica_(software)\">Mathematica<\/a>. Deze software is door Wolfram research verder ontwikkeld en is in gebruik in informatica en vele b\u00e8ta-wetenschappen. Het is een symbolische taal en ondersteunt veel functies zoals het plotten van grafieken, analyseren van geluidsbestanden of het oplossen van numerieke differentiaal- en integraalvergelijkingen die vaak voor kunstmatige intelligentie nodig zijn.<\/p>\n<p>Zoeken is een kunst. Het gebruiken van de juiste zoektermen toont de ervaren datadeskundige. Soms is het \u2018<em>net even anders\u2019<\/em> formuleren van een vraag essentieel om een juist antwoord of de juiste data te vinden. Daarom is het leuke van Wolfram Alpha dat het het zoekproces aan het einde start: met het antwoord. Welk antwoord zoek je en welke vragen zouden daarbij horen. Het is eerder zoeken in een kennisbank dan in een databank. Omdat gebruik wordt gemaakt van een symbolische taal kunnen ook ingewikkelder antwoorden worden gezocht: \u2018Hoe oud was Albert II in 1985\u2019 of \u2018Welk land heeft de kleinste BBP per hoofd van de bevolking\u2019.<\/p>\n<p><strong>Zoeken is zowel kunst als vaardigheid<br \/>\n<\/strong>Datamijnen is slim zoeken in een onoverzichtelijk oerwoud van data, informatie, kennis, intelligence en wijsheid. Wat is een vraag en wat een antwoord? In welke taal, vanuit welke discipline, met welke reden, voor welk doel.\u00a0 Waarom en met welke reden is de gevonden data ooit gemaakt en publiek gemaakt. Want niet publiek gemaakte data is helemaal lastig te vinden. Soms zit data achter betaal- of abonnementsmuur. Begrijpelijk als anderen inspanningen hebben gepleegd om die data te verzamelen, te rangschikken en publiceerbaar te maken. Maar anderzijds <a href=\"https:\/\/www.nrc.nl\/nieuws\/2016\/08\/05\/belachelijk-al-dat-onderzoek-achter-de-betaalmuur-3516768-a1514983\">frustrerend<\/a> als je iets wilt weten maar voor dat artikel 35 euro moet betalen.<\/p>\n<p>Ook de open data die onze overheid beschikbaar stelt, vinden sommigen niet zo <a href=\"https:\/\/www.cbs.nl\/nl-nl\/corporate\/2019\/42\/actuele-vragen-kamerleden-beantwoord-met-open-data\">fijn<\/a>. Het stelt de burger immers in staat antwoorden te vinden op vragen die men soms liever niet gesteld krijgt. De Accountability Hack die op 4 oktober 2019 werd gehouden in de Tweede Kamer gaven snel en inzichtelijk allerlei antwoorden op actuele en urgente Kamervragen. Met andere woorden, de Kamerleden hadden zelf de antwoorden op hun vragen kunnen vinden, als ze goed hadden gezocht. Goed (kunnen) zoeken is een essenti\u00eble vaardigheid in onze digitaliserende samenleving. Steeds meer samengestelde antwoorden zijn te vinden, mits je de plaats, de omgeving en de \u2018geologie\u2019 van de omgeving kent. Niet anders dan het oude goudzoeken.<\/p>\n<p><strong>Data is goud, kennis is macht<br \/>\n<\/strong>Kun je dan stellen dat data het nieuwe goud is? Dat degenen die het beste data kunnen zoeken en dus ook vinden, een voorsprong hebben? Moeten we als overheid zo snel mogelijk en zoveel mogelijk data voor onze burgers open maken? Minister Ollongren <a href=\"https:\/\/openstate.eu\/nl\/2019\/04\/ollongren-verkiezingsuitslagen-publiceren-als-open-data\/\">stelde<\/a> in april 2019 dat overheden verkiezingsuitslagen zo snel mogelijk als open data beschikbaar moesten maken. Transparantie en controleerbaarheid van de uitslagberekening zijn van essentieel belang om vertrouwen te kunnen hebben (en te houden) in de uitslag van de verkiezingen\u201d, aldus de minister. Data die betaald is door de burger is van en voor de burger.<\/p>\n<p>Maar er is ook een andere kant van de medaille. \u2018Op welke wijze worden grondrechten in Nederland aangetast als gevolg van het gebruik van Big Data, het Internet of Things en Kunstmatige intelligentie?\u2019 Data combineren achter die open data. Impliciet stelt deze vraag dat data ook voor misbruik beschikbaar is. Dit 200 pagina lange <a href=\"https:\/\/www.uu.nl\/sites\/default\/files\/rebo-montaigne-algoritmes_en_grondrechten.pdf\">rapport<\/a> \u2018Algoritmes en grondrechten\u2019 komt niet verder dan: \u2018<em>In algemene zin geldt niettemin wel dat grondrechten potentieel vergaand en op diverse manieren kunnen worden aangetast, vaak ook op manieren die nog niet bekend waren voor \u2018oude\u2019 vormen van besluitvorming.\u2019<\/em> Tsja, dat wisten we eigenlijk wel.<\/p>\n<p><strong>Publiek of privaat<br \/>\n<\/strong>De grens tussen privaat en publiek was vroeger heel vanzelfsprekend. Op de openbare weg ben je anoniem maar de overheid mag je staande houden en vragen naar je identiteit. Thuis ben je als bewoner bekend maar mag de overheid pas binnentreden met een huiszoekingsbevel. V\u00f3\u00f3r en \u00e0chter de voordeur zijn juridisch heel helder gescheiden. Maar de digitalisering maakt die grens waziger. Je <a href=\"https:\/\/hanstimmerman.me\/a-mans-phone-is-his-castle\/\">telefoon<\/a> met al je huiselijke en zakelijke priv\u00e9-data mag op de openbare weg door een agent worden doorzocht. De slimme energiemeter, TV of thermostaat staat in je priv\u00e9-omgeving data te mijnen en sluist die data door naar onbekende plaatsen.<\/p>\n<p>Datamijnen is een kunst en een vaardigheid. In opengestelde en publieke omgevingen is dat toegestaan en wordt dat zelfs aangemoedigd. Maar datamining achter de voordeur, in priv\u00e9 omgevingen en zonder mandaat van de eigenaar is een overtreding. <a href=\"https:\/\/en.wikipedia.org\/wiki\/Trespass\">Trespassing<\/a> en je dus illegaal toegang verschaffen tot priv\u00e9-eigendom. We hebben steeds vaker ons virtuele huis bij ons dat net zo privaat is als de woning achter onze voordeur: \u2018<a href=\"https:\/\/hanstimmerman.me\/a-mans-phone-is-his-castle\/\"><em>A man\u2019s phone is his castle<\/em>.\u2019<\/a> Daar willen we data-mining ver vandaan houden.<\/p>\n<p>Photo by <a href=\"https:\/\/unsplash.com\/@benostrower?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText\">Ben Ostrower<\/a> on <a href=\"https:\/\/unsplash.com\/s\/photos\/data-mining?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText\">Unsplash<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Datamijnen is een kunst en een vaardigheid. In opengestelde en publieke omgevingen is dat toegestaan en wordt dat zelfs aangemoedigd. Maar datamining achter de voordeur, in priv\u00e9 omgevingen en zonder mandaat van de eigenaar is een overtreding. Trespassing en je dus illegaal toegang verschaffen tot priv\u00e9-eigendom. We hebben steeds vaker ons virtuele huis bij ons dat net zo privaat is als de woning achter onze voordeur: \u2018A man\u2019s phone is his castle.\u2019 Daar willen we data-mining ver vandaan houden.<\/p>\n","protected":false},"author":3,"featured_media":81131,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[70,71,72,80],"tags":[107,117,120,132,136,137],"class_list":["post-81129","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ownership","category-digital-economy","category-digitalisation","category-trusted-it","tag-data","tag-open-data","tag-machine-learning","tag-trust","tag-data-search","tag-data-mining"],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/hanstimmerman.me\/wp-content\/uploads\/2020\/03\/ben-ostrower-BM4FXbz2Xt0-unsplash-e1584445508271.jpg?fit=5587%2C2555&ssl=1","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/posts\/81129","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/comments?post=81129"}],"version-history":[{"count":6,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/posts\/81129\/revisions"}],"predecessor-version":[{"id":81136,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/posts\/81129\/revisions\/81136"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/media\/81131"}],"wp:attachment":[{"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/media?parent=81129"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/categories?post=81129"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/hanstimmerman.me\/nl_nl\/wp-json\/wp\/v2\/tags?post=81129"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}