Toegankelijkheid van informatie

Pas enkele eeuwen na de komst in 1439 van de boekdrukkunst, vond men een universele methode om in boekvorm gebundelde papieren informatie toegankelijk(er) te maken. In een leuke blogreeks van Ad van Heijst vertel hij hoe die eeuwenlange zoektocht plaatsvond, vooral door bibliothecarissen die leefden in de groeiende fysieke wereld van boeken, documenten en reproducties. Een belangrijke speler was de in 1851 geboren Melvin Dewey die het Dewey Decimale Classificatie (DDC) systeem bedacht om boeken te classificeren.

Een probleem bij classificatie is altijd dat je niet weet of je later nog iets moet toevoegen in een vooraf bedachte reeks. Het idee van Dewey was om een decimaal cijfer als index te gebruiken om reeksen boeken aan te duiden. Hij introduceerde in 1876 zijn methodiek in de bibliotheek van het Armherst College, waar hij bibliothecaris was. De indeling was op basis van de ooit door Francis Bacon opgestelde indeling van de wetenschap. Kern van zijn oplossing was dat hij decimalen gebruikte om boeken te rangschikken. Deze rangschikking kan je immers tot het oneindige schalen door achter de komma steeds verder te verfijnen.

Papieren Internet
Het mooie van cijfers is dat zij zichzelf altijd in logische reeksen plaatsen als je ze op volgorde zet. De cijfers 0.2 – 0.278 – 0.279 – 0.3 – 0.35 – 0.4 – 0.5 zetten zich automatisch op volgorde. Als je tussen 0.278 en 0.279 alsnog een boek wilt plaatsen, dan is de gehele reeks 0.2780 tot 0.2790 beschikbaar. Door gebruik te maken van deze eigenschap van breukcijfers, maakte Dewey als eerste een classificatie, die het mogelijk maakte onbeperkt te schalen, zonder dat hernummering van eenmaal gegeven aanduidingen nodig waren. Uit Dewey’s Decimale Code ontstond in Europa de in 1905 gepubliceerde Universele Decimale Classificatie (het UDC). Het UDC wordt soms wel het ‘papieren internet’ genoemd, of het internet avant la lettre.

Paul Otlet vond dat de literatuur van de sociale wetenschappen zich in een wanordelijke staat bevond. Samen met de eveneens jurist zijnde Henri la Fontaine stichtten zij in 1895 het Institut de Bibliographie en besloten het classificatiesysteem van Dewey over te nemen. Otlet wordt de vader van de documentatie genoemd, actief als hij was om documenten logisch te kunnen rangschikken. We kunnen hem met recht de grondlegger van de informatie-wetenschap noemen. Hij was zeer gericht om een internationaal systeem voor het gebruik van informatie te creëren. Van publicatie tot beheer, van archief tot wetenschappelijk gebruik.

Meta data
Volgens hem was een boek slechts een lange, onafgebroken zin. Die begon op de eerste pagina en liep via pagina en pagina door, tot het einde van het boek. Zijn doel was het die ene ‘zin’ logisch in een holistische ‘kennisstructuur’ op te nemen. Hij wilde documenten ontdoen van hun documentaire structuur waardoor hun inhoud veel makkelijker kon worden gebruikt om nieuwe documenten te ‘componeren’. Het probleem van elk kennissysteem: de strijd tussen vorm en inhoud. Hij noemde dit ‘bibliografie volgens het monografisch principe’.

De inhoud van informatiebronnen en de conclusies die konden worden getrokken uit de inhoud, zijn een onderdeel van de collectieve kennis van de mensheid. Daarom was de auteur volgens Otlet niet belangrijk, maar slechts zijn bijdrage aan de collectieve kennis. Het ordenen van die collectieve kennis was zijn uitdaging. Hij ontwikkelde een systeemkaart voor het beschikbaar maken van kennis. Een systeem om te manipuleren, te ordenen, te herschikken, te verdubbelen en het op verschillende plaatsen onder te brengen of te verwijderen van informatie, zonder dat het systeem geweld werd aangedaan. Je kunt stellen dat Otlet het eerste metadata-systeem ontwikkelde. Het logisch benoemen van data over een dataset en deze metadata vervolgens organiseren en bruikbaar te maken. Het systeem van Otlet en La Fontaine was het eerste document-management-systeem dat in staat was grote document-verzamelingen te beheersen en te beheren. Terecht het ‘internet avant la lettre’. Sommige zaken zijn vaak niet zo nieuw als ze lijken . . .

Modern informatiebeheer
In de nieuwe internetwereld hebben we intussen voldoende ervaring en intelligentie ontwikkeld om naast papieren informatie ook digitale informatie te kunnen beheren. Om deze informatie te beschrijven, gebruiken we nog steeds metadata. Van wie is deze data, waarom is deze gemaakt, wat is de versie en wat is de toepassing? Daarnaast heeft elke informatie relaties met andere informatie en data. Welke zijn die relaties, welke datasets of informatiebronnen zijn de oorspronkelijke bronnen? Omdat digitale data veel makkelijker te kopiëren en te verspreiden is, is sluitend beheer over de herkomst van data steeds lastiger.

Veel informatie is tegenwoordig helaas vaak ook als ‘wees’ beschikbaar: zonder duidelijke vader of moeder, maar natuurlijk wel ooit als logische entiteit ter wereld gebracht. Het beheren van deze ‘weesdata’ is een groeiend probleem in onze digitale wereld. Data en informatie waarvan de oorspronkelijke bron en doel van het ontstaan, niet meer duidelijk is. Een hinderlijke eigenschap zichtbaar bij fakenews: wat was het oorspronkelijke bericht?

Digitale data en informatie moeten we ook nog steeds (kunnen) classificeren. Welke klasse kennen we toe aan een document of een groep documenten? Waarvoor is deze informatie ‘ooit’ gecreëerd en voor wie is deze informatie bedoelt om te gebruiken? Ook hier zien we nieuwe vormen van informatievervuiling ontstaan: gekopieerde data en informatie uit andere toepassingen gaat in nieuwe combinaties een eigen leven leiden, los van auteur, reden en bedoeling. Een uitdaging voor audit trails en due dilligence onderzoek om wortels (roots) van data terug te vinden. Een spoor van een audit of controle dat onderneming of toezichthouder in staat stelt transacties administratief te volgen, te controleren en goedkeuren.

Tenslotte willen we een waardering toekennen aan informatie. Wat is de relevantie van deze informatie? Hoe zuiver, kwalitatief, actueel en relevant is deze dataset of dit informatie-document? Zonder deze kenmerken kunnen we informatie niet intelligent inzetten. Zeker nu we steeds vaker kunstmatige intelligentie gaan toepassen. Informatie zonder waardering is in feite ongeschikt om te gebruiken voor AI.

Data als grondstof?
Data wordt steeds belangrijker als grondstof voor informatieprocessen en -ketens. Wij als Fortierra komen dat dagelijks tegen. Wat is de kwaliteit en actualiteit van de grondstof die wij gebruiken voor ons informatieproces? Wat zijn de wortels, wie zijn de ouders van die data, waarom en met welk doel is die data ooit gemaakt? Kun je een audit loslaten op de dataset die je als input voor je gekwalificeerde proces wilt invoeren? Zeker weten dat die data comptabel is, aan internationale standaarden voldoet en dat je er aansprakelijkheid aan kunt koppelen omdat het rechtmatige data is?

De wereld digitaliseert. Classificatie van data en informatie wordt steeds belangrijker. Zeker in de wereld van fakenews en ongecontroleerde berichten op sociale media. Is de data afkomstig van het bevoegd gezag: van een bestuursorgaan dat bevoegd is die data te genereren en geborgd af te geven? Data die de basis vormt van hoe we onze democratie en wetgeving vorm hebben gegeven. Data die bij de rechter stand houdt, die comptabel is – er mag een geldwaarde aan worden gekoppeld – en waarmee rechtsgeldige contracten kunnen worden gesloten. Immers als je digitale data als kwalitatieve grondstof wilt gebruiken dan wil je weten waar het vandaan komt. Net zoals de levensmiddelen die je koopt: waar komt het vandaan, is het veilig en betrouwbaar en hoe is het gemaakt?
Voor data is het niet anders . . .

Photo by timJ on Unsplash