Data bij de bron. Maar welke?

Het programmaData bij de bron’ dat onze overheid al enkele jaren voert, stelt: “Data bij de bron is een belangrijk uitgangspunt voor de digitale transformatie van de Nederlandse overheid. Data hoort zo veel mogelijk op één logische plek te staan, bij de eigenaar van die gegevens.” Dat is vreemd, moet data nu bij de bron staan of bij de eigenaar. Zijn eigenaar en bron identiek? Als ik een boek wil lezen, hoef ik niet naar de auteur, de bron van de inhoud. Als het eigendom is overgedragen aan derden dan heeft vorige eigenaar wellicht die data niet eens meer. Moet ik voor email naar de verzender gaan om die email te raadplegen? Nee hoor, ik heb deze immers in mijn eigen inbox staan. En mogelijk heeft de bron, de zender, die mail allang gewist. Is ‘data bij de bron’ een reëel uitgangspunt voor digitale transformaties? 

De koning is dood, leve de koning.

Doel van het programma is: “Het tegengaan van kopieën door het gestandaardiseerd ontsluiten van databronnen.” En vervolgens “dit leidt tot transparantie en dataminimalisatie.” Ook daar valt nog wel het één of ander op af te dingen. Er is immers niets tegen het maken en gebruiken van kopieën, zolang je maar wéét dat het een kopie is. Een kopie kan handig zijn voor tijdelijk gebruik, waarna je de kopie ‘gewoon’ mag weggooien. Als je een nieuw kopie nodig hebt, kun je die immers maken bij de bron. Maar staat de originele informatie nog steeds bij die bron? Digitalisering maakt het mogelijk originele bron-informatie (zoals tekst) van de originele drager (zoals papier) te scheiden. Bron- of masterdata kan immers overal worden opgeslagen.   

Toen ik in de jaren tachtig/negentig in de vliegtuigindustrie werkte, gingen we over van fysieke tekeningen naar de eerste digitale 3D-modellen en daarvan afgeleide tekeningen. Bij de overgang van de F27 Friendship, die in de jaren vijftig was ontworpen op basis van calques, oostindisch inkt en fysieke mallen, moesten we deze tekeningen en mallen ‘omzetten’ naar digitale masterdata voor de Fokker 50. Scanners en numeriek gestuurde meetinstrumenten creëren die nieuwe digitale masterdata. Essentie was dat ná de digitalisering de oude calques en mallen formeel de status ‘kopie’ kregen. En net zoals bij koningen geldt: Als de master dood gaat, leve de master! Als nieuwe masterdata ontstaat, vervalt automatisch de oude masterdata.

Beheren, bewaren of weggooien?

Het is dus zaak om de masterdata van een organisatie goed te beheren en te bewaren. Immers daar wordt de geldigheid met alle legitimiteit, compliance en governance van afgeleid. Van zowel proces als product of dienst. De vraag is nu: bewaar je die data bij de bron (de creator), bij de eigenaar of een aangewezen beheerder van masterdata? Een formele beheerder die de verantwoordelijkheid heeft de ontvangen data te registreren, te labelen, beschikbaar te stellen en voor de instandhouding zorgt. Deze beschrijving lijkt verdraaid veel op de rol en functie van een archivaris. 

Maar van oudsher is een archivaris (bijna) nooit de bron van data. We archiveren toch immers pas aan het einde van de levenscyclus van informatie? Als niemand het meer nodig heeft. We bekijken of het document nog waarde heeft om bewaard te worden. Of dat wet- of regelgeving verplicht, dit document een bepaalde periode te bewaren. Of te vernietigen. Of er nog kopieën hiervan rondzwerven, weet natuurlijk niemand, maar die informatie heeft geen (rechts-) geldigheid meer. Oude kopieën zijn historische informatie geworden voor een museum.

Wat is een geldige bron van data? 

Als we over de geldigheid van data spreken, wie bepaalt dat dan? De creator, opdrachtgever, huidige eigenaar, uitgever, hoofdgebruiker, beheerder of archivaris? Zeg het maar, elke bron die je daarvoor benoemt, is goed. Zolang het maar één bron is! Zolang de data maar duidelijk en eenduidig is vastgelegd, geldig is, toepassingen kent, terugvindbaar is en gegarandeerd leverbaar is. En aan wet- en regelgeving voldoet. Wellicht zelfs de context bevat waarom en waarbinnen die data ooit is gemaakt. Het programma ‘Data bij de bron’ stelt: “Data bij de bron leidt tot hogere datakwaliteit, meer veiligheid en betere bescherming van privacy”. Dat geldt alleen als die bron veilig, goed beschermd en van hoge kwaliteit is. En niet elke bron is dat.

Het programma stelt: “Data bij de Bron is een randvoorwaarde voor verdere digitalisering, overheden maken gebruik van de gegevens uit de bronsystemen”. Wat is het verschil tussen een bron en een bronsysteem? Is dat een speciaal ontworpen en toegewezen systeem dat de enige bron wordt van geldige informatie? Dat vaststelt welke data ‘brondata’ is en dus gecontroleerd en algemeen beschikbaar moet worden gesteld? Dat is niet data die in afzonderlijke, vaak afdeling of departement gebonden content management systemen staat zoals Filenet, Opentext of Documentum. Of in interne kantoorsystemen als Sharepoint of Dropbox. Dat zijn geen bronsystemen die kunnen delen, formele geldigheden/toepassingen van die informatie kennen, snel doorzoekbaar en – last but not least – publiek toegankelijk zijn.  

Het digitale archief als bronsysteem!

Een nieuwe gedachte in de wereld van digitalisering is het oude archief ‘naar voren te halen’. Immers veel – zo niet alle – digitale informatie is onveranderlijk zodra het is gepubliceerd. Een email wijzigt niet meer, zodra deze verzonden is. Er ontstaan hooguit ‘replies & forwards’, die op hun beurt ook weer onveranderlijk zijn. Chats zoals sms, whatapp en social media berichten zijn data-verkeer dat onveranderlijk wordt op het moment van verzenden. Wie of wat houdt ons dan tegen die data op dat moment direct te archiveren? 

In blogs sprak ik al tien jaar geleden over email-archiveren bij of bron of ontvangst. Net zoals we vroeger brieven in de postkamer een verzend- of ontvangstnummer gaven en dat in een boek registreerden. De nieuwe archiefwet eist dat alle belangrijke documenten en berichten binnen onze overheid op een gestructureerde wijze moeten worden gearchiveerd. Dat kan aan het einde van een levenscyclus, maar veel makkelijker is dat direct bij creatie of ontvangst te doen. Bij de bron – of beter nog – in het daarvoor aangewezen bronsysteem: de gecertificeerde bron van alle ‘onveranderlijke’ informatie die in, door of uit een organisatie gaat of komt. 

Het archief: het bronsysteem voor digitale data

De archivaris niet als eindgebruiker, waar ik ooit een blog aan wijde ‘de archivaris als enige échte eindgebruiker’, maar de archivaris als de bron van alle (formele) data. Data bij de bron? Ja, maar dan een gecertificeerd, gestructureerd, veilig en compliant bronsysteem, zoals een digitaal archief. Documenten én berichten met metadata gelabeld inclusief de juiste zoekinformatie. Keurig volgens regel- en wetgeving opgeslagen en terugvindbaar. Veilig wat betreft privacy, eventueel geanonimiseerd of de-personificeerd, zoals bijvoorbeeld in rechtbankverslagen. 

Nieuwe machine learning en AI-taalmodellen en algoritmes bieden ons de intelligentie om dat allemaal automatisch en enorm schaalbaar te doen. Dit idee is afgelopen jaren door een groep ontwikkelaars opgepakt en staat nu op het punt beschikbaar te komen. Komende weken meer over deze interessante paradigma-verandering in het denken over data bij de bron en waar en wanneer te archiveren. Digitalisering verandert immers de wijze hoe we ooit met papieren informatiedragers omgingen. Toen informatie – de inhoud – los kwam van de drager – het papier of de calque – bleken heel andere wegen mogelijk die ook naar Rome leidden. Nieuwe eieren van Columbus die opeens in een klap veel problemen oplossen. Een uitvinding zo simpel als de bekende paperclip om informatie te bundelen . . .  maar nu in digitale vorm. 

Photo by Yan Krukau

—————————  Translated by Chat GPT ————————

Data at the Source. But Which One?

The ‘Data at the Source’ program that our government has been running for several years states: “Data at the source is an important principle for the digital transformation of the Dutch government. Data should be stored as much as possible in one logical place, with the owner of that data.” This is strange—should data be at the source or with the owner? Are the owner and source identical? If I want to read a book, I don’t need to go to the author, the source of the content. If ownership has been transferred to third parties, the previous owner might not even have that data anymore. Do I need to go to the sender to consult an email? No, because I have it in my own inbox. The sender, the source, might have long deleted that email. Is ‘data at the source’ a realistic principle for digital transformations?

The King is Dead, Long Live the King. The program’s goal is: “To prevent copies by standardizing the unlocking of data sources.” And then, “this leads to transparency and data minimization.” There is nothing wrong with making and using copies, as long as you know it’s a copy. A copy can be useful for temporary use, after which you can ‘simply’ discard it. If you need a new copy, you can make it from the source. But is the original information still at that source? Digitalization allows for separating original source information (like text) from its original carrier (like paper). Source or master data can be stored anywhere.

When I worked in the aircraft industry in the eighties/nineties, we transitioned from physical drawings to the first digital 3D models and derived drawings. During the transition from the F27 Friendship, designed in the fifties using calques, Indian ink, and physical molds, we had to convert these drawings and molds into digital master data for the Fokker 50. Scanners and numerically controlled measuring instruments created this new digital master data. The essence was that after digitization, the old calques and molds formally received the status of ‘copy.’ And just like with kings: long live the master! When new master data is named, the old master data automatically expires.

Manage, Store, or Discard? Therefore, it is essential to properly manage and store an organization’s master data. Validity, legitimacy, compliance, and governance are all derived from it, for both processes and products or services. The question is: do you store that data at the source (the creator), with the owner, or with an appointed master data manager? A formal manager who is responsible for registering, labeling, making available, and maintaining the received data. This description closely resembles the role and function of an archivist.

But traditionally, an archivist is (almost) never the source of data. We only archive at the end of the information lifecycle when no one needs it anymore. We determine if the document still has value to be preserved or if laws or regulations require keeping it for a specific period. Or destroying it. Whether copies are still floating around, no one knows, but that information no longer holds (legal) validity. Old copies become historical information for a museum.

What is a Valid Source of Data? When we talk about the validity of data, who determines that? The creator, client, current owner, publisher, primary user, manager, or archivist? You name it, any source you designate for that is fine. As long as it’s a single source! As long as the data is clearly and unambiguously recorded, valid, applicable, findable, and reliably deliverable. And complies with laws and regulations. Perhaps even contains the context of why and within which it was created. The ‘Data at the Source’ program states: “Data at the source leads to higher data quality, more security, and better privacy protection.” This only holds if that source is secure, well-protected, and of high quality. And not every source is.

The program states: “Data at the Source is a prerequisite for further digitalization, with governments using data from the source systems.” What is the difference between a source and a source system? Is it a specially designed and designated system that becomes the sole source of valid information? One that determines which data is ‘source data’ and should therefore be controlled and generally available? This is not data stored in separate, often department-bound content management systems like Filenet, Opentext, or Documentum. Or in internal office systems like Sharepoint or Dropbox. These are not source systems that can share formal validity/applications of that information, are quickly searchable, and—last but not least—publicly accessible.

The Digital Archive as a Source System! A new thought in the world of digitalization is to ‘bring the archive forward.’ After all, much—if not all—digital information is immutable once published. An email does not change once sent. At most, ‘replies & forwards’ are created, which are also immutable. Chats such as SMS, WhatsApp, and social media messages become immutable data traffic at the moment of sending. Who or what stops us from archiving that data immediately?

In previous blogs, I discussed email archiving at the source or reception. Just as we used to give letters a shipping or receipt number in the mailroom and register it in a book. The new archive law requires that all important documents and messages within our government be archived in a structured manner. This can be done at the end of a lifecycle, but it is much easier to do so immediately upon creation or reception. At the source—or better yet—in the designated source system: the certified source of all ‘immutable’ information that goes in, through, or out of an organization.

The Archive: The Source of Digital Data The archivist not as an end user, which I once dedicated a blog to ’the archivist as the only real end user,’ but as the source of all (formal) data. Data at the source? Yes, but in a certified, structured, secure, and compliant source system, like a digital archive. Documents and messages neatly labeled with the correct search information. Stored and retrievable according to rules and regulations. Safe regarding privacy, possibly anonymized or depersonalized, as in court records, for example.

New machine learning and AI language models and algorithms offer us the intelligence to do all this automatically and on a large scale. This idea has been adopted by a group of developers in recent years and is now on the verge of becoming available. In the coming weeks, more about this interesting paradigm shift in thinking about data at the source and where and when to archive. Digitalization also changes how we once dealt with paper information carriers. When information—the content—became detached from the carrier—the paper or calque—very different paths turned out to be possible, all leading to Rome. New eggs of Columbus that suddenly solve many problems at once. An invention as simple as the well-known paperclip to bundle information… but now in digital form.