Mastering your golden records

De wereld heeft enerzijds onvoldoende fysieke opslagmogelijkheden om alle digitale data die we tegenwoordig produceren, überhaupt nog vast te leggen. Anderzijds moeten we toch alle relevante en onmisbare data lange tijd ‘ergens’ – cloud of on premise – fysiek beschikbaar kunnen maken en houden. Denk aan de essentiële golden records binnen organisaties: geldige versies van unieke data-elementen, beschikbaar in enkelvoudige bronsystemen. Mede daarom wordt automatische bronarchivering voor zowel (grote) inhoudelijke content als (kleine) transactionele procesdata steeds belangrijker. Formeel vrijgegeven content – gecreëerd in document management of zaak systemen – direct archiveren en op die wijze als beheerde  single source’ fysiek toegankelijk maken én houden voor breed gebruik. Evenals kleine transactionele datasets – gebaseerd op ‘timestamped hashes’ – vastleggen in eindeloos registrerende blockchains. Naast de schaarste van fysieke storage, moeten we, als we voor iedereen een gelijke informatiepositie willen realiseren, deze bronsystemen tegelijkertijd veilig en vertrouwelijk kunnen openstellen om deze data verantwoord en gemeenschappelijk te kunnen gebruiken en delen. 

Golden records  

De meest nauwkeurige en actuele gegevens in een organisatie noemen we de ‘Golden Records’, geldige versies van unieke data-elementen, aanwezig in een enkelvoudig bronsysteem. Geldige versie wil zeggen dat ‘als u deze data wilt gebruiken’ deze data de meest betrouwbare, nauwkeurige en actuele data is die er is. Het totaal van alle binnen de organisatie bekende ‘golden data’ heet ook wel de ‘golden copy’ of wordt de Single Source of Truth (SSOT) of Master Data van een organisatie genoemd. Het realiseren en instandhouden van die ‘golden copy’ wat betreft zowel aanleverende als gebruikmakende processen, noemen we Master Data Management (MDM). De voortdurende groei en verbreding van digitale informatiestromen, creëert uitdagingen om dit efficiënt en effectief uit te blijven voeren. Daarom zien we de behoefte aan  automatische bronarchivering van zowel transacties als content ontstaan. 

Het samenstellen van een ‘Single Source of Truth’ vanuit de output van vele bestaande en ook vaak oude systemen, is een uitdaging. Niet zozeer het überhaupt kennen en/of kunnen traceren van die data, maar vooral het bezit van een genormeerde nomenclatuur voor al die data. Elk systeem en elke database die met de golden data werkt, moet de datadefinitie van die unieke dataset kennen en daarmee kunnen werken. Alleen een simpele naam, adres, woonplaats definitie van een persoon kan al tot verwarring leiden. Als je daar nog telefoonnummer, e-mailadres, IP-adres en chatkanalen aan toevoegt, wordt het adequaat managen van alleen al deze personele datasets over alle toepassingen heen een fikse uitdaging. Op die wijze moet elke golden record op basis van een stelsel, uniek gedefinieerd zijn en als enkele bron voor alle systemen gelden. Een groeiende uitdaging! 

Mastering and sharing your Master Data 

In de informatica is een golden record de geldige versie van een data-element (record) in een enkelvoudig bronsysteem van waarheid. Het kan verwijzen naar een database, specifieke tabel of dataveld, of een willekeurige gebruikte informatie-eenheid. De golden copy is het totaal van die goed beheerde en geconsolideerde datasets: de formeel gedefinieerde versie van alle data-entiteiten in een organisatorisch ecosysteem. Het vakgebied Master Data Management ontwikkelt zich momenteel snel, omdat zowel de hoeveelheid data, maar vooral ook de verbreding van alle kanalen waarlangs data de organisatie in en uitgaat, exponentieel aan het groeien is en (centrale) opslagmogelijkheden toch beperkt en zeker ook prijzig blijven. Ook nieuwe veiligheid, privacy en archiveringseisen leveren steeds vaker, extra uitdagingen wat betreft bewaartermijnen.

Pas al er een geaccepteerde ‘Single Source of Truth’ is, kan men iedereen tot die ‘waarheid’ uitnodigen en kan informatiegelijkheid tussen alle belanghebbenden worden gecreëerd. De trieste lering uit de toeslagen-affaire is dat zowel de overheid als de ouders beiden geen goed overzicht hadden van zowel hun eigen dossiers als van dossiers die mogelijk voor hen van belang waren. Organisatorische grenzen, privacy-beperkingen en het gegeven ‘dat je nooit precies weet wat je de ander weet’, maakte dat zowel ambtenaar als burger bij wijze van spreken in het duister tastten over wat het ‘werkelijke gemeenschappelijke’ dossier was. Er was geen gedeelde ‘bron van waarheid’ voor zowel ambtenaar als burger. Naast de behoefte aan die ‘Single Source of Truth’ dient die brondata in individuele dossiers en op verantwoorde wijze – dat wil zeggen met de juiste autorisatie van allen die deelnemen – kunnen worden gedeeld met alle rechthebbenden. De kern van Master Data Management. 

Bronarchivering

Informatie kan of mag pas breder worden gedeeld, als het een ‘vrijgeven’ status heeft gekregen en daarnaast uniek identificeerbaar is geworden. Een vrijgifteproces waarbij een document van de status ‘in bewerking’ via ‘in verificatie’ uiteindelijk formeel is goedgekeurd en mag worden vrijgegeven voor rechtmatig gebruik. Omdat organisaties vaak vele document en zaak systemen gebruiken, betekent simpelweg ‘vrijgeven’ nog niet dat het bruikbaar is voor een ander systeem of een andere organisatie. Vrijgeven betekent ook ‘toegankelijk’ maken voor de gehele organisatie en iedereen daarbuiten, zonder dat men iedereen individueel toegang tot alle betreffende document of zaaksystemen geeft. Dit wordt pas mogelijk als op het moment van vrijgifte: het document is ‘formeel bevroren’ en kan vanuit het betreffende systeem worden gemigreerd naar een centraal en open archief. Via centraal beheerde metadata kan vanaf dat moment tevens elke noodzakelijke informatiegelijkheid tussen eigenaar en gebruikers van die content worden geborgd. 

Een andere behoefte die we zien ontstaan, is het eenduidig vastleggen van transacties. Kleine procesgerelateerde datasets die als een boekhouding (ledger) alle transacties in dat proces vastleggen. Dit kan de actuele status betreffen over over bezit, betalingen, geldigheden of eigendom. Satoshi Nakamoto ontdekte in 2008 het principe van de blockchain. Hij zocht een manier om double spending bij peer-to-peer betalingen te voorkomen en ‘ontdekte’ dat het in een gedistribueerde ‘ketting’ vastleggen van ‘hash & timestamp’ van een dataset, een betrouwbare digitale boekhouding mogelijk maakt. De start voor cryptobetalingen, waarvan Bitcoin in 2009 de eerste was. Maar behalve cryptomunten kan een blockchain direct bij de bron alle soorten ‘tokens’ geverifieerd en persistent vastleggen. Een andere vorm van bronarchivering, maar nu voor transacties. Zie ook mijn blog ‘wie schonk de mensheid de blockchain?’.       

Geverifieerd gebruik van gedistribueerde, open data

Bronarchivering, encryptie en actieve authenticatie zijn de ingrediënten voor veilig en open informatiegebruik binnen en tussen organisaties en personen. Deze digitale transformatie moet als een ‘deken’ over het huidige ‘gedigitaliseerde’ landschap worden gelegd, omdat onze wereld nog vol zit met oude systemen, die hiervoor nooit ontwikkeld zijn. Systemen die soms nog prima en jarenlang kunnen functioneren en waarvoor we de budgetten en mensen niet eens hebben die in korte tijde te vernieuwen, te vervangen en op te ruimen. Daarom is een eenduidige visie wat betreft toekomstig Master Data Managent voor elke organisatie essentieel. Vanuit het principe ‘denk groot maar start klein’, omdat het ten ene male onmogelijk is alles tegelijk te doen. 

Hoe ziet in de (verre?) toekomst uw digitale landschap eruit en wat betekent het om vanuit de huidige situatie ooit in die toekomst te komen. Dit zijn geen processen van enkele jaren, maar nemen decennia in beslag. Denk hoe we veertig jaar geleden – na het centrale mainframe – de gedistribueerde digitale applicaties in onze organisaties mogelijk maakten. En na die client/server periode twintig jaar geleden de weg naar (weer) een centrale oplossing kozen – de cloud. En nu, met de komst van multi-clouds, edge-computing en web3 gebaseerde nodes, weer een decentrale route kiezen. Nieuwe uitdagingen voor vooral uw datamanagement, immers: applicaties verwelken, processen vergaan, maar al uw data, blijft eeuwig bestaan.

Photo by Miguel Á. Padriñán

————————  translated by ChatGPT ————————

Mastering your golden records

The world, on the one hand, lacks sufficient physical storage capabilities to capture all the digital data we produce nowadays. On the other hand, we still need to make and keep all relevant and indispensable data physically available somewhere—either in the cloud or on-premise—for a long time. Consider the essential golden records within organizations: valid versions of unique data elements available in singular source systems. This is why automatic source archiving for both substantial content and small transactional process data is becoming increasingly important. Formally released content—created in document management or case systems—should be directly archived and thus made physically accessible and managed as a single source for broad usage. Likewise, small transactional datasets—based on timestamped hashes—should be recorded in endlessly registering blockchains. Besides the scarcity of physical storage, if we want to create equal information positions for everyone, these source systems must also be securely and confidentially accessible so that this data can be used and shared responsibly and collectively.

Golden Records

The most accurate and current data in an organization are called ‘Golden Records,’ valid versions of unique data elements present in a single source system. A valid version means that ‘if you want to use this data,’ this data is the most reliable, accurate, and current available. The total of all known ‘golden data’ within the organization is also referred to as the ‘golden copy’ or the Single Source of Truth (SSOT) or Master Data of an organization. Realizing and maintaining this ‘golden copy’ concerning both supplying and utilizing processes is called Master Data Management (MDM). The continuous growth and expansion of digital information flows create challenges to continue executing this efficiently and effectively. Therefore, we see the need for automatic source archiving of both transactions and content.

The Challenge of Creating a Single Source of Truth

Creating a ‘Single Source of Truth’ from the output of many existing and often old systems is a challenge. It’s not so much about knowing and/or tracing that data, but especially about having a standardized nomenclature for all that data. Every system and database that works with the golden data must know and be able to work with the data definition of that unique dataset. Even a simple name, address, and place of residence definition of a person can already cause confusion. Adding a phone number, email address, IP address, and chat channels further complicates adequately managing these personnel datasets across all applications. Thus, every golden record must be uniquely defined based on a system and serve as a single source for all systems. A growing challenge!

Mastering and Sharing Your Master Data

In informatics, a golden record is the valid version of a data element (record) in a single source system of truth. It can refer to a database, specific table or data field, or any used information unit. The golden copy is the total of those well-managed and consolidated datasets: the formally defined version of all data entities in an organizational ecosystem. The field of Master Data Management is currently developing rapidly, as the amount of data and the broadening of all channels through which data enters and exits the organization are growing exponentially, and (central) storage capabilities remain limited and certainly also expensive. New security, privacy, and archiving requirements increasingly pose additional challenges regarding retention periods.

Only when there is an accepted ‘Single Source of Truth’ can everyone be invited to that ’truth,’ and information equality between all stakeholders can be created. The sad lesson from the Dutch childcare benefits scandal is that both the government and the parents had no good overview of both their own files and files that might be relevant to them. Organizational boundaries, privacy restrictions, and the fact that ‘you never know exactly what the other knows’ meant that both civil servants and citizens were, so to speak, in the dark about what the ‘real common’ file was. There was no shared ‘source of truth’ for both civil servant and citizen. Besides the need for that ‘Single Source of Truth,’ that source data in individual files must be responsibly shareable with all entitled parties—with the proper authorization of all participants. The core of Master Data Management.

Source Archiving

Information can or may only be shared more widely once it has received a ‘release’ status and has become uniquely identifiable. A release process where a document moves from ‘in progress’ to ‘under verification’ and is ultimately formally approved and may be released for legitimate use. Since organizations often use many document and case systems, simply ‘releasing’ does not yet mean it is usable for another system or organization. Releasing also means making it ‘accessible’ to the entire organization and everyone outside, without giving everyone individual access to all relevant documents or case systems. This is only possible when at the time of release: the document is ‘formally frozen’ and can be migrated from the relevant system to a central and open archive. Via centrally managed metadata, from that moment, any necessary information equality between the owner and users of that content can also be ensured.

Another emerging need is the unambiguous recording of transactions. Small process-related datasets that record all transactions in that process, like a bookkeeping system. This can involve the current status of ownership, payments, validity, and ownership. Satoshi Nakamoto discovered the principle of blockchain in 2008. He sought a way to prevent double-spending in peer-to-peer payments and ‘discovered’ that recording a dataset’s ‘hash & timestamp’ in a distributed ‘chain’ enables reliable digital bookkeeping. The start of crypto payments, of which Bitcoin was the first in 2009. But besides cryptocurrencies, a blockchain can directly and persistently record all types of ’tokens’ at the source. Another form of source archiving, but now for transactions. See also my blog ‘Who Gifted Humanity the Blockchain?’.

Verified Use of Distributed, Open Data

Source archiving, encryption, and active authentication are the ingredients for safe and open information use within and between organizations and individuals. This digital transformation must be applied as a ‘blanket’ over the current ‘digitized’ landscape because our world is still full of old systems that were never developed for this. Systems that can sometimes function well for years and for which we don’t even have the budgets and people to renew, replace, and clean them up quickly. Therefore, a clear vision regarding future Master Data Management is essential for every organization. From the principle ’think big but start small,’ because it is impossible to do everything at once.

What does your digital landscape look like in the (distant?) future, and what does it mean to transition from the current situation to that future? These are not processes of a few years but take decades. Think about how we made distributed digital applications possible in our organizations forty years ago after the central mainframe. And after that client/server period twenty years ago, we chose the path to (again) a central solution—the cloud. And now, with the arrival of multi-clouds, edge computing, and web3-based nodes, we are again choosing a decentralized route. New challenges primarily for your data management, after all: applications wither, processes decay, but all your data remains forever.