Bibliotheek of archief? Of beide? 

Door bronarchivering vervaagt vervaagt het verschil tussen bibliotheek en archief. De termen “digitale bibliotheek” en “digitaal archief” verwijzen naar twee concepten in het domein van digitaal informatiebeheer, die elk een eigen doel en publiek dienen. Deelverzamelingen van informatie die elkaar overlappen. Bibliotheken bewaren vanouds gepubliceerde documenten die nog actief in gebruik zijn en door vele mensen worden ingezien. Archieven verzamelen daarnaast ook ongepubliceerde documenten ‘er omheen’ om de verantwoordingsplicht van een organisatie te waarborgen en het institutionele en culturele geheugen te behouden. Hoewel zowel digitale bibliotheken als digitale archieven toegang bieden tot digitale inhoud, richten digitale bibliotheken zich op brede toegang en een verscheidenheid aan bronnen voor actief gebruik, terwijl digitale archieven nadruk leggen op lange termijnopslag van historisch significante materialen in hun context.  

Digitale bibliotheken en archieven lopen in elkaar over

Een document start met de creatie ervan en bevat input van één of meer auteurs. Om het document in een proces te kunnen managen, wordt metadata (zoals naam auteur, datum, documenttype, reden van creatie) toegevoegd om het gedurende de levenscyclus te kunnen beheren. Zodra het document zijn eindversie bereikt, volgt controle, goedkeuring en formele vrijgifte voor gebruik. Vrijgegeven documenten worden in bibliotheken beschikbaar gesteld voor makkelijke toegang en bruikbaarheid. Digitale archieven zijn gericht op het bewaren en opslaan voor langetermijntoegang, inclusief bijbehorende historische en contextuele data. Hoe beter bij c.q. voor de creatie van een document álle metadata voor toekomstig gebruik – dus ook het archiveren – wordt aangemaakt, hoe makkelijker en sneller archivering gaat en zelfs automatiseerbaar wordt. 

Bibliotheek en archief verschillen in die zin ‘slechts’ van inhoud, recentheid en gebruik. Een bibliotheek als verzameling van dagelijks bruikbare kennis en informatie. Archieven bieden vaak ook toegang tot ongepubliceerde procesinformatie om de verantwoordingsplicht van de overheid te waarborgen en het institutionele en historische geheugen te behouden. De context van en relaties tussen de verzamelde en opgeslagen digitale informatie. Historisch onderzoek wil immers graag informatie kunnen plaatsen in de tijdgeest en feitelijke situatie ten tijde van de creatie van die informatie. We zien dat voor parlementaire enquetes en internationale tribunalen ook die context van documenten, berichten, besluiten en gebeurtenissen nodig is. De verplichting voor chat-archivering zoals sms en whatsapp is hier een voorbeeld van. 

Bronarchivering ondersteunt beide concepten

Een document dat wordt gecreëerd, is meestal ‘opgeslagen’ in een contentmanagement systeem zoals Opentext, Documentum of Filenet, of documentsysteem zoals Sharepoint, Office 365 of Google cloud. Hier creëert de auteur het document en wordt beschikbaar voor co-creatie, dossiervorming en vrijgifte voor publicatie. Zodra een document of dossier is vrijgegeven, kan het zowel in digitale bibliotheken als archieven worden geïmporteerd voor verder gebruik in de lifecycle. In het content- of documentsysteem bewaren heeft alleen zin als het vanuit dat systeem nog actief wordt gebruikt c.q. voor nieuwe documenten van belang is.. 

Om een document in zijn levenscyclus te kunnen managen – en dit proces te automatiseren – is het nodig dat alle minimale metadata van het document vóór de inhoudelijke creatie wordt gestart. Zonder die ‘verplichte minimale’ metadata mag immers geen enkel document worden vrijgegeven of gearchiveerd. In hoogwaardige engineering processen kan zonder volledige lifecycle metadata toevoeging, zelfs geen enkel digitaal document worden aangemaakt (ISO 10303 *). Verplichte metadatering vooraf, inclusief verificatie of auteur(s) – gezien rol en kwalificatie – überhaupt met het systeem zo’n type document mogen aanmaken en bewerken. De basis van procesgerichte kwaliteitsborging voor het verdere lifecycle beheer van die documenten of dossiers.  

Op dat moment is bronarchivering mogelijk. Elk vrijgegeven document wordt niet alleen vrijgegeven voor gebruik maar ook direct formeel gearchiveerd. En geborgd beschikbaar voor elk digitaal gebruik in de rest van de levenscyclus die decennia of zelfs eeuwen kan zijn. De uitdaging van bronarchivering is dat zo’n archiefsysteem werkelijk alle digitale documenten en materialen moet kunnen importeren, metadateren en geborgd opbergen. En ook nog over alle bestaande en gebruikte content-, document- en zaaksystemen en applicaties heen. 

Onder regie van de archivaris 

Bronarchiveren vindt plaats onder regie van een archivaris, opdat gearchiveerde documenten of dossiers voldoen aan de archiefwet. Daarnaast is het interessant dat – potentieel publieke – documenten in het kader van privacywetgeving worden gedepersonaliseerd. Eventueel nog gepersonaliseerde versies blijven dan voor een beperkte groep gebruikers vertrouwelijk beschikbaar, zoals voor waarheidsvinding en strafrechtelijk onderzoek. Door een vrijgegeven document gelijk te depersonaliseren, is deze versie voor later ‘open gebruik’ beschikbaar en kan achteraf ‘zwartlakken’ worden voorkomen. Liefst ook direct een kleine ‘thumbnail’ versie van het document creëren ten behoeve van het makkelijk doorzoeken van het digitale archief. 

Bronarchivering omzeilt nog een hindernis: het probleem dat documenten in verschillende silo’s van (departementale) organisaties zijn opgeslagen. Zowel systeemtechnisch als vanuit wet of privacy zijn op dit moment veel documenten ambtelijk niet makkelijk deelbaar en/of uitwisselbaar. Dit kwam naar boven in de toeslagenaffaire, waarbij behandelend ambtenaar en betreffende toeslag-ouder niet over een gedeeld dossier beschikten. Beiden wisten derhalve niet wat ze van elkaar wisten of (nog) niet wisten. Deze informatie-ongelijkheid was een belangrijke reden voor de vele rechtszaken, waarbij pas tijdens de rechtszaak het volledige dossier ‘op tafel’ kwam’. Als toen – naast bronarchivering – ook individuele dossierdeling tussen overheid en burgers had bestaan, was dit alles nooit in deze mate ontspoord. 

Arqiver is ontstaan uit de toeslagenaffaire

Ernstige gebeurtenissen zijn vaak de reden voor het ontstaan van niet eerder bestaande oplossingen en producten. ArQiver is zo’n voorbeeld, dat nooit door één van de huidige leveranciers van contentmanagement- of documentsystemen had kunnen worden bedacht of ontwikkeld. Immers een generieke oplossing die als een ‘laag’ over een heel segment aan document-applicaties heen wordt gelegd, kan vanuit concurrentie aspecten nooit door één van die gebruikte aanbieders worden aangeboden. Dat maakt ArQiver al uniek. 

Daarnaast is het als pure SaaS dienst – in combinatie met een zero-trust gebaseerde, mobiele  app voor dossier-deling – enorm veilig, mede omdat het gebaseerd is op individuele, persoonlijke identificatie via mob.id voor zowel de betrokken burger als de betrokken ambtenaar. Hierdoor kan ook persoonlijke toestemming worden gegeven voor het delen van privacy-gevoelige informatie. Dat maakt ArQiver nog unieker.

De krachtige interne, op Clojure gebaseerde engine van ArQiver drijft de AI-ondersteunde templates aan voor het parametriseren van alle datastromen, functionele rollen en actieve metadatering die nodig zijn voor het (kunnen) automatiseren van vele miljoenen documenten en chats per dag. Terwijl na die archivering alle informatie beschikbaar is voor breed publiek gebruik, nieuwe dossiervorming en/of brononderzoek en waarheidsvinding.

Het een stap richting quantumveilige Web3 gebaseerde, decentrale toepassingen gericht om veilig peer-to-peer met elkaar kunnen communiceren en dossiers te delen. Passend in de wereld van open data, data act, data spaces en e-wallets voor passwordloze authenticatie, gebaseerd op biometrische, soevereine digitale identiteiten. Een logische stap voor een moderne en open overheid die zijn individuele contacten met zijn burgers op een superveilige wijze hoog op de agenda wil stellen . . . 

Photo by Rabie Madaci on Unsplash

*) ISO 10303

ISO 10303, ook bekend als STEP (Standard for the Exchange of Product model data), is een internationale norm voor de representatie en uitwisseling van productgegevens. De primaire focus is het bieden van een uitgebreide manier om de volledige productgegevens gedurende de levenscyclus te beschrijven. ISO 10303 richt zich voornamelijk op de uitwisseling van industriële gegevens, specifiek in de context van productie en engineering.

Met betrekking tot archivering definieert ISO 10303 normen voor de langdurige opslag van digitale productgegevens, zodat productinformatie kan worden gearchiveerd en teruggevonden zonder dat de integriteit, bruikbaarheid en relevantie ervan verloren gaat. Archivering onder ISO 10303 richt zich op het waarborgen dat gegevens met betrekking tot productontwerp, productie en engineering toegankelijk en herbruikbaar blijven, zelfs als de software of systemen die zijn gebruikt om de gegevens te maken verouderd raken.

De auteur heeft in de jaren 1996-2004 in het NATO-CALS project PLCS actief bijgedragen aan het ontstaan van deze standaard.

———————  Translated by ChatGPT  ——————-

Library or archive? Or both?

Source archiving blurs the distinction between a library and an archive. The terms “digital library” and “digital archive” refer to two concepts in the field of digital information management, each serving its own purpose and audience. Subsets of information overlap. Libraries have traditionally been collections of published documents that are actively used and consulted by many people. Archives, on the other hand, collect unpublished documents “around” these to ensure the accountability of an organization and to preserve institutional and cultural memory. While both digital libraries and digital archives provide access to digital content, digital libraries focus on broad access and a variety of sources for active use, while digital archives emphasize the long-term preservation of historically significant materials in their context.

Digital libraries and archives merge

A document starts with its creation, involving input from one or more authors. To manage the document in a process, metadata (such as the author’s name, date, document type, reason for creation) is added so that it can be managed throughout its lifecycle. Once the document reaches its final version, it undergoes review, approval, and formal release for use. Released documents are made available in libraries for easy access and usability. Digital archives focus on long-term preservation and storage, including associated historical and contextual data. The better all metadata for future use—i.e., also archiving—is created during or before the creation of a document, the easier and faster archiving becomes, and even automatable.

Libraries and archives differ in terms of content, recency, and usage. A library is a collection of daily usable knowledge and information. Archives often provide access to unpublished process information to ensure the accountability of the government and to preserve the institutional and historical memory. The context of and relationships between the collected and stored digital information are crucial. Historical research, for example, seeks to place information within the time period and actual situation at the time of its creation. We see that for parliamentary inquiries and international tribunals, the context of documents, messages, decisions, and events is also needed. The obligation to archive chats, such as SMS and WhatsApp, is an example of this.

Source archiving supports both concepts

A document created is usually “stored” in a content management system such as Opentext, Documentum, or Filenet, or in a document system like SharePoint, Office 365, or Google Cloud. Here, the author creates the document, which is then available for co-creation, file formation, and release for publication. Once a document or file is released, it can be imported into both digital libraries and archives for further use in the lifecycle. Storing in the content or document system only makes sense if it is still actively used from that system or relevant for creating new documents.

To manage a document in its lifecycle—and to automate this process—it is necessary to create all minimum metadata for the document before its substantive creation. Without this “mandatory minimum” metadata, no document can be released or archived. In high-quality engineering processes, no digital document can be created without adding full lifecycle metadata (ISO 10303 *). Mandatory prior metadata creation includes verifying whether the author(s)—given their role and qualifications—are even authorized to create and edit such a document within the system. This is the basis for process-oriented quality assurance for the further lifecycle management of these documents.

At this point, source archiving is possible. Every released document is not only released for use but also formally archived directly. It is securely available for any digital use throughout the rest of the lifecycle, which can span decades or even centuries. The challenge of source archiving is that such an archive system must be able to import, metadata, and securely store all digital documents and materials. It must also work across all existing and used content, document, and case systems and applications.

Under the direction of the archivist

Source archiving takes place under the direction of an archivist to ensure that archived documents or files comply with archival law. Additionally, it’s interesting that—potentially public—documents are depersonalized under privacy legislation. Any personalized versions remain confidentially available to a limited group of users, such as for truth-finding and criminal investigations. By depersonalizing a released document immediately, this version is available for later “open use,” preventing post-redaction. Ideally, a small “thumbnail” version of the document is also created directly to facilitate easy searching of the digital archive.

Source archiving bypasses another hurdle: the problem of documents being stored in different silos of (departmental) organizations. Both from a system and legal or privacy perspective, many documents are currently not easily shareable and/or exchangeable. This became apparent in the childcare benefits scandal, where neither the civil servant handling the case nor the affected parent had access to a shared file. As a result, neither knew what the other knew or didn’t know. This information inequality was a key reason for the many lawsuits, where the full file only came to light during the legal process. If, in addition to source archiving, individual file-sharing between the government and citizens had existed at that time, things would not have escalated to such an extent.

ArQiver emerged from the childcare benefits scandal

Serious events often give rise to previously non-existent solutions and products. ArQiver is one such example, which could never have been conceived or developed by any of the current suppliers of content management or document systems. A generic solution that acts as a “layer” over an entire segment of document applications could never be offered by any of the competing vendors. This makes ArQiver unique.

Additionally, as a pure SaaS service combined with a zero-trust-based mobile app for file sharing, it is extremely secure, partly because it is based on individual, personal identification via mob.id for both the involved citizen and civil servant. This allows personal consent for sharing privacy-sensitive information. This makes ArQiver even more unique.

The powerful internal Clojure-based engine of ArQiver drives the AI-supported templates for parameterizing all data streams, functional roles, and active metadata necessary to automate millions of documents and chats per day. After archiving, all information is available for public use, new file formation, source research, and truth-finding.

It’s a step toward quantum-safe Web3-based decentralized applications designed for secure peer-to-peer communication and file sharing. It fits into the world of open data, data act, data spaces, and e-wallets for passwordless authentication, based on biometric, sovereign digital identities. A logical step for a modern and open government that aims to prioritize secure individual interactions with its citizens . . .

*) ISO 10303

ISO 10303, also known as STEP (Standard for the Exchange of Product model data), is an international standard for the representation and exchange of product data. Its primary focus is to provide a comprehensive way to describe the complete product data throughout its lifecycle. ISO 10303 is primarily related to industrial data exchange, specifically in the context of manufacturing and engineering.

Regarding archiving, ISO 10303 defines standards for the long-term retention of digital product data, ensuring that product information can be archived and retrieved without losing its integrity, usability, and relevance over time. Archiving under ISO 10303 is focused on ensuring that data related to product design, manufacturing, and engineering can be accessed and reused even if the software or systems used to create the data become obsolete.

The author actively contributed to the development of this standard in the NATO-CALS project PLCS during the years 1996-2004