De Data Gravity Index

In een eerdere blog sprak ik over het ‘gewicht van data‘. Data transporteren kost tijd en energie en door Einstein’s formule E=mc2 te gebruiken heeft data een te bereken massa. In 2006 is een berekening gemaakt dat alle data op het internet toen een gewicht had van ca 50 gram, een flinke aardbei. Zelfs met de huidige tweejaarlijkse verdubbeling van de totale gecreerde data weegt al onze data momenteel niet meer dan 25 kilo. Omdat verdubbeling exponentieel is, werd berekend dat over 350 jaar het aantal bits het aantal atomen op onze planeet zal overschrijden. Deze berekeningen waren de reden in 2020 van de introductie van de Data Gravity Index: meten hoe de creatie, aggregatie en private en publieke uitwisseling van data zich ontwikkelt. Afgelopen maand werd de Data Gravity Index 2.0 gepubliceerd. 

Data Gravity Index 2.0

Datagravity is de aantrekkingskracht die wordt veroorzaakt door het creëren en uitwisselen van bedrijfsgegevens en het gebruik van applicaties, servers en andere gegevens. Naarmate de creatie en uitwisseling van data groeit, versnelt deze exponentieel. Versterkt nog door de de economische aantrekkingskracht die zij heeft. In centra waar gegevens worden gecreëerd en uitgewisseld, kan deze explosie van gegevens belastend zijn voor de oudere en veelal tragere servers en applicaties. Datagravity veroorzaakt uitdagingen die de efficiëntie van uitwisseling van gegevens, beveiliging, klantervaringen en innovatie op mondiale schaal belemmeren. De Data Gravity Index™ 2.0 meet ook de impact van gegevens op het nationale bruto product.

Het rapport beschrijft hoe het gebruik van digitale data direct is gekoppeld aan het Bruto Nationaal Product van die landen. Hiervoor zijn ruim 100 miljoen unieke data elementen onderzocht inclusief de miljard berekeningen die daaraan ten grondslag lagen. En dat voor 190+ landen en 500+ metropolen. In 2016 voorspelde de WEF dat digitalisering wereldwijd een ‘digital dividend voor de samenleving en het bedrijfsleven’ van honderd biljoen dollar zou kunnen betekenen. Afgelopen jaar stelde het IDC vast dat de verschuiving naar een data-economie in de VS vergevorderd is: in 2022 was de productie van ‘data-dichte producten’ gegroeid tot twee derde (17 biljoen dollar) van het totale Amerikaanse GDP (25 B$). 

Clouds worden steeds zwaarder en trager

Een grote onderneming die lange tijd gegevens bij een cloudprovider opslaat, krijgt te maken met uitdagingen die verband houden met Data Gravity. Naarmate data zich snel ophoopt en de afhankelijkheid van de tools van de provider groeit, wordt het moeilijk en duur om naar een andere provider of eigen on-premise te verhuizen. Zelfs als die veranderingen nodig zijn om data dichter bij gebruikers te brengen of inzichten uit silo-data te ontsluiten. Immers ‘data is gewicht’: verplaatsen kost energie en reistijd. De integrale aard van de gegevens voor de activiteiten van de organisatie resulteert in aanzienlijke dataclusters, waardoor verhuizing complex wordt en niet zonder gevolgen is voor essentiële applicaties en diensten.

Het effect van Data Gravity is dat het steeds moeilijker wordt om grote hoeveelheden gegevens te verplaatsen vanwege de cruciale rol ervan in de bedrijfsvoering. Dit maakt het vaak moeilijk en kostbaar om van cloudprovider te wisselen of gegevens weer on-premises te plaatsen. Door de adoptie van nieuwe technieken, zoals kunstmatige intelligentie (AI) nemen de behoeften op het gebied van datalokalisatie, geo-regulering en soevereiniteit flink toe. Dit creëert nieuwe uitdagingen voor ondernemingen zoals data-localisatie. Door data op de eerste plaats te zetten, zowel vanuit zakelijk als technisch oogpunt, kunnen decentrale organisaties profiteren van de verschuiving naar datagestuurde workflows en de kostbare datagravity aanpakken daar waar deze het hoogst is: in de grote bevolkingscentra.

Decentralisatie, van wens naar noodzaak

Datastromen zijn handelsstromen. Ze brengen kostbare informatieproducten van creator en leverancier naar verwerker en gebruiker. Dit vraagt digitale netwerken, hubs en overslagpunten, inclusief tijdelijke opslag van die data. Net als onze oude havens met pakhuizen, overslag en hun verbindingen met het achterland. Dat Nederland een dataknooppunt is, is omdat de eerste grote kabelverbindingen met Amerika bij Nederland aankwamen, waarna datacenters rond Amsterdam (opslag en overslag) zorgden dat het achterland van Europa bediend kon worden. Onze AMS-IX is er groot mee geworden. Als overheid is een digitaal industriebeleid voor deze digitale handel, overslag en distributie essentieel. Niet alleen vanwege ruimtelijke orde,  energiegebruik en lokale expertise, maar ook onze strategische afhankelijkheid die we intussen als economie op dit gebied hebben opgebouwd. Onze datahavens zijn intussen economisch groter dan Rotterdam en Schiphol bij elkaar. Waar een klein land – onzichtbaar voor velen – groot in kan zijn.

Net zoals geld geld aantrekt – denk aan de financiele sector – trekt data data aan. Als ik dichtbij grote belangrijke databronnen ben, kan ik snel met die data nieuwe data en innovatieve informatie-producten maken. Dat zien we bij de ontwikkeling van AI momenteel gebeuren: de grootste groei ontstaat dicht bij de plaatsen waar de te gebruiken data makkelijk voorhanden is. Dat zien we ook bij de resultaten van het onderzoek: 75% van de bedrijven zegt dat de ‘data-first strategie’ steeds belangrijker wordt voor zowel klantervaringen als productie van nieuwe informatieproducten. Een net zo grote meerderheid is van plan decentrale bedrijfslocaties te bouwen of in te richten om hun datadistributie en gegevenslokalisatie te verbeteren. Data-latency, het snel kunnen bereiken en gebruiken van essentiële data, wordt steeds belangrijker. 

Impact op de cloud

Er wordt verwacht dat tegen 2025 ongeveer 1200 zetabytes (zeta: 1021) aan bedrijfsgegevens worden gecreëerd en gebruikt in publieke en private datacenters. Centrale clouds zijn een belangrijke ‘rustplaats’ voor grote data-omgevingen. Sommigen zijn zo groot dat zij niet of nauwelijks meer kunnen worden verplaatst. De vraag naar gedistribueerde cloudcapaciteit groeit snel. Passend in de ontwikkeling naar het decentrale Web3. Volgens het rapport zien we een groeiende verschuiving van dataverkeer tussen noord en zuid, passend in een totale colocatie van datagebruik en -opslag. Gegevens stromen van de kern steeds meer naar de rand (edge-computing) en dat vraagt datagericht verkeersbeheer en de vraag naar centrale en lokale orkestrators op dat gebied, zeg maar verkeerregelaars. 

Voor bedrijven en organisaties betekent dit dat men meer gebruik moet gaan maken van data-gestuurde worksflows. En dat betekent – wat ik al jarenlang uitdraag – een datacentrische architectuur waar (de mogelijkheid tot) gegevensuitwisseling centraal staat. Decentralisatie zorgt tevens voor een verminderde kwetsbaarheid als knooppunten of netwerkverbindingen uitvallen. In een wereld die oorlogszuchtiger wordt, ook niet onwelkom: zorg dat je ‘golden data’ veilig en eventueel ‘air-gapped’ off-line over vele plaatsen is verspreid. Hierbij zijn Web3, edge en blockchainstructuren natuurlijk logische antwoorden. Zorg daarbij ook voor een strategische inrichting en kalibratie van de capaciteit van medewerkercentra. Automatisch is prachtig tot de techniek je in de steek laat, dan zijn ervaren medewerkers je laatste resort. 

De Data Gravity Index 2.0 laat wederom genadeloos zien dat wie de data bezit, ook vaak economische kampioen is. Het Nationaal Bruto Product heeft een directe relatie met de data-productie, -connectivity en -opslag ine en land. In 2025 wordt 1200 ZetaByte geproduceerd, opgeslagen op 243 miljoen ‘active storage-devices’ verdeeld over EMEA, Noord Amerika en APAC met respectievelijk 323 ZB, 400 ZB en 461 ZB. Met de aantekening dat APAC de grootste groeier is en blijft . . .   

Photo by Joshua Sortino on Unsplash

The Data Gravity Index.    (translated with ChatGPT)

In a previous blog, I talked about the weight of data. Transporting data takes time and energy, and using Einstein’s formula E=mc2, data has a calculable mass. In 2006, a calculation was made that all data on the internet at that time had a weight of about 50 grams, a hefty strawberry. Even with the current biennial doubling of total created data, all our data currently weighs no more than 25 kilograms. Because doubling is exponential, it was calculated that in 350 years, the number of bits will exceed the number of atoms on our planet. These calculations were the reason for the introduction of the Data Gravity Index in 2020: to measure how the creation, aggregation, and private and public exchange of data is evolving. Last month, Data Gravity Index 2.0 was published.

Data Gravity Index 2.0

Data gravity is the attraction caused by the creation and exchange of business data and the use of applications, servers, and other data. As the creation and exchange of data grow, it accelerates exponentially, further strengthened by the economic attraction it holds. In centers where data is created and exchanged, this explosion of data can be burdensome for older and often slower servers and applications. Data gravity causes challenges that hinder the efficiency of data exchange, security, customer experiences, and innovation on a global scale. Data Gravity Index™ 2.0 also measures the impact of data on the national gross product.

The report describes how the use of digital data is directly linked to the Gross National Product of those countries. Over 100 million unique data elements were examined for this, including the billion calculations that underpinned them. This was done for 190+ countries and 500+ metropolitan areas. In 2016, the WEF predicted that digitization could mean a ‘digital dividend for society and business’ of one hundred trillion dollars globally. Last year, the IDC found that the shift to a data economy in the US is advanced: by 2022, the production of ‘data-intensive products’ had grown to two-thirds (17 trillion dollars) of the total US GDP (25 trillion dollars).

Clouds are becoming heavier and slower

A large enterprise that stores data with a cloud provider for a long time faces challenges related to Data Gravity. As data accumulates rapidly and dependence on the provider’s tools grows, it becomes difficult and expensive to move to another provider or on-premises. Even if those changes are necessary to bring data closer to users or unlock insights from siloed data. After all, ‘data is weight’: moving it requires energy and travel time. The integral nature of the data for the organization’s operations results in significant data clusters, making migration complex and not without consequences for essential applications and services.

The effect of Data Gravity is that it becomes increasingly difficult to move large amounts of data due to its crucial role in business operations. This often makes it difficult and costly to switch cloud providers or bring data back on-premises. With the adoption of new techniques, such as artificial intelligence (AI), the needs for data localization, geo-regulation, and sovereignty are increasing significantly. This creates new challenges for enterprises such as data localization. By prioritizing data, both from a business and technical perspective, decentralized organizations can benefit from the shift to data-driven workflows and address costly data gravity where it is highest: in major population centers.

Decentralization, from desire to necessity

Data flows are trade flows. They carry valuable information products from supplier to processor and user. This requires digital networks, hubs, and transfer points, including temporary storage of that data. Similar to our old ports with warehouses, transshipment, and their connections to the hinterland. That the Netherlands is a data hub is because the first major cable connections with America arrived in the Netherlands, after which data centers around Amsterdam (storage and transshipment) ensured that the hinterland of Europe could be served. Our AMS-IX has become big with this. As a government, a digital industrial policy for this digital trade, transshipment, and distribution is essential. Not only because of spatial order, energy consumption, and local expertise, but also because of the strategic dependency we have built up as an economy in this area. Our data ports are now economically larger than Rotterdam and Schiphol combined. What a small country – invisible to many – can excel in.

Just as money attracts money – think of the financial sector – data attracts data. When I am close to major important data sources, I can quickly create new data and information products with that data. We see this happening with the development of AI currently: the greatest growth occurs near the places where the data to be used is readily available. We also see this in the results of the research: 75% of companies say that the ‘data-first strategy’ is becoming increasingly important for both customer experiences and the production of new information products. An equally large majority plans to build or set up decentralized business locations to improve their data distribution and data localization. Data latency, the ability to quickly access and use essential data, is becoming increasingly important.

Impact on the cloud

It is expected that by 2025, approximately 1,200 zettabytes (zetabytes: 10^21) of business data will be created and used in public and private data centers. Central clouds are important ‘resting places’ for large data environments. Some are so large that they can hardly be moved anymore. The demand for distributed cloud capacity is growing rapidly. Fits into the development towards the decentralized Web3. According to the report, we see a growing shift of data traffic between north and south, fitting into a total colocation of data usage and storage. Data flows from the core increasingly towards the edge (edge computing), requiring data-centric traffic management and the demand for central and local orchestrators in that area, you might say traffic controllers.

For companies and organizations, this means that they need to make more use of data-driven workflows. And that means – as I have been advocating for years – a data-centric architecture where (the possibility of) data exchange is central. Decentralization also reduces vulnerability if nodes or network connections fail. In a world becoming more prone to warfare, this is also not unwelcome: ensure that your ‘golden data’ is safe and possibly distributed offline across many locations. Web3, edge, and blockchain structures are of course logical answers here. Also, ensure a strategic design and calibration of employee center capacity. Automation is wonderful until the technology fails you, then experienced employees are your last resort.

The Data Gravity Index 2.0 once again mercilessly shows that those who possess the data are often economic champions. The Gross National Product has a direct relationship with data production, connectivity, and storage in a country. In 2025, 1,200 Zettabytes will be produced, stored on 243 million ‘active storage devices’ distributed across EMEA, North America, and APAC with 323 ZB, 400 ZB, and 461 ZB respectively. With the note that APAC is and remains the largest grower…