De aantrekkingskracht van data
Men kan zich afvragen of, net zoals massa’s elkaar aantrekken, ook data onderling een aantrekkingskracht heeft. De aantrekkingskracht van de aarde is de zwaartekracht die we elke dag voelen en waardoor de lichte appel naar de zware aarde valt. Maar dat is ook de reden dat de maan in een baan om de aarde blijft draaien, en de aarde om de zon.
Hoe groter de massa en des te dichterbij, hoe groter die aantrekkingskracht is. Dichtheid, volume van en afstand tot massa bepaalt deze graviteit. Stel dat je dat eens projecteert op een situatie rond data. Dan zou Big Data een grotere aantrekkingskracht moeten hebben dan kleine datasets. En wat trekt data dan aan? Andere data? Gebruikers? Maar ook services en applicaties, want die bestaan zelf ook weer uit data.
Data Gravity
De term Data Gravity is het eerst gebruikt door Dave McCrory en sindsdien zijn er diverse andere artikelen over dit onderwerp verschenen. Het wordt heel leuk uitgelegd in deze YouTube video. Uitgangspunt is steeds: als data inderdaad massa heeft, dan heeft Big Data een hele grote massa. En wat betekent dat? Betekent dat dan ook dat de aantrekkingskracht van of op die data groter wordt?
Een aardige hypothese natuurlijk waar je leuk over kunt filosoferen. Digitale data bestaat uit nullen en enen en die hebben in principe geen massa. De magnetisme op een disk of een elektrisch veld in een solid state geheugen wordt in een bepaalde positie gebracht – dat kost energie – maar de massa van het opslagelement verandert in principe niet.
Het gewicht van een aardbei
Er is een keer berekent dat alle data die op het internet aanwezig is het gewicht van ongeveer 50 gram zou hebben. Hoe hebben ze dat berekent? Ze gebruiken Einsteins formule E=mc2 en stellen dat de energie die nodig is om data te maken of te transporteren, kan worden uitgedrukt in massa. Heel klein natuurlijk; een 4GB Kindle vullen zou deze een miljardste van een miljardste gram zwaarder maken, of 0.000000000000000001g. Uit dit soort berekeningen wordt uiteindelijk de 50 gram voor het hele internet berekend, het gewicht van een flinke aardbei.
Deze berekening werd in 2006 gemaakt en sindsdien is de hoeveelheid data op het internet flink gegroeid. Als we rekening houden met de tweejaarlijkse verdubbeling van de data die we generen, zoals IDC ons dat al enkele jaren lang voorrekent, dan nog zou het gewicht van alle data op het internet de 1 kilo niet overschrijden. Niets iets om je zorgen om te maken, lijkt me.
Aantrekkingskracht op applicaties en services
Maar het is wel leuk om te kijken naar de aantrekkingskracht van data. Zeker als we weten dat applicaties en services ook uit data zijn opgebouwd. Dat betekent dat data en applicaties aantrekkingskracht op elkaar hebben. Hoe groter de data en/of de applicatie hoe groter de aantrekkingskracht. Als de data klein is en de applicatie groot, trekt de applicatie de data naar zicht toe. Maar als de data groter is dan de applicatie, gebeurt het omgekeerde en trekt de data applicaties aan. Hoe kleiner de applicatie, hoe sneller die kleine apps worden aangetrokken.
Uit dezelfde theorie kan de aantrekkingskracht van services worden beschreven. Heel veel data zal een aantrekkingskracht hebben op services. Het voorbeeld van Google wordt ook wel genoemd, daar ligt zoveel data dat dit heel veel services aantrekt. Een leuke, maar ook begrijpelijke gedachte. Data is immers de grondstof voor informatie en daaruit te destilleren kennis en acties. En hoe groter de datahoeveelheid, hoe meer (deels verborgen) informatie die dataset bevat.
Hoe meer data, hoe hoger de prijs
Dat verklaart de groeiende aantrekkingskracht die Big Data heeft op applicaties en services. En de wil grote data-meren aan te leggen om die aantrekkingskracht te organiseren en te bundelen. Dat is ook de situatie bij Cloud-storage. Als de hoeveelheid data bij een cloudprovider groter wordt, wordt de vanzelfsprekendheid om de services en applicaties bij die provider te laten plaatsvinden ook groter. Dat heeft Salesforce allang ontdekt en weet dat de data – zonder die door hen geleverde services – veel minder waard is. Een grotere dataset verhoogt de prijs die men voor die services kan vragen. Een groeiende gedwongen winkelnering, dat voor elke cloudprovider geldt.
Hoe groter dus de data wordt, des te eerder zullen services en applicaties naar de data getrokken worden. Net zoals een appel naar de aarde valt en niet andersom. De snelheid waarmee een applicatie of service naar de data wordt getrokken wordt bepaalt door de bandbreedte tussen beiden. En de afstand ertussen bepaalt de latency of reactietijd.
Ontsnappen aan Big Data
Het aardige is dat de lichtsnelheid de beperkende factor is om data te kunnen verplaatsen. Immers in een glasvezel kan het licht niet sneller gaan dan de snelheid in dat medium. En de bandbreedte is fysiek gesproken ook eindig, waardoor de snelheid van dataverplaatsing flink begrensd is. Nog steeds is het soms sneller om echt grote hoeveelheden data fysiek te vervoeren in plaats via de kabel. Een storagebox vullen, afkoppelen en met vrachtauto of vliegtuig naar een ander locatie brengen. Als we over de migratie van honderden Petabytes spreken, geen ongebruikelijke methode om snel en (relatief) goedkoop data te transporteren.
Dat geeft ook aan dat als de hoeveelheid data in een cloud extreem groot is geworden, de tijd tegen je gaat werken: het is praktisch onmogelijk geworden je data daar nog weg te halen. Dat zou tot migratietijden van maanden en zelfs jaren leiden. Data heeft dus aantrekkingskracht, hoe groter de hoeveelheid, hoe krachtiger je wordt aangetrokken en hoe groter je ontsnappingssnelheid moet zijn om weer te kunnen vertrekken. Een soort Hotel Californië: ‘You can check out anytime you like, but you can never leave . . . . ‘
Photo by Mayank Dhanawade on Unsplash