Datameesterschap

(Deze blog is eerder gepubliceerd 19 september 2017 (Datacentered & Dutch IT Channel)

Data is het voedsel dat de digitale transformatie drijft. Het is de nieuwe geldeenheid voor de digitale economie. In het centrum van de digitale transformatie ligt uw data-platform. Als de kwaliteit, consistentie, beschikbaarheid en toegang tot uw data niet gegarandeerd zijn, zal de oplossing die u bouwt niet de levensduur hebben die u denkt. Als u niet direct uw data in waarde-transacties kunt omzetten, verliest u omzet en winst. In de digitale economie geldt: ‘zonder data geen handel’.

Data is niet alleen de content van de levering, het legt ook vast wie wat op welk moment met welke data deed. Die gebruiksdata levert een gebruikservaring op die zowel uw inhoud als het proces kan verbeteren. Daarom is het bouwen van een solide centrale datamanagement-strategie zo enorm belangrijk. En hierbij ontstaat ook de vraag of u de data op uw lokale cloudplatform houdt of het naar een gezamenlijk cloudplatform brengt. Cloud is het standaard operations model en lokaal en centraal hebben beiden voor- en nadelen.

File-, object- en stream-data

Blijft data beschikbaar en verplaatsbaar en houdt u er voldoende controle over? Met de nieuwe aansprakelijkheden voor het bezit en gebruik van privacy van data is deze vraag steeds relevanter aan het worden. En welke soort data moet ik organiseren? Er zijn drie soorten dataformaten belangrijk: file-data, zoals we die in het verleden hebben leren kennen, objectdata zoals die op mobiele- en web-platformen wordt gebruikt en ten slotte stream-data, die van apparaten en sensoren in de gelinkte wereld van IoT komt.

Opslag, bescherming en compliance van alle drie soorten data is vitaal om uw dataplatform op orde te houden. Ook moet data makkelijk van formaat kunnen worden veranderd om in elk deel van eigen interne processen alsook in externe processen te kunnen worden toegepast. Deze platformen zijn steeds vaker ongestructureerde dataverzamelingen met erboven software-defined oplossingen waarbij de software de data ter beschikking stelt wat betreft de datasoort, het formaat en de toepassing ervan.

Toekomstvast

Het is begrijpelijk dat met de groei van zowel hoeveelheid als de variëteit van data, deze platformen de ultieme toekomstvaste oplossingen zijn voor digitale processen. Daarnaast kan er een enorme besparing ontstaan als data niet meer dubbel en/of in verschillende formaten wordt opgeslagen. Terwijl dit tevens een aanzienlijke verbetering van de portabiliteit van data realiseert.

Voordat u dus uw data-opslag platformen kunt kiezen, dient uw data-organisatie voor het gebruik per toepassing bekend te zijn. Zowel de portabiliteit als de variëteit van de consumptiemodellen van uw data dienen vooraf helder te zijn gedefinieerd om de juiste services in de markt te kunnen zetten.

Houdbaarheid

Data heeft soms ook een houdbaarheidsdatum, daarna zal de kwaliteit, geldigheid en toepassing ervan geen waarde meer hebben, anders dan historisch materiaal (soms ook belangrijk). Anderzijds heeft data soms geen houdbaarheidsdatum en is het belangrijke ervaring voor gebruik in business intelligence en toekomstige kunstmatige intelligentie. Het zijn twee keerzijden van dezelfde medaille; dezelfde data kan verschillende gedaanten hebben met verschillende toepassing en compliance.

Onbewust bekwaam

Meesterschap in data vraagt oefening en geduld. Uit een onderzoek van Malcolm Gladwell ontstond de 10.000 uur-regel. Het vraagt ongeveer 10.000 uur aan studie en toepassing om een Meester in bepaald vakgebied te worden. Datameesterschap leer je in de praktijk en is een schaars vakmanschap. Begrijpen op hoeveel verschillende manieren je naar dezelfde data kunt kijken, is al een kunst op zich. En die kunst is nodig om alomvattend de datacollectie in je organisatie te kunnen vormgeven. Wie heeft vanuit welke toepassing dezelfde data in een ander formaat nodig om zijn werk uit te kunnen voeren? En wat zijn de logische bevoegdheden van de creatoren, de uiteindelijke eigenaar en soms zelfs onbekende gebruikers van data?

Data of algoritmes?

Zonder data geen algoritmes. De vraag is: wat is belangrijker, veel goede data of veel goede algoritmes? In onze tijd van cloudcomputing is het geen probleem om duizenden CPU’s beschikbaar te maken om een Big Data analyse uit te voeren. Dus de computing-power zelf is geen onderscheidend vermogen meer. Diverse bedrijven, zoals Tesla stellen dat data meer competitief voordeel geeft dan slimme algoritmes. Hun stelling: het bedrijf met de meeste data zal uiteindelijk winnen. Mits die data goed georganiseerd en beschikbaar is.

Ieder bedrijf kan morgen wakker worden en beseffen dat het een software- en analytics-bedrijf is geworden, als zij de digitale transformatie goed uitvoert. Net zoals General Electric ooit overkwam. Niet dat het bedrijf nu opeens software verkocht, maar data en software was één van de belangrijkste ingrediënten van het bedrijf was geworden. Het kostte CEO Jeff Immelt meer dan vijf jaar en vele miljarden dollars om dit te kunnen realiseren.

Opgeslagen energie

Business Intelligence wordt alleen maar beter als het kan rijpen. Als je de tijd neemt om de trends en de gevolgen van trends te begrijpen. En als je die gecondenseerde tijd dan in slimme algoritmes stopt en toepast op de juiste data, kun je veel tijd winnen. In feite zijn algoritmes ingedikte tijd. Vergelijkbaar met fossiele brandstof ontstaan uit miljoenen jaren biologisch opgeslagen energie. Voor algoritmes zijn de eerder gestructureerd opgeslagen data vergelijkbaar de opgeslagen zonne-energie in fossiele brandstoffen. Een bedrijf als Walmart heeft meer dan 40 PB aan data van hun 20.000 winkels in 28 landen gecentraliseerd bij elkaar gebracht. Walmart begrijpt dat data het verschil maakt. Data versterkt de huidige innovatiefase naar de digitale economie. En maakt het mogelijk predictive services mogelijk te maken, machines slimmer te maken, en systemen intelligent in te zetten.

Datameesterschap

Dat geeft uitdagingen om in je bedrijf je dataorganisatie zo in te richten dat het een robuust platform wordt dat schaalbaar, elastisch en compliant genoeg is voor de komende decennia. Daarnaast de vraag: welke data gaan we bewaren en welke data gooien we weg? Hoe gaan we het opslaan, hoe gaan we het beheren en hoe gaan we het beschermen?

Maar de belangrijkste vraag is: wie wordt de ontwerper van dat nieuwe dataplatform? Wie heeft voldoende business- en proceskennis en ervaring om de noodzakelijke dataviews, metadata, compliance en governance voor dat platform vast te stellen, te ontwerpen en de bouw en uitvoering ervan te regisseren. En als u die kennis nog in huis moet halen? Besef dat de 10.000 uren regel voor het opbouwen van onbewust bekwaam datameesterschap een belangrijke beperking is om dit op een achtermiddag even te regelen.

Photo by Markus Winkler

————–  Translated with ChatGPT  ————–

Data Mastery

This blog was previously published at September 19 2017 (Datacentered & Dutch IT Channel)
Data is the fuel driving digital transformation. It is the new currency for the digital economy. At the heart of digital transformation lies your data platform. If the quality, consistency, availability, and access to your data are not guaranteed, the solution you build will not have the longevity you expect. If you cannot immediately convert your data into value transactions, you lose revenue and profit. In the digital economy, the rule is: “no data, no trade.”

Data is not just the content of delivery; it also records who did what with which data at what time. This usage data provides an experience that can improve both your content and the process. Therefore, building a solid central data management strategy is crucial. This raises the question of whether to keep the data on your local cloud platform or move it to a shared cloud platform. Cloud is the standard operations model, and both local and central have their advantages and disadvantages.

File, Object, and Stream Data

Will data remain available and movable, and will you retain sufficient control over it? With new liabilities for the possession and use of privacy data, this question is becoming increasingly relevant. What types of data should I organize? Three data formats are important: file data, as we have known it in the past; object data, as used on mobile and web platforms; and finally, stream data, coming from devices and sensors in the connected world of IoT.

Storage, protection, and compliance for all three types of data are vital to keeping your data platform in order. Data must also be easily convertible to be applied in any part of internal processes as well as external processes. These platforms are increasingly unstructured data collections with software-defined solutions on top, where the software provides the data regarding its type, format, and application.

Future-Proof

It is understandable that with the growth in both the amount and variety of data, these platforms are the ultimate future-proof solutions for digital processes. Additionally, there can be significant savings if data is no longer stored in duplicate and/or different formats, while also considerably improving data portability.

Before choosing your data storage platforms, your data organization for each application must be known. Both the portability and the variety of consumption models of your data must be clearly defined beforehand to offer the right services to the market.

Shelf Life

Data sometimes has an expiration date; after which its quality, validity, and application will no longer have value, other than as historical material (sometimes also important). On the other hand, data sometimes has no expiration date and is valuable for use in business intelligence and future artificial intelligence. These are two sides of the same coin; the same data can have different forms with different applications and compliance requirements.

Unconscious Competence

Mastery of data requires practice and patience. According to Malcolm Gladwell’s research, the 10,000-hour rule applies. It takes about 10,000 hours of study and application to become a master in a particular field. Data mastery is learned in practice and is a rare skill. Understanding the many different ways you can look at the same data is an art in itself. And this art is needed to comprehensively shape the data collection in your organization. Who needs the same data in a different format to perform their work? And what are the logical authorities of the creators, the ultimate owner, and sometimes even unknown users of the data?

Data or Algorithms?

Without data, there are no algorithms. The question is: what is more important, lots of good data or lots of good algorithms? In our era of cloud computing, it is no problem to make thousands of CPUs available for a Big Data analysis. Thus, computing power itself is no longer a distinguishing factor. Companies like Tesla argue that data provides more competitive advantage than smart algorithms. Their stance: the company with the most data will eventually win, provided that data is well-organized and available.

Any company could wake up tomorrow and realize that it has become a software and analytics company if it executes digital transformation well. Just like what happened to General Electric. Not that the company suddenly sold software, but data and software became one of the company’s most important ingredients. It took CEO Jeff Immelt more than five years and many billions of dollars to achieve this.

Stored Energy

Business intelligence only gets better if it can mature. If you take the time to understand trends and their consequences, and then condense that time into smart algorithms applied to the right data, you can save a lot of time. In fact, algorithms are condensed time, similar to fossil fuels created from millions of years of stored biological energy. For algorithms, previously structured stored data is comparable to stored solar energy in fossil fuels. A company like Walmart has centralized over 40 PB of data from their 20,000 stores in 28 countries. Walmart understands that data makes the difference. Data strengthens the current innovation phase towards the digital economy, making predictive services possible, making machines smarter, and deploying systems intelligently.

Data Mastery

This presents challenges in organizing your company’s data to create a robust platform that is scalable, elastic, and compliant enough for the coming decades. Additionally, you must decide which data to keep and which to discard. How will we store it, manage it, and protect it?

But the most important question is: who will design this new data platform? Who has enough business and process knowledge and experience to determine, design, and oversee the necessary data views, metadata, compliance, and governance for this platform? And if you still need to acquire this knowledge in-house, remember that the 10,000-hour rule for building unconscious competence in data mastery is a significant limitation for arranging this in an afternoon.