Om juiste en tijdige beslissingen te kunnen nemen is het van groot belang dat een bedrijf toegang heeft tot gegevens om die beslissingen op te baseren. Dit betekent aan de ene kant iets voor de gegevens zelf en aan de andere kant iets voor de beschikbaarheid van die gegevens.
Waarom datavirtualisatie adopteren?
Er zijn verschillende redenen waarom een bedrijf of organisatie overgaat tot datavirtualisatie. In dit artikel volgt een aantal belangrijke redenen, die samen de kern van een datastrategie kunnen vormen. Het gaat mij daarbij niet om de technische oplossing, alleen de vraagstukken vanuit de business waarop datavirtualisatie een antwoord kan geven.
De hoeveelheid beschikbare data wordt te groot
Analisten en bedrijven die hun brood verdienen aan data roepen al jaren hoe hard de hoeveelheid opgeslagen en uitgewisselde data groeit. Volgens EMC, een wereldwijde speler op het gebied van data, verdubbelt de hoeveelheid data die in omloop is iedere twee jaar. In 2020 bereiken we een totaal van 44 zetabytes. Andere bedrijven en organisaties die zich met data bezig houden onderschrijven dit beeld. Marktonderzoeksbureau IDC houdt het op 40 zetabytes, Cisco noteert bijvoorbeeld dat eind 2015 iedere maand 3.7 exabyte aan mobiele data werd verstuurd, terwijl dit in 2000 nog 10 gigabyte was. IBM geeft tenslotte aan dat er per dag 2.5 exabyte wordt aangemaakt en dat 90% van de nu beschikbare data in de laatste twee jaar gegenereerd is.
Niet alle data die dagelijks aangemaakt of uitgewisseld wordt, is ook daadwerkelijk ergens opgeslagen. Veel data bestaat bijvoorbeeld uit zogenaamde streams zoals van Netflix, per dag 1.3 petabyte. Dit betekent heel grofweg dat ongeveer 1% van alle data die dagelijks uitgewisseld wordt uit Netflix streams bestaat.
Maar hoe vertaalt zich dit nu naar de dataopbouw binnen het bedrijfsleven? Volgens McKinsey heeft een Amerikaans bedrijf met ongeveer 1.000 medewerkers gemiddeld 200 terabyte aan data in opslag. Volgens Software AG groeit bedrijfsdata met 40% per jaar.
Het is lastig om de benodigde data beschikbaar te hebben
Eén terabyte aan data staat gelijk aan ongeveer 70 miljoen pagina’s tekst in een Word document, of 300.000 afbeeldingen. Het indexeren en doorzoeken van een dergelijke hoeveelheid data is zonder (zeer) gespecialiseerde software niet mogelijk. En dat is dan nog data uit één enkele bron.
Het aan elkaar koppelen van verschillende databronnen is behalve technisch uitdagend ook op allerlei andere gebieden lastig en roept vragen op over bijvoorbeeld privacy, security, eigendomsrechten en betrouwbaarheid.
Het principe om verschillende databronnen batchgewijs geconsolideerd aan te bieden in bijvoorbeeld een datawarehouse of andere vorm van business intelligence omgeving is nauwelijks meer toepasbaar op de hoeveelheden data die nu beschikbaar zijn in een bedrijfsomgeving. De roep om realtime inzicht groeit en dat vraagt om een andere aanpak dan batchgewijs werken.
Het doorzoeken van grote hoeveelheden gegevens is een specialisme
Er zijn diverse gespecialiseerde bedrijven die oplossingen bieden voor het doorzoeken van grote hoeveelheden gegevens. Deze oplossingen zijn in staat onderliggende databronnen te doorzoeken, maar rekenen vaak af per geïndexeerd object. De businesscase voor een dergelijke oplossing is ten opzichte van grote hoeveelheden data moeilijk te maken.
De afgelopen jaren zijn gespecialiseerde zoeksystemen sterk in opkomst. De onderliggende technologie is vaak gebaseerd op Apache Lucene en Solr. Implementatie van een dergelijke technologie vraagt echter vaak een wijziging (en daarmee investering) binnen een al bestaande stack.
Het is kostbaar om de juiste data beschikbaar te hebben
In 2013 berekende Newstex dat het per medewerker $14.252 kost om de juiste data te vinden. Software AG berekende dat verkeerd omgaan met data tot wel 25% van de omzet van een bedrijf kan kosten, terwijl Ovum research aangeeft dat de kosten tot 30% kunnen oplopen.
De prijs van opslag van data is sterk afhankelijk van waar de data opgeslagen wordt, en hoe lang. Operationele data in de cloud van Google kost voor 100 terabyte $2.600 per maand. Amazon is iets duurder, Microsoft iets goedkoper. Het gaat dan wel om operationele opslag – data die gearchiveerd wordt (wel beschikbaar maar minder snel) kost hier een fractie van.
Buiten de cloud kunnen opslagkosten snel oplopen. Aangenomen wordt een paar euro per gigabyte per jaar, waardoor on premise opslag bijna het tienvoudige van vergelijkbare storage in de cloud kost. Ook dit geldt voor operationele opslag op schijven – opslag voor archiveringsdoeleinden zoals op tape is fors goedkoper.
Data is sterk gefragmenteerd en wijdverspreid
Data is wijdverspreid aanwezig in de organisatie, binnen verschillende afdelingen in verschillende formaten, afkomstig uit verschillende bronnen, in verschillende versies. In overheidsorganisaties speelt hierbij nog vaak een discussie over waar data ontstaat, opgeslagen en gearchiveerd wordt – dit kan in meerdere systemen tegelijk zijn. Daarnaast is de hoeveelheid data die van externe bronnen en organisaties betrokken wordt steeds groter.
Eén van de redenen dat data wijdverspreid aanwezig is, is dat er kopieën worden gemaakt – organisatieonderdelen mogen vaak slechts gedeelten van de data inzien. Hierdoor gaan beheerkosten drastisch omhoog en de kwaliteit van de data zelf uiteindelijk omlaag, wat weer leidt tot verschillende teams die de datakwaliteit moeten verbeteren. Noem het een datakopieerinfarct. Voorkom het heen-en-weer geschuif van en met data!
Toenemende gegevensuitwisseling
Bedrijven werken steeds meer en intensiever samen. Daarbij wordt ook steeds meer data uit een toenemend aantal bronnen gebruikt. Het houden van overzicht is lastig en beheer wordt steeds complexer. Prangende vragen hierbij zijn bijvoorbeeld: Van wie is deze data? Welke data hoort waarbij? Wie mag wijzigingen doorvoeren? Wie mag deze data eigenlijk zien? Een datastrategie geeft richtlijnen, kaders en antwoorden op al deze vragen.