Minder typmieps en toch meer gegevens in het systeem. Een BIG DATA paradox.

 

Voorheen werd digitale data voornamelijk ingevoerd door datatypistes, die in grote kantoorgebouwen de hele dag niets anders deden dan met hun vingers behendig op toetsenborden te kloppen. Ze konden dit razendsnel, en vaak ook nog blind (waarbij niemand zich erom leek te bekommeren dat blind typen eigenlijk zinloos is, omdat je het dan ook niet kunt teruglezen…). Met de introductie van email, laptops en personal digital assistants (PDA’s) was er sprake van een verschuiving gaande, in die zin dat een grotere groep medewerkers data ging produceren. Inmiddels zijn het al lang niet meer alleen maar de secretaresses en typemieps die gegevens invoeren, maar de directeur handelt meestal zijn eigen email af en veel data-entry is met behulp van self-service applicaties en portalen verschoven naar de eigenaar van de gegevens. Een klant update bijvoorbeeld zelf zijn adresgegevens in het CRM systeem, een leverancier wijzigt zelf de status van inkooporders, etcetera.

Typist_1910

En nu de laatste jaren het gebruik van social media zo enorm in populariteit is toegenomen lijkt er helemaal geen houden meer te zijn aan de aanwas van data. Men zegt dat 90% van alle digitaal opgeslagen gegevens die bestaan, on de afgelopen twee jaar is geproduceerd. U kent de voorbeelden vast: op Youtube wordt per minuut meer videomateriaal ge-upload dan in een mensenleven valt te bekijken… Aan deze dataproductie doen wij allemaal mee; zij geschiedt echt niet meer door secretaresse-achtige types alleen.

En nu er ook nog eens steeds meer apparaten en sensoren zijn die direct in verbinding staan met het internet en zelfstandig gegevens produceren, is de data-aanwas helemaal niet meer te stuiten. Men spreekt dan ook terecht over BIG DATA. Hoewel: terecht? Misschien zouden we het wel over GIGA DATA moeten hebben..

Door de hierboven geschetste ontwikkelingen zijn er wereldwijd steeds minder secretariële functies. Typemiep is een uitstervend beroep. En is het nu een echte of een schijntegenstrijdigheid, dat hoe minder de toetsenborden beroerd worden, hoe meer data er geproduceerd wordt?

Big Data Vraagt Om Big Sharing

We produceren en publiceren met elkaar immense hoeveelheden data. Dagelijks worden er meer minuten video geüpload naar YouTube dan een normaal mens in zijn leven kan bekijken. Dagelijks worden er via Twitter ruim 500 miljoen Tweets verzonden. Op Facebook en Instagram worden miljoenen levens bijna van minuut tot minuut verslagen, vaak ook nog met behulp van hoog-resolutie beeldmateriaal. Onze auto’s zijn voor een belangrijk deel computer gestuurd en alle rit- en verbruiksinformatie wordt netjes opgeslagen. Pakketjes die verstuurd worden zijn voorzien van chips en kunnen in elke fase van het bezorgtraject gevolgd worden. Al deze gegevens, die vanwege hun hoeveelheid en verscheidenheid ook wel wordt aangeduid met de term BIG DATA bevat schatten aan informatie, die – mits goed geïnterpreteerd – een serieuze bijdrage kan leveren aan het optimaliseren van processen, het tijdig onderkennen van risico’s en misschien zelfs ook wel in het doen van adequate voorspellingen.

Google heeft een aantal jaren geleden reeds bewezen beter in staat te zijn om de verspreiding van een griepepidemie te voorspellen dan de World Health Organization. Google combineerde hiervoor onder meer de topografische herkomst van mensen die op woorden als ‘keelpijn’ en ‘koorts’ zochten met verkoopcijfers van citrusvruchten in diezelfde regio. En recent heeft Microsoft de knock-out ronde van het wereldkampioenschap voetbal foutloos (!) weten te voorspellen, door historische wedstrijduitslagen van de diverse teams te combineren met gegevens uit weersvoorspellingen, de aard en de kwaliteit van de grasmat in het stadion waar de wedstrijd gespeeld zou worden, de afstand van de thuisstad van de teams tot Brazil, de hoeveelheid meereizende fans, etc.
Bovenstaande voorbeelden geven de relevantie van het uitvoeren van Big Data analyses aan. De voorspellingen die op basis van dergelijke analyses gedaan worden kunnen – zeker wanneer er zelflerende algoritmes bij gebruikt worden – zelfs zo goed kloppen, dat het heel reëel is om e overwegen veel processen en beslissingen aan te laten sturen door Big Data analyse uitkomsten, in real time. We spreken dan over Data Driven Decision Making. De verkeersregeling in veel grote steden, het aansturen van hartbewakingsmachines in ziekenhuizen, het uitvoeren van risico-analyses bij financiële transacties: het zijn allemaal gebieden waar Big Data analyses nu al dagelijks in de praktijk voor worden ingezet.

De techniek om deze analyses op gigantische hoeveelheden gegevens, die veelal niet in een gestructureerd formaat opgeslagen zijn, uit te voeren is reeds vergevorderd. Er zijn mogelijkheden om de data in grote clusters ‘in de cloud’ op te slaan, en de benodigde rekencapaciteit hoeft niet meer per se van supercomputers met mega-processoren te komen, maar kan ook door slimme aaneenschakeling van vele lichtere computers in peer-to-peer netwerken worden geregeld.
En nu de techniek beschikbaar is (en alleen nog maar tot meer in staat zal blijken in de komende jaren) is het voor organisaties vooral van belang erover na te denken hoe zij al deze mogelijkheden willen toepassen. Een eerste belangrijke stap daarbij is het kijken naar wat andere, vergelijkbare organisaties al met Big Data Analyse doen. Wat hebben zij geanalyseerd, welke algoritmes gebruikten zij daarbij en welke databronnen? Alleen dan wanneer bedrijven en instellingen bereid zijn deze kennis met elkaar te delen kunnen de mogelijkheden die Big Data Analyse biedt optimaal benut worden. De benodigde data is bedrijfs-of instelling-overschrijdend; laat de kennis omtrent de toepassingen dat dan ook zijn.