Waarom is een data scientist nodig?

Volgens Wil van der Aalst, hoogleraar Information Systems aan de Technische Universiteit Eindhoven, produceren we tegenwoordig iedere tien minuten net zoveel data als in de gehele periode van de prehistorie tot aan 2003. Het verzamelen van data gaat door nieuwe technologieën behoorlijk eenvoudig, maar het wordt voor bedrijven steeds lastiger om in deze verzamelde data waardevolle informatie te vinden.

Om de toenemende hoeveelheid data werkelijk te benutten, is een goede en slimme analyse van de data nodig. Het uitvoeren van zo’n analyse is een vak apart en vraagt om expertise. Een data scientist biedt hier uitkomst. Maar waarom zou ieder bedrijf een data scientist moeten aanstellen?

Interessante inzichten

Data science is de kunst, of eigenlijk de wetenschap, om uit de grote bulk aan data juist díé informatie te halen die voor de bedrijfsvoering relevant is. Deze informatie combineer je vervolgens met data afkomstig uit diverse externe bronnen, zoals gegevens over het weer of demografie, om tot interessante inzichten te komen.

Door de enorme omvang van datasets is het lastig om het overzicht te bewaren. De grootste kracht van een data scientist is misschien wel dat hij of zij zich niet laat misleiden door data die er niet toe doen en dat hij niets over het hoofd ziet. Ze hebben kennis van de business, van statistiek en ze hebben ook programmeerervaring. Met deze eigenschappen en met behulp van geavanceerde analysetechnieken, kan een data scientist inzichtelijke en zeer nuttige analyses en modellen maken. Deze analyses helpen bedrijven om bijvoorbeeld efficiënter te werken en klanten beter te bedienen.

Valkuilen

De steeds groter wordende hoeveelheden data die bedrijven verzamelen bieden dus legio mogelijkheden, maar ook minstens zoveel valkuilen. ‘Door de bomen het bos niet meer zien’ is een spreekwoord dat één van die valkuilen omschrijft.

Het gevaar bij data science is dat er verbanden worden gezien die er in werkelijkheid helemaal niet zijn. Of het combineren van gegevens en aantonen van relaties zonder dat het verband zinnig is. Denk bijvoorbeeld aan de correlatie tussen regen en het gebruik van een paraplu. Hoewel er wel degelijk een relatie is, is het niet zo dat het gaat regenen zodra men een paraplu gebruikt. Dat verband ligt natuurlijk andersom. Een data scientist vraagt zich steeds af welke gegevens hij of zij combineert en zorgt ervoor dat de correlaties die worden aangetoond juist zijn.

Kwaliteit van de data zorgt vaak voor een andere valkuil. Vooral wanneer je data van internet gebruikt, geldt dat de kwaliteit vaak een punt van kritiek is. Het is belangrijk dat je zelf altijd nagaat wat de kwaliteit van de bron is, voordat je deze gaat gebruiken in een analyse. Verder moet je altijd de bron vermelden wanneer je verkregen informatie met anderen deelt.

Daarnaast moet de informatievoorziening compleet zijn. Het gebeurt nog vaak dat er bij analyses van data gegevens missen. Een goed voorbeeld hiervan zijn analyses op basis van sociale media. Onlangs concludeerden wetenschappers Derek Ruths (McGill University) en Jurgen Pfeffer (Carnegie Mellon-universiteit) dat onderzoeken waarbij grote hoeveelheden data afkomstig uit social media worden gebruikt, onjuiste conclusies opleveren. Dat komt omdat gebruikers van social media geen afspiegeling zijn van de bevolking. Echter, essentiële correcties zoals demografische verschillen tussen de populaties actief op social media, worden zelden gemaakt tijdens de analyses.

Dit geeft dus een vertekend beeld. Een data scientist is erop gebrand om de essentiële correcties, zoals hierboven beschreven, wel te maken tijdens de analyse zodat de uitkomsten kloppen en zinvol zijn.

Meer dan een tool

Het gevaar om fouten te maken ligt bij data science dus continu op de loer. Nu de datasets groter worden en de vraagstukken van organisaties complexer, is het lastiger om juiste conclusies te trekken en wordt het risico op onjuiste analyses groter. Bedrijven kunnen er dus niet langer omheen om een data scientist aan te stellen. Het is namelijk niet alleen de tool of de technologie, maar de kunde van een data scientist die voor de meest relevante en optimale analyses zorgt. Analyses die het bedrijf nodig heeft voor het bepalen, uitvoeren en eventueel bijstellen van bedrijfsprocessen en de strategie. Concurrentievoordeel blijft zo binnen handbereik, én binnen de eigen datasets.

Deze blog is geschreven door Hans Geurtsen, Business Intelligence Architect bij Info Support.

Read more: http://www.computable.nl/artikel/opinie/business_intelligence/5206839/1277145/waarom-is-een-data-scientist-nodig.html#ixzz3MEhKuQO3