Een gemiddelde dag in het leven van een Data Scientist

Wat is Data science?

Is het een functieomschrijving of meer een proces?

Er zijn vandaag de dag genoeg definities die uitleggen wat data science is. Sommigen zullen zeggen dat data science gaat over het extraheren van informatie uit data, anderen zeggen dat het om het bouwen van data-gedreven modellen gaat, om problemen op te lossen, patronen te ontdekken of voorspellingen te doen.
Data science is een kruising van drie gebieden; computerwetenschappen, statistiek en sectorkennis.

Alle definities die hierboven staan kloppen, maar voor mij is data science simpelweg een manier om mensen de kans te geven beter te leren aan de hand van data. Om betere keuzes te maken en meer inzicht te krijgen.

Maar laten we er wat dieper op in gaan, om te begrijpen wat data science is en hoe een typische dag in het leven van een data scientist er uit ziet. Wat is het verschil tussen data-analyse en data science?

Data science is zeker weten een aanvulling op data analyse, maar dan met een meer wetenschappelijke behandeling van data. Een data-analist en een data scientist verschillen ook als het gaat om welke rol ze spelen binnen organisaties. Waar analisten veelal betrokken zijn bij het migreren van data, het visualiseren van data en zich hierbij richten op het verleden, daar spelen data scientists vaak een rol in het manipuleren van data, het moduleren van data en zoeken ze naar manieren waarop “de toekomst” beter te voorspellen is.

Hoe ziet een typisch dag van een data scientist er uit?

We zijn net mensen, dus we beginnen de dag graag met een kop koffie… Maar daarna begint het echte werk; bijvoorbeeld door je bezig te houden met statistiek en wiskundige berekeningen moduleren in R. We gaan op zoek naar correlaties tussen variabelen, om te begrijpen wat de data die we voor ons hebben te vertellen heeft. Maar soms is het ook niet veel spannender dan op zoek gaan naar vrij eenvoudige, basisstatistieken met betrekking tot de data. Ook spenderen we veel tijd aan data mining en het opschonen van data, een belangrijke activiteit.

Als de data gekneed en gesmeed is, moet het natuurlijk gepresenteerd worden. Story telling en sterke visualisaties zijn hierbij van groot belang, en spelen in het takenpakket van een data scientist een minstens zo belangrijke rol als datapreparatie. Maar een data scientist kan pas echt waarde toevoegen, als hij of zij ook weet (en kan uitleggen) wát de data die hij tot z’n beschikking heeft betekent voor een branche of een organisatie. Het “domeinonderzoek” is dan ook essentieel. Dus gaan we op zoek naar de juiste mensen om vragen te stellen, om onderzoek te doen, om er voor te zorgen dat we begrijpen wat de data die we in onze handen hebben betekent en wat we er van kunnen leren.

Om het een en ander samen te vatten, komt het kortgezegd hier op neer;

Statistiek en wiskundige berekeningen moduleren. Hiervoor maak ik gebruik van bijvoorbeeld SPSS, R en Python
Data mining met behulp van SQL, NoSQL, Hadoop/Hive
Domeinonderzoek, het leggen van verbanden, vragen stellen, de juiste mensen betrekken;
Story telling, het interpreteren van data, het uitleggen van de mogelijkheden, ondersteund door krachtige visualisaties.

Het is een lang proces, en soms heeft het wel wat weg van monnikenwerk, maar iedere data scientist moet in staat zijn om data te extraheren, data op te schonen, het te filteren, het te minen, de data te valideren en het te visualiseren.

Van SQL tot feature engineering

Ik kan niet met zekerheid zeggen dat er echt een typische dag is. Iedere dag is anders, het is een job met veel diversiteit. De ene dag bouw je maatwerk-queries in SQL om complexe business vragen te kunnen beantwoorden, de andere dag besteed je al je tijd aan het opvijzelen van de datakwaliteit en bouw je statistische modellen die – geautomatiseerd - beslissingen maken gebaseerd op data. Maar over het algemeen besteden we veel aandacht aan het opschonen van data, om de data te prepareren voor data-analyse.

Het heeft dus allemaal te maken met overweg kunnen met data. Het is wat we noemen “feature engineering”. We transformeren ruwe data op een dusdanige manier zodat we waarde kunnen leveren. En we moeten zeker zijn van onze zaak, de data moet dus te vertrouwen zijn. Misschien wel het belangrijkste aspect van data science, en een van de grootste uitdagingen! Je moet absoluut kunnen vertrouwen op je data, maar omdat je soms gebruikt maakt van externe databronnen, is het vaak een hele kluif om de data goed te doorgronden.

Ik ♥ Data

M’n conclusie is; er is geen typische dag in het leven van een data scientist. Vandaag is altijd anders dan morgen. En omdat iedere dag anders is, weet je nooit wat je in de toekomst tegen gaat komen. Hoewel je van een data scientist misschien verwacht mag worden dat ‘ie in staat is om morgen te voorspellen, toch…?

Vaak is het een misvatting, ik ben geen waarzegger. Het enige dat ik zeker weet, is dat je van data moet houden, om een goede data scientist te kunnen zijn.

Valid Blog