Ik ben nu drie maanden aan het werk als Senior Data Scientist bij Valid. Sinds mijn aantreden merk ik dat ik op veel plaatsen vaak moet uitleggen ‘wat is dat Data Science nou eigenlijk precies’?
Vaak begint men dan over de grootse verwachtingen met betrekking tot kunstmatige intelligentie en big data – dat lost al je problemen op toch? Maar ik hoef je waarschijnlijk niet uit te leggen dat wij data scientists geen magische knop hebben die alle problemen oplost. Maar wat doen wij dan wel? En wat kan er met Data Science precies? Daarom dit tweedelig blog over Data Science, bedoeld voor niet-Data-Scientists.In dit eerste deel wil ik het graag hebben over de Data Science zaken die we eigenlijk al vele jaren doen. Data Science is zeker geen ‘oude wijn in nieuwe zakken’, maar belangrijke elementen uit ons vak bestaan wel al jaren. Veel van onze technieken werkten tientallen jaren geleden al en werden gebruikt om bedrijfsprocessen cijfermatig te analyseren en te optimaliseren. Onder de noemer ‘data science’ werken deze technieken vandaag de dag natuurlijk nog steeds.
In dit blog bespreek ik dit beproefde deel van ons vak en geef ik concrete voorbeelden, zodat het allemaal wat minder abstract wordt. Wat er wel heel nieuw is aan ons vak lees je in het tweede deel van deze blogreeks. In dat deel komt onder andere de link tussen data science, kunstmatige intelligentie en big data aan bod.
Het cijfermatig analyseren van bedrijfsprocessen met als doel deze bedrijfsprocessen te verbeteren: dit wordt in de management sciences vaak analytics genoemd. Analytics, of business analytics, of soms wat extra opgeklopt tot advanced analytics: het betekent in essentie allemaal hetzelfde. Het verbeterdoel hangt af van de context. Denk aan het verhogen van efficiëntie, het verhogen van kwaliteit of het verkleinen van risico’s. Dit analyseren kan natuurlijk op veel manieren, maar bij analytics gaat het over kwantitatieve, cijfermatige analyses, vaak op basis van statistiek en algoritmen.
Eigenlijk slaat dit de spijker op de kop als het gaat om wat een Data Scientist doet: wij hebben diepgaande kennis van deze kwantitatieve methoden, statistiek en algoritmen en kunnen daarmee, op basis van cijfermatige analyses en onderbouwing, business-vraagstukken helpen oplossen. Hiervoor hebben we wel cijfertjes over het huidige proces nodig: de data. En omdat ieder bedrijfsproces vaak toch net anders is, heeft een goede data scientist nog een belangrijke vaardigheid. Namelijk, hij of zij is communicatief vaardig en kan in samenwerkingsverband zo de juiste link leggen tussen de bedrijfsprocessen, de data en de data science methoden. Ik geloof sterk in deze combinatie, maar helaas is dit geen gemeen goed voor iemand met de job-title data scientist. En dat terwijl je voor een succesvolle data science oplossing toch echt diepgaande kennis van zowel ons vak als het te verbeteren bedrijfsproces zelf nodig hebt.
Binnen analytics worden vaak drie of vier deelrichtingen omschreven, die terugkomen in onderstaande diagram. Deze deelrichtingen onderscheiden elkaar door het type toepassing en door hoe diep de cijfermatige analyse ingrijpt in de beslissingen die in een bedrijf gemaakt worden. Om concrete voorbeelden te geven is het voor mij dan ook handig eerst dit onderscheid te maken. Voor alle onderstaande voorbeelden geldt dat de benodigde data science technieken al vele tientallen jaren oud zijn. Dit wil (meestal) zeggen dat als de hoeveelheid data die gebruikt wordt beperkt blijft tot enkele excel sheetjes en daarnaast vooral uit cijfertjes bestaat, we dit dus al jaren kunnen. Met andere woorden, hier is niets fancies, nieuws of erg risicovol aan.
Descriptive analytics gaat over de vraag wat er in het verleden gebeurd is. Data science in deze hoek gaat meestal over het statistisch beschrijven van je data, om hierin patronen te vinden. Deze patronen geven vervolgens (soms verborgen) inzichten in de onderliggende bedrijfsprocessen zelf.
Enkele concrete voorbeelden zijn:
Naast de data science kant van descriptive analytics kunnen Business Intelligence dashboards ook als onderdeel van descriptive analytics gezien worden.
Waar descriptive analytics gaat over het “wat”, gaat diagnostic analytics over het “waarom”. Je gebruikt statistiek om uit te zoeken waarom iets gebeurd is. Deze vorm van analytics wordt ook wel eens achterwege gelaten in overzichten omdat deze veel overeenkomsten heeft met descriptive analytics: je zoekt een statistisch patroon in je data, nu alleen met als doel een diagnose te stellen. Toch zijn er wel subtiele verschillen.
Het fabriekshal-voorbeeld bij descriptive analytics (voorbeeld 2) zou in een diagnostic analytics setting al snel worden: kan ik verklaren waarom er een op bepaald moment meer foutieve producten geproduceerd zijn ten opzichte van de rest van de week? En het doorlooptijd voorbeeld (voorbeeld 3) zou al snel geformuleerd worden als: waarom duurt een bepaald complex business proces voor juist voor deze type klant zo lang? Deze aangepaste vraagstellingen gebruiken vaak soortgelijke statistische technieken, maar vergt wel een net iets andere werkwijze.
Bij predictive analytics gebruik je statistiek om op basis van data iets in de toekomst te voorspellen. Dat en meer, want als je op basis van data een bepaald label ergens op moet duwen (bijvoorbeeld een goed product of een productiefout), het zogenaamde classificeren, dan valt dit ook onder predictive analytics. Je voorspelt dan niet de toekomst, maar een onbekend label. Wiskundig komt dit vaak op bijna hetzelfde neer.
Concrete voorbeelden van predictive analytics zijn:
Ten slotte de laatste categorie: prescriptive analytics. In deze laatste categorie gebruiken we algoritmen om de beste beslissingen te vinden uit alle mogelijke opties die er zijn. “Beste” kan hier goedkoopste, minst risicovolle, of kwalitatief beste zijn, dat maakt niet uit. Als alle informatie op tafel ligt (of voorspeld is met behulp van predictive analytics), dan zijn er vaak één of meerdere beslissingen duidelijk beter dan anderen. Prescriptive analytics gaat over het geautomatiseerd vinden van deze beste oplossing, optie of keuze.
Beslissingen nemen is mensen werk. Daarom werken de beste prescriptive analytics oplossingen ook als beslissingsondersteunend systeem (decision support): het systeem genereert voorstellen, de mens past deze nog net iets aan om ook met zaken rekening te houden die niet in het algoritme opgenomen zijn. Echter zijn er toepassingen, bijvoorbeeld in de robotisering, waar beslissingen ook volledig automatisch genomen worden: dan spreekt men over decision automation.
Enkele concrete voorbeelden van toepassingen van presciptive analytics zijn:
Over prescriptive analytics wil ik graag opmerken dat in moderne data science opleidingen hier bijna geen aandacht meer voor is. De nadruk ligt steeds meer op statistiek en voorspellen, terwijl juist in de prescriptive analytics veel interessante toepassingen in de praktijk te vinden zijn, die erg veel geld kunnen besparen. Deze nadruk van Data Science op de eerdere drie analytics categorieën vind ik erg jammer. Prescripive analytics ligt namelijk erg dicht bij mijn originele achtergrond als algoritmicus, voordat ik me ging toeleggen op de bredere Data Science.
Data science toepassingen passen vrijwel altijd in één van de vier analytics categorieën. De hierboven genoemde voorbeelden zijn klassieke voorbeelden gebaseerd op soms wel tientallen jaren oude methodieken. Maar ook voor data science toepassingen die juist wel modernere technieken gebruiken, bijvoorbeeld als er grote hoeveelheden data of plaatjes, tekst of geluid gebruikt worden, is het denken in bovenstaande vier categorieën nuttig. En ook als je moderne kunstmatige intelligentie of machine learning toepast, los je vrijwel altijd een ‘descriptive’, ‘diagnostic’, ‘predictive’ of ‘prescriptive’ vraagstuk op. Bovenstaand overzicht geeft dus een mooi framework om vanuit te denken voor het inventariseren van kansen voor Data Science.
Wat moderne Data Science toevoegt aan bovenstaand verhaal en wat de termen big data, machine learning en kunstmatige intelligentie hierin betekenen, dat lees je in het tweede deel van dit blog.
Heb je een concreet vraagstuk en een vermoeden dat Data Science een oplossing kan bieden? Ga eens na in welke analytics-categorie dit valt, misschien helpt het je. Of laat het me weten in de comments, ik denk graag mee!