Deze opinie is van een externe deskundige. De inhoud vertegenwoordigt dus niet noodzakelijk het gedachtegoed van de redactie.

Pas op voor homeopathische data analytics

Computable Expert

Wouter van den Berg
Business consultant. Expert van Computable voor de topics Management, Beheer en Maatschappij.

Voorspellende modellen worden steeds vaker gebruikt. Bijvoorbeeld om te bepalen of iemand dreigt in betalingsachterstand te komen of dat zijn vergunningsaanvraag wat meer aandacht verdient dan gemiddeld. Vaak zijn de onderliggende modellen keurig statistisch gevalideerd. Dat lijkt een hele vooruitgang ten opzichte van het onderbuik gevoel van de gebruiker. Maar kan de computer zijn onderbuikgevoel beter onderbouwen dan een mens?

Als student aan een bèta faculteit werd ons het vak statistiek bespaard. We zouden immers toch niet gaan experimenteren op ratjes en statistiek is ook maar wiskunde. En zo komt het dat ik vandaag de dag nog regelmatig Wikipedia erop na sla hoe het ook al weer zat met kansverdelingen of Anova (analysis of variance).

Voorspellende modellen

Overtuigd van het feit dat de hele wereld de stof over data voorspellende modellen beter beheerst dan ik, stond ik dus even met mijn mond vol tanden toen ik de vraag kreeg: 'Ja, mooi dat voorspellende model, maar hoe weet je waarom hij een persoon in die categorie stopt?'. Nota bene was het een toezichthouder die de vraag stelde. Je zou denken dat die het juist toejuicht dat nattevingerwerk vervangen wordt met modellen die onderbouwd zijn met keiharde data. Probeer maar eens een medicijn op de markt te brengen zonder statistisch gevalideerd onderzoek!

Toch slaat de vraag van de toezichthouder de spijker op de kop. Voorspellende modellen - of het nu gaat om lineaire regressie, support vector machines of neurale netwerken – vinden verbanden. En die verbanden zijn niet altijd oorzakelijk. Hoe ga je dan uitleggen dat je iemand onder een vergrootglas legt, op basis van een score uit dat model?

Risico’s bepalen aan de hand van data

In 2010 heeft de overheid in de VS onderzocht of creditcard maatschappijen het koopgedrag van hun klanten gebruiken om bijvoorbeeld kredietruimte te beperken of om rentes te verhogen. Veel maatschappijen deden dat. Bijvoorbeeld wanneer een creditcardgebruiker een enthousiaste gokker blijkt te zijn. Maar soms ook omdat een model een hoge risicoscore aangaf op basis van aankopen uit het verleden. Een probleem daarbij is dat hier sprake kan zijn van discriminatie. Het model bepaalt niet op basis van huidskleur dat je een hoog risico loopt, maar kan (onterecht) tot de conclusie komen dat er een hoger risico kleeft aan álle mensen die inkopen doen bij een bepaalde winkel of in een bepaalde wijk.

Mensen die viltjes kopen om onder tafelpoten te plakken vormen een lager risico, maar is dat omdat ze zuiniger zijn op hun spullen? Het model verklaart het niet. En wat te denken van het sterke verband (94,7 cprocent correlatie) tussen de consumptie van kaas (per hoofd van de bevolking) in de VS en het aantal Amerikanen dat overlijdt doordat ze verstrikt raken in beddengoed?

Voorzichtig omgaan met scores

Kenniswerkers die metertjes en stoplichten op hun dashboard zien, moeten dus verdraaid goed het verschil begrijpen tussen correlatie en oorzakelijk verband. Dashboards moeten dat verschil ook duidelijk aangeven. Sommige stoplichten zijn gebaseerd op harde feiten en logische verbanden. Als er slechts sprake is van correlatie moet je extra voorzichtig zijn om te acteren op een ‘slechte’ score. Mensen verdienen het niet om in een hokje gestopt te worden op basis van statistische verbanden, in een kleine steekproef met indirecte verbanden, die gevonden wordt in data van bedenkelijke actualiteit en kwaliteit. Lees voor gebruik de bijsluiter.

x

Om te kunnen beoordelen moet u ingelogd zijn:

Dit artikel delen:

Stuur dit artikel door

Uw naam ontbreekt
Uw e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
article 2016-01-22T13:07:00.000Z Wouter van den Berg


Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.