In de krant lees ik dat data gedreven een misdaad
oplossen in Frankrijk geen betere resultaten oplevert dan klassiek recherche
werk. Maar .... heeft justitie dan ooit anders dan data-gedreven gewerkt? Het
is niet te hopen. Laten we ons proberen iets voor te stellen bij niet
data-gedreven werken. Sprookjes? In de middeleeuwen werden soms vrouwen met
rood haar in verband gebracht met tegenspoed (ziekte, mislukte oogsten, etc.)
en belandden ze soms als heksen in het gevang (of erger). Maar zelfs dit is op
data gebaseerd, de empirische waarneming rood haar. Dus een data gedreven
praktijk.... Men is ook weer met heksenvervolging gestopt toen de verwachte
resultaten uitbleven. Opnieuw: datagedreven. In het artikeltje wordt duidelijk
dat men doelt op de inzet van datamining en machine-leren. Nu blijkt dat in
Frankrijk, waar de politie al geruime tijd met datamining algoritmes werkt, het
aantal opgeloste misdrijven ten opzichte van ouderwets recherche werk niet is
veranderd. Maar dat zegt toch niet dat datamining geen toekomst heeft!
Datamining is per definitie altijd data gedreven, op
data gebaseerd. Een slechte database geeft dan ook onduidelijke en daarmee
onherkenbare/onwerkbare patronen of resultaten. Met andere woorden, in laatste
instantie is het altijd het verhaal, of argument dat bijvoorbeeld
een door machine leren ontdekt patroon verbindt met de toename van inzicht. Dat
inzicht kan dan leiden tot het oplossen van een probleem, bijvoorbeeld het
vangen van een boef. En verhalen/argumenten worden gevoed met data. In
datamining spreekt de data als het ware terug, door (sub)patronen manifest te
maken, die op het blote oog (lees: met het geschoolde kenmechanisme, binnen het
gangbare verhaal) nog niet zichtbaar waren. Deze patronen moeten vervolgens in
een bijgestelde versie van het argument weer een plaats
krijgen. Ter illustratie een paar voorbeelden.
Uit data van het pingedrag (uur van de dag, ligging
van de automaten en kennis van pinnen op andere dagen) kan soms feilloos een
dipje in het pinnen bij een drukke automaat in verband worden gebracht met een
vertraagde trein, of een regenbui. Of het veranderde zoekgebracht van een jonge
vrouw kan in verband gebracht worden met een nog niet ontdekte zwangerschap, of
het zoekgedrag op Google met een zich verspreidende griepepidemie.. In een
onderzoek van Tandera et al. (2017) bleken de onderzoekers met machine
leeralgoritmes op grond van de gebruikersprofielen en data van Facebook in
staat met een gemiddelde accuraatheid van 74.17% de persoonlijkheid kunnen
voorspellen binnen het big 5 persoonlijkheid model (verhaal/argument). In een
volgende blog kom ik op dit onderzoek terug.
In datamining wordt juist zo mooi de beperkte
reikwijdte van evidence based practice zichtbaar; het geeft in patronen en
subpatronen die het genereert een noodzaak om een argument (verhaal) te maken,
waarmee oorzakelijkheid (causatie) en samenhang (correlatie) van elkaar kunnen
worden onderscheiden. Een behandeling waar 70% van de patiënten (of leerlingen)
beter van wordt (of iets van opsteekt) is evidence based, maar een datamining
algoritme zal ook een subgroep ontdekken die geen baat bij de behandeling heeft
(bv 20 %) en een sub patroon met een groep die van de behandeling (of
didactiek) juist slechter wordt (10%). Door deze gegevens in een (tentatief)
argument te plaatsen, zal blijken dat er andere data nodig is, bijvoorbeeld of
de ziekte al een keer eerder is behandeld (geen effect), of zelfs vaak
(negatief effect).
Geloof in data op zich (dus zonder argument) is
van dezelfde orde als het geloof in de koppeling tussen haarkleur en
tegenspoed, of tussen zwarte katten en ongeluk. Wellicht is het dan zelfs
verontrustend dat met "bijgeloof" even veel misdaden worden opgelost
in Frankrijk als met traditioneel recherchewerk. Maar laten we aannemen dat bij
de Franse politie de experts op het gebied van datamining bekwaam zijn en
daarom de datamining op argumentatiegestuurde wijze hebben uitgevoerd. In de
discussies rond de mogelijkheden van machine leren en datamining wordt vaák de
beïnvloeding met data registratiesystemen (camera's met gezichtsherkenning,
bijvoorbeeld) verward met de (zuivere) data-analyse. De meting als interventie
kan zeer effectief zijn. Op die gedachte zijn natuurlijk ook sociale
puntensystemen (Facebook likes, beoordelingen, etc) gebaseerd. Het betreft gedragsbeinvloeding.
Iedere oplossing, of het nu een behandeling, een
didactiek of een misdadiger voor het gerecht krijgen betreft, is altijd
gebaseerd twee zaken: 1. data en 2. een "verhaal", dat als kader of
argument dient. Binnen de context van zo'n verhaal kan data worden
getransformeerd tot informatie, informatie tot kennis (het
telkens bijgestelde verhaal: theorie) en kennis, tenslotte, tot wijsheid,
een overstijgende "algemeenheid of waarheid" (paradigma). Zonder
kader geen data en zonder data geen verhaal (zelfs een sprookje moet om mee
geleefd te kunnen worden aansluiten bij talloze "feitelijkheden").
Het is wellicht tijd dat we beseffen dat alleen kijken naar de feiten
onmogelijk is, we doen dat altijd vanuit een verhaal dat data transformeert tot
"feiten". Bij evidence based practice is het verhaal - de kennis -
(tijdelijk) door de feiten bewezen. Het accent ligt op de feiten. Het is
hierom, dat we meer aandacht mogen hebben voor het verhaal en gaan van een
zuiver (dus onmogelijk) practice based practice naar een argument based
practice!
Geen opmerkingen:
Een reactie posten