Jan Willem de Graaf: Op naar een argument based practice!

In de krant lees ik dat data gedreven een misdaad oplossen in Frankrijk geen betere resultaten oplevert dan klassiek recherche werk. Maar .... heeft justitie dan ooit anders dan data-gedreven gewerkt? Het is niet te hopen. Laten we ons proberen iets voor te stellen bij niet data-gedreven werken. Sprookjes? In de middeleeuwen werden soms vrouwen met rood haar in verband gebracht met tegenspoed (ziekte, mislukte oogsten, etc.) en belandden ze soms als heksen in het gevang (of erger). Maar zelfs dit is op data gebaseerd, de empirische waarneming rood haar. Dus een data gedreven praktijk.... Men is ook weer met heksenvervolging gestopt toen de verwachte resultaten uitbleven. Opnieuw: datagedreven. In het artikeltje wordt duidelijk dat men doelt op de inzet van datamining en machine-leren. Nu blijkt dat in Frankrijk, waar de politie al geruime tijd met datamining algoritmes werkt, het aantal opgeloste misdrijven ten opzichte van ouderwets recherche werk niet is veranderd. Maar dat zegt toch niet dat datamining geen toekomst heeft!

Datamining is per definitie altijd data gedreven, op data gebaseerd. Een slechte database geeft dan ook onduidelijke en daarmee onherkenbare/onwerkbare patronen of resultaten. Met andere woorden, in laatste instantie is het altijd het verhaal, of argument dat bijvoorbeeld een door machine leren ontdekt patroon verbindt met de toename van inzicht. Dat inzicht kan dan leiden tot het oplossen van een probleem, bijvoorbeeld het vangen van een boef. En verhalen/argumenten worden gevoed met data. In datamining spreekt de data als het ware terug, door (sub)patronen manifest te maken, die op het blote oog (lees: met het geschoolde kenmechanisme, binnen het gangbare verhaal) nog niet zichtbaar waren. Deze patronen moeten vervolgens in een bijgestelde versie van het argument weer een plaats krijgen. Ter illustratie een paar voorbeelden.

Uit data van het pingedrag (uur van de dag, ligging van de automaten en kennis van pinnen op andere dagen) kan soms feilloos een dipje in het pinnen bij een drukke automaat in verband worden gebracht met een vertraagde trein, of een regenbui. Of het veranderde zoekgebracht van een jonge vrouw kan in verband gebracht worden met een nog niet ontdekte zwangerschap, of het zoekgedrag op Google met een zich verspreidende griepepidemie.. In een onderzoek van Tandera et al. (2017) bleken de onderzoekers met machine leeralgoritmes op grond van de gebruikersprofielen en data van Facebook in staat met een gemiddelde accuraatheid van 74.17% de persoonlijkheid kunnen voorspellen binnen het big 5 persoonlijkheid model (verhaal/argument). In een volgende blog kom ik op dit onderzoek terug.

In datamining wordt juist zo mooi de beperkte reikwijdte van evidence based practice zichtbaar; het geeft in patronen en subpatronen die het genereert een noodzaak om een argument (verhaal) te maken, waarmee oorzakelijkheid (causatie) en samenhang (correlatie) van elkaar kunnen worden onderscheiden. Een behandeling waar 70% van de patiënten (of leerlingen) beter van wordt (of iets van opsteekt) is evidence based, maar een datamining algoritme zal ook een subgroep ontdekken die geen baat bij de behandeling heeft (bv 20 %) en een sub patroon met een groep die van de behandeling (of didactiek) juist slechter wordt (10%). Door deze gegevens in een (tentatief) argument te plaatsen, zal blijken dat er andere data nodig is, bijvoorbeeld of de ziekte al een keer eerder is behandeld (geen effect), of zelfs vaak (negatief effect).

Geloof in data op zich (dus zonder argument) is van dezelfde orde als het geloof in de koppeling tussen haarkleur en tegenspoed, of tussen zwarte katten en ongeluk. Wellicht is het dan zelfs verontrustend dat met "bijgeloof" even veel misdaden worden opgelost in Frankrijk als met traditioneel recherchewerk. Maar laten we aannemen dat bij de Franse politie de experts op het gebied van datamining bekwaam zijn en daarom de datamining op argumentatiegestuurde wijze hebben uitgevoerd. In de discussies rond de mogelijkheden van machine leren en datamining wordt vaák de beïnvloeding met data registratiesystemen (camera's met gezichtsherkenning, bijvoorbeeld) verward met de (zuivere) data-analyse. De meting als interventie kan zeer effectief zijn. Op die gedachte zijn natuurlijk ook sociale puntensystemen (Facebook likes, beoordelingen, etc) gebaseerd. Het betreft gedragsbeinvloeding.

Iedere oplossing, of het nu een behandeling, een didactiek of een misdadiger voor het gerecht krijgen betreft, is altijd gebaseerd twee zaken: 1. data en 2. een "verhaal", dat als kader of argument dient. Binnen de context van zo'n verhaal kan data worden getransformeerd tot informatie, informatie tot kennis (het telkens bijgestelde verhaal: theorie) en kennis, tenslotte, tot wijsheid, een overstijgende "algemeenheid of waarheid" (paradigma). Zonder kader geen data en zonder data geen verhaal (zelfs een sprookje moet om mee geleefd te kunnen worden aansluiten bij talloze "feitelijkheden"). Het is wellicht tijd dat we beseffen dat alleen kijken naar de feiten onmogelijk is, we doen dat altijd vanuit een verhaal dat data transformeert tot "feiten". Bij evidence based practice is het verhaal - de kennis - (tijdelijk) door de feiten bewezen. Het accent ligt op de feiten. Het is hierom, dat we meer aandacht mogen hebben voor het verhaal en gaan van een zuiver (dus onmogelijk) practice based practice naar een argument based practice!

Jan Willem de Graaf

vrijdag 21 september 2018

Op naar een argument based practice!

Geen opmerkingen:

Een reactie posten

Wind onder de vleugels... Op een inspirerende vakantie!

Misbruik rapporteren