Nog steeds op vakantie, ondertussen op een camping in
het Champagne district, besef ik dat ik me vorige week met de blog "de
leefstijl-maffia" wellicht wat buiten mijn vakgebied - brein en
technologie - heb begeven. Graag wil ik deze week de link verduidelijken. Eerst
even terug naar mijn vakgebied. Waar het mij om gaat is dat moderne
data-analyse dankzij a) enorme computercapaciteit, b) heel veel beschikbare
data en c) slimme algoritmes de mogelijkheid biedt om gepersonifieerd naar
mensen te kijken. Naar sub-patronen binnen populaties. Zo heb ik voor een hoger
onderwijs organisatie naar patronen gezocht in de beschikbare data, waaronder
cijfers, aantal kansen per toets, aantal gehaalde punten per periode, wel of
niet informatie zoeken op de Blackboard systemen, etc.
Er bleken eilandjes van studenten (subpatroon) in de
data te bestaan. Bijvoorbeeld een groep studenten (eiland) die alles in één
kans haalden, maar met als gemiddelde van al hun cijfers een 6,4. Een ander
"eiland" wordt bevolkt door studenten die bijna 2 keer zo lang over
de studie doet, gemiddeld een substantieel deel van de toetsen herkanst, maar
wel met gemiddeld een kleine 8. Als je alleen naar het cijfer kijkt dus prima
studenten, maar met de inefficiëntie en traagheid erbij
wellicht toch veel minder aanbevelingswaardig. Hoewel, wel doorzetters. Dit
laat zien dat door alleen naar het cijfer te kijken - uni-lineair - je de
toppers die goed en snel presteren niet in beeld krijgt. Maar door
eendimensionaal te kijken, ligt een master of PhD voor de zeer efficiënte
studenten buiten bereik, en dat is een enorme verkwisting van potentieel talent
(en tevens een overwaardering van de middelmatigheid).
Hoe ik tot de eilandjes kom is de techniek van het
algoritme. Ik zal er kort op ingaan, maar voor wie alleen het betoog wil
volgen, kan ook verder gaan bij de volgende alinea. Zo bleken er studenten te
zijn die alle toetsen in een keer haalden (de factor kans -
het gemiddeld aantal keren benodigd om een toets te behalen - staat op 1, maar
met een relatief lager cijfer (6,4). Andere studenten herkansten een
substantieel aantal vakken (factor kans ligt beduidend hoger, bv op 1,4) en
hadden uiteindelijk een gemiddelde dat significant hoger was 7,3). Ook met
betrekking tot het studietempo zaten er verschillen: sommige studenten haalden
slechts 40 van de 60 studiepunten (factor realisatie 0,66)
terwijl een ander “eiland” studenten bevatte die zelfs meer vakken haalden dan
de norm, ze pakten er even bij andere opleidingen punten bij (68 punten in
plaats van 60, factor 1,13).
“Eilanden” kunnen ook voor specifieke mensen/patronen
binnen het leefstijldomein staan. Door slimme analyse in te zetten in het leefstijldomein,
zo veronderstel ik, zal blijken dat bijvoorbeeld sommige "eilandjes"
van mensen baat hebben bij een koolhydraatarm dieet, maar sommige mensen
wellicht geheel niet. Laten we het omdraaien. Er zijn ongetwijfeld mensen die
baat hebben bij cafeïne. Of anderen bij vet eten. Of alcohol. En dan bedoel ik
echt baat, dus die er grotere moeilijkheden mee afwenden. Zo is het ook
met BMI: er zijn ongetwijfeld "eilandjes" van
constituties die een ander - hoger, lager - BMI als ideaal (attractor) hebben.
Door iedereen met slechts een schaal te meten, richten we wellicht ook schade
aan. Mensen die buiten de norm vallen, maar wellicht volkomen gezond zijn,
worden gestigmatiseerd, bv als anorectisch of dik. Ze ontmoeten steevast
vooroordeel: "Die mag wel eens gaan eten, of meer gaan bewegen". En
nog "wetenschappelijk" onderbouwd ook!
Nu zult u zeggen dat richtlijnen gebaseerd zijn op
evidence-based-practice . Maar iets is prima evidence based indien 70% van de
mensen er baat bij hebben, en er 10 tot 15% niet (duidelijk) slechter van
wordt. Blijft er nog 15 a 20% over. Zij worden er wel slechter van! Uni-lineair
denken, niet meer nodig met onze huidige datatechniek. Stel je voor. De meeste
mensen in Nederland wonen in de randstad. Een evidence based richtlijn
(algoritme) om in Overijssel te komen is snel gemaakt. Maar mensen die dit toepassen
vanuit Groningen of Limburg, komen hiermee bedrogen uit. Gelukkig werkt TomTom
niet evidence based, maar via actueel gsm signaal map/theory based. De zorg kan
hier veel van leren. Toen ik nog in de ouderenzorg werkte, kwam ik regelmatig
80 plussers tegen die goed in hun vel zaten, letterlijk en figuurlijk, maar
volgens de huidige norm waarschijnlijk omschreven worden zouden worden met de
term obesitas. Kunnen we niet, net als TomTom, per persoon kijken wat de
individuele route is tot Healthy Ageing?
Soms lijkt het er wel op of de medische/gezondheids
wetenschap zich op dit vlak in de uitverkoop heeft gedaan. Overal liggen
normen, soms zichtbaar inconsistent/incongruent. Nergens lijkt er oog te zijn
voor wat ik "eilandjes" heb genoemd. Als data-analist vind ik dat op
zijn minst merkwaardig. Ik vraag me af, komt dit uni-lineaire denken de
leefstijl-industrie commercieel gezien toch niet erg goed uit?
Interessant, Jan Willem! Ik zou de stelling wel aandurven dat de werkelijke push in de ontwikkeling van Big Data helemaal niet uit de wens komt om de kwaliteit van de analyses an sich te verbeteren, maar om commerciële / financiële doelstellingen te onderbouwen. Hiervoor moet zowel op de selectie van data als het algoritme worden ingegrepen, zodat naar de gewenste uitkomst toegewerkt wordt, die vooral (commercieel) werkzaam is op een zo groot mogelijk volume. Voor de pure data analist natuurlijk een vervuiling van jewelste! Een mooi betoog aanvullend op dit thema zie je hier:
BeantwoordenVerwijderenhttps://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end#t-785158
Mee eens! Maar je kan zo veel mooie dingen doen met deze analyses, personalized psychology, bijvoorbeeld. Maar het blinde geloof van velen in big data is soms beangstigend (iets waar ook de CEO van Rapid Miner (Ingo Mierswa) regelmatig voor waarschuwt!)
BeantwoordenVerwijderen