Datamining en dwergenporno

Big Data. Getuige deze grafiek van Google Trends is het onderwerp sinds vorig jaar bezig om een redelijke hype te worden, maar dataminers, number-crunchers en andere nerds zijn er al tijden dol op: grote dataverzamelingen die je kunt doorploegen om interessante verbanden te leggen en voorspellingen te doen.

Deze praktijk werd enkele jaren geleden gepopulariseerd door de auteurs van het boek Freakonomics, Steven D. Levitt en Stephen J. Dubner, die lieten zien dat het legaliseren van abortus twintig jaar later tot gevolg kan hebben dat de criminaliteit daalt en uitlegden waarom het succes dat je in je leven hebt, mede afhankelijk kan zijn van de naam die je ouders je hebben gegeven.

De toepassingen van datamining zijn eindeloos. Wil je bijvoorbeeld weten of een fles wijn goed smaakt, dan kun je natuurlijk naar een wijngoeroe luisteren. Je kunt ook Orley Ashenfelter raadplegen. Ashenfelter is geen professionele wijnproever, maar een econoom aan Princeton. Om de kwaliteit van wijnen vast te stellen, gebruikt hij grote databestanden.

Op basis van de weergegevens in de regio Bordeaux van een aantal decennia achterhaalde hij welke weersomstandigheden leiden tot de lekkerste wijn. Zo kwam hij met een formule om de kwaliteit van de wijnoogst van een bepaald jaar vast te stellen:

Wijnkwaliteit = 12,145 + 0,00117 x regen in de winter + 0,0614 x de gemiddelde temperatuur tijdens het groeiseizoen – 0,00386 x regen tijdens de oogst

Wijnkenners moesten er aanvankelijk niets van hebben (“belachelijk”, “dit is het werk van een Neanderthaler”) maar Ashenfelters voorspellingen over de nieuwe wijnoogst bleken in de praktijk verdraaid goed te zijn. Beter nog dan die van veel ‘professionele’ wijndeskundigen. Het gevolg: ook de klassieke wijnexperts letten nu veel meer op het weer, zo schrijft Ian Ayres in zijn boek Super Crunchers.

Eens in de miljoen jaar

Nu het steeds goedkoper en makkelijker wordt om steeds grotere hoeveelheden informatie te verzamelen en door te ploegen, nemen ook de mogelijkheden van datamining flink toe. En dat is goed nieuws voor wie de wereld om ons heen beter wil begrijpen.

Tot zover het goede nieuws. Want je kunt ook een paar kanttekeningen plaatsen bij alle zegeningen die datamining ons lijkt te brengen. De eerste is een praktische. Voor veel mensen heeft het iets geruststellends: de zekerheid die al die formules ons lijken te bieden. Maar (sociale) processen blijken lang niet altijd, of niet onder alle omstandigheden, in een formule te vangen.

Toch hebben veel number-crunchers en dataminers die illusie wel. Een mooie illustratie van hoe het ongebreidelde geloof in simpele formules die een complexe werkelijkheid beschrijven, verkeerd kan uitpakken, vormt de kredietcrisis.

Als er namelijk één plaats is waar ze dol zijn op formules waarmee je de toekomst kunt voorspellen, dan is het wel bij de banken, de hedge funds en optiehuizen die in aandelen, opties en allerhande exotische financiële producten handelen. Massaal hebben zij hun lot in handen gelegd van quants: bollebozen die formules opstellen waarmee de handelaren kunnen vaststellen wat de juiste prijs is voor een product en wat ze moeten kopen of verkopen om zoveel mogelijk te verdienen.

Vaak gaat dat goed. Maar soms gaat het ook verkeerd. Tijdens de financiële crisis van 2008 bijvoorbeeld. Toen bleek dat veel voorspellende modellen opeens niet meer bleken te kloppen. Uitzonderlijke gebeurtenissen die volgens de opstellers van de formules hooguit eens in de miljoen jaar zouden voorkomen, deden zich opeens verscheidene malen op één dag voor. Oeps!

Zwanger

Het tweede probleem met al die datamining is van ethische aard. Waar gebruik je de informatie voor die je via het doorploegen van datasets hebt verkregen? Met een formule waarmee je de kwaliteit van de rode wijn van dit jaar kunt vaststellen, is vanzelfsprekend niet zoveel mis. Al die gewichtige wijnproevers die nu de dienst uitmaken, zijn er misschien niet zo blij mee, maar verder zal niemand er zwaar onder lijden dat er op Princeton een econoom rondloopt die met behulp van een formule de wijnprijzen kan voorspellen.

Heel anders ligt dat als allerlei gegevensverzamelingen worden gebruikt om het gedrag van individuen te voorspellen – om daar vervolgens weer commercieel of anderszins op in te spelen.

Recent was er nogal wat te doen over de Amerikaanse warenhuisketen Target die op basis van het aankoopgedrag van vrouwelijke klanten met een redelijk grote waarschijnlijkheid kan bepalen of ze zwanger zijn. Zelfs de datum waarop de baby zal worden geboren, kunnen ze bij benadering vaststellen.

Dat is handig om te weten voor Target. Want hoewel veel consumenten gewoontedieren zijn die hun pak melk bij de supermarkt kopen en voor een staafmixer naar een warenhuis gaan, zijn er een paar momenten in een leven waarop mensen bereid zijn van hun gebruikelijke winkelroutine af te wijken. Kort na de geboorte van een kind bijvoorbeeld, als je het liefste al je boodschappen bij één winkel doet. Om ervoor te zorgen dat die ene winkel de Target is, bestookt de winkelketen zwangere vrouwen met op maat gemaakte aanbiedingen voor babyspullen.

Dat kan af en toe tot pijnlijke situaties leiden, zo blijkt uit een artikel in het magazine van The New York Times. Een vader van een middelbare scholiere meldde zich boos bij een Target-vestiging. Waarom zijn dochter reclame kreeg voor een wieg en babykleren, wilde hij weten. ‘Probeert u haar soms aan te moedigen om zwanger te worden?’

De manager van de winkel bood ter plekke zijn verontschuldigingen aan en belde enkele dagen later nog eens op om nogmaals zijn spijt te betuigen. De tweede keer blies de vader echter aanmerkelijk minder hoog van de toren. “Ik heb een gesprek gehad met mijn dochter, en het blijkt dat er zaken zijn gebeurd waarvan ik niet helemaal op de hoogte was. Haar baby is uitgerekend voor augustus.”

Duitse schlagers

Nu is wat winkels kunnen vaststellen op basis van ons consumptiepatroon natuurlijk nog maar kinderspel in vergelijking met de conclusies die je zou kunnen trekken op basis van iemands internetgedrag. De betere webwinkel trekt die conclusies al jaren en doet je suggesties aan de hand voor producten waarvan je zelf nog niet wist dat je ze wilde hebben. “Andere kopers van de autobiografie van Han Peekel kochten ook ‘Bereik je ideale gewicht’ van Sonja Bakker.”

Maar in theorie is er natuurlijk nog veel meer mogelijk. Met internet delen we immers de meest intieme geheimen die we zelfs niet aan onze beste vrienden toevertrouwen. Mijn nachtelijke YouTube-sessies op zoek naar Duitse schlagers, het Facebook-profiel van die onbeantwoorde liefde dat ik 327 keer per dag F5 en mijn onstilbare behoefte aan porno waarin gehandicapte dwergen figureren: ik houd het bij voorkeur allemaal geheim voor de buitenwereld.

Partijen die over dergelijke gedetailleerde informatie over je diepste angsten en verlangens beschikken, zitten op een potentiële goudmijn. De verleiding om – stapje voor stapje – steeds meer gebruik te maken van die informatie, om steeds meer datasets aan elkaar te koppelen en op basis daarvan trends vast te stellen en voorspellingen te doen, is groot.

Vandaag is het nieuwe privacy-beleid van Google van kracht geworden. De belangrijkste vernieuwing is dat Google de gegevens van de ene dienst nu kan combineren met die van een andere dienst. De internetgigant zal daardoor nog beter begrijpen waarnaar je op zoek bent, de zoekresultaten worden nog persoonlijker en je krijgt advertenties voorgeschoteld die nog relevanter zijn.

Volgens Google zelf is dat vooral om mensen beter van dienst te zijn. Dat wilden ze bij Target vermoedelijk ook: hun klanten beter van dienst zijn. De vraag is of de zwangere tiener die wat extra lotion bij de winkel kocht, dat ook zo heeft ervaren.