Big data? Don’t believe the hype!

Consumentenbestedingen, grieppandemieën en toekomstig crimineel gedrag: als je maar genoeg gegevens hebt, is het allemaal te voorspellen, aldus Big Data adepten. Maar is dat wel zo?

In de Verenigde Staten doen bedrijven minder moeilijk over de privacy van hun klanten dan hier. Rond de eeuwwisseling besloot de Amerikaanse warenhuisketen Target daarom tot het aanleggen van een grote dataverzameling over zijn klanten. Iedere klant kreeg een eigen ID toegewezen, waaraan het warenhuis tal van zaken koppelde: hoe vaak hij zijn klantenkaart gebruikte, of hij de website van de winkel bezocht, wat hij kocht en de antwoorden die hij gaf bij klanttevredenheidsonderzoeken.

Daarbovenop kwam klantinformatie die Target bij andere partijen inkocht: leeftijd, inkomen, of ze getrouwd waren, welke creditcards ze hadden, waar ze hadden gestudeerd, of ze ooit schulden hadden gehad en welke tijdschriften ze lazen. In een mum van tijd wist Target van alles over de bezoekers aan zijn winkels. Welke klanten kinderen hadden bijvoorbeeld. Die kregen in november, aan de vooravond van de feestdagen, een speelgoedcatalogus toegestuurd. Wel zo makkelijk.

Maar Target ging verder. Want op basis van alle informatie die het bedrijf verzamelde, bleek het ook met redelijke nauwkeurigheid te kunnen ‘voorspellen’ welke vrouwelijke winkelbezoekers zwanger waren. Zelfs de datum waarop de kleine ter wereld zou komen, kon bij benadering worden vastgesteld. Het leidde tot een pijnlijk incident. De vader van een middelbare scholiere meldde zich boos bij een Target-vestiging met de vraag waarom zijn dochter reclame voor babykleding kreeg toegestuurd. Wilde Target soms dat ze zwanger zou worden? Bleek dat de winkel er eerder achter was gekomen dat het meisje zwanger was dan haar vader.

Dit verhaal, afkomstig uit het boek The Power of Habit van New York Times-journalist Charles Duhigg, laat zien wat de kracht kan zijn van data-analyse. Door allerhande gegevens op slimme wijzen aan elkaar te knopen, kun je de meest opmerkelijke ontdekkingen doen.

Wijnoogst

De toepassingen van ‘Big Data’ blijven vanzelfsprekend niet beperkt tot winkelketens. Door handig gebruik te maken van gegevens over honkballers konden de Oakland A’s, een club met beperkte financiële middelen, bijvoorbeeld ondergewaardeerde spelers aankopen. Daardoor presteerde de club plotseling veel beter dan verwacht. De data-gebaseerde tactiek van de A’s werd vervolgens snel overgenomen door andere clubs.

Een econoom aan Princeton slaagde erin om op basis van een simpele formule en een berg weergegevens uit de regio Bordeaux opeens veel betere voorspellingen te doen over dekwaliteit van de wijnoogst dan allerlei hooggeleerde connaisseurs.

Geïnspireerd door dit soort succesverhalen is er inmiddels een hele industrie ontstaan rond Big Data. De term ligt paarse broeken de laatste jaren voorin de mond bestorven. Wie wil kan elke week wel ergens een Big Data-conferentie bezoeken en boekwinkels kunnen inmiddels makkelijk een paar planken vullen met titels als Big Data: A Revolution That Will Transform How We Live, Work, and Think. Dankzij Big Data zal alles anders worden. Iedereen moet er wat mee: bedrijven, overheden, wetenschappers.

Het optimisme over wat deze nieuwe technologie allemaal vermag, lijkt onbegrensd. Wie sommige Big Data-profeten mag geloven zijn Minority Report-achtige scenario’s waarbij we straks van tevoren weten wie er een misdrijf zal begaan, allesbehalve sciencefiction. De toekomst voorspellen was nog nooit zo makkelijk.

Tech-hype

Big Data is een klassieke technologie-hype, met de bijbehorende hooggespannen verwachtingen. En zeg je tech-hype, dan is Wired-hoofdredacteur Chris Anderson nooit ver weg. Anderson, die eind jaren negentig bekendheid verwierf met zijn voorspelling dat de ‘nieuwe economie’ een einde zou maken aan typisch twintigste-eeuwse verschijnselen zoals recessies en financiële crises, schreef in 2008 het artikel The End of Theory: The Data Deluge Makes the Scientific Method Obsolete.

In dat stuk betoogt hij dat de wetenschap het nodige kan leren van Google. In plaats van modellen op te stellen die de wereld om ons heen zo goed mogelijk proberen te verklaren, kunnen wetenschappers volgens Anderson beter gewoon eens lekker op zoek gaan naar verbanden in die enorme bergen data die we tegenwoordig hebben. Want causaliteit, waar wetenschappers doorgaans nogal veel waarde aan hechten, is in de ogen van Anderson in dit tijdperk van Big Data eigenlijk hopeloos ouderwets. “Correlatie is genoeg”, schrijft hij. “We kunnen stoppen met het zoeken naar modellen.”

Zou het echt? De bekendste Big Data-toepassing van het door Anderson zo bewierookte Google is vermoedelijk Google Flu Trends. Het idee is dat je op basis van de zoekopdrachten in realtime kunt zien of er sprake is van een grieppandemie. In theorie erg handig, want het duurt vaak wel even voordat de officiële overheidsstatistieken over het aantal griepmeldingen zijn verzameld. Google wees 45 ‘griep-gerelateerde’ termen aan. Bij de start van Google Flu Trends was de correlatie tussen het gebruik van deze termen en het aantal officieel gemelde griepgevallen 90 procent.

De praktijk

In de praktijk blijkt de voorspellende waarde van Google Flu Trends echter een stuk minder dan vooraf gehoopt. Uit onlangs gepubliceerd onderzoek van wetenschappers van twee Amerikaanse universiteiten bleek dat Google er in 100 van de 108 weken naast zat met zijn griepvoorspellingen. In februari vorig jaar schatte de zoekgigant het aantal griepmeldingen bijvoorbeeld twee keer te hoog in. ‘Big Data hubris’, noemen de onderzoekers die Google Flu Trends tegen het licht hielden het.

Voor statisticus Nate Silver, die de laatste twee Amerikaanse presidentsverkiezingen beter voorspelde dan wie dan ook, zal dat niet als een verrassing komen. In zijn boek The Signal and the Noise waarschuwde hij twee jaar geleden al voor al te hooggespannen verwachtingen van Big Data. Er mag dan elke dag een krankzinnige hoeveelheid nieuwe gegevens worden verzameld, dat betekent nog niet automatisch dat onze kennis ook toeneemt, meent Silver. Integendeel: het grootste deel van die nieuwe data is ruis. De uitdaging is om uit al die ruis een signaal op te pikken. En dat is makkelijker gezegd dan gedaan.

Als voorbeeld noemt Silver de terroristische aanslagen van 11 september. Dat die aanvallen op het WTC en Pentagon konden plaatsvinden, was niet vanwege een gebrek aan informatie. Er waren van tevoren wel degelijk inlichtingen over de verdachte activiteiten van de kapers. Alleen slaagden de Amerikaanse veiligheidsdiensten er niet tijdig in om die verdachte spelden in de datahooiberg te vinden. “Voor we meer van onze data verlangen, moeten we eerst meer van onszelf vragen”, concludeert Silver dan ook. Big Data heeft ontegenzeggelijk potentie. Maar alleen als we zelf blijven nadenken.

Een half miljoen terroristen

En ook als we na lang nadenken en met behulp van veel data een goed model ontwikkelen, blijft voorzichtigheid geboden. Stel je bijvoorbeeld een algoritme voor waarmee je op basis van bank-, reis- en andere gegevens met 99 procent zekerheid kunt zeggen of iemand lid is van een terroristische organisatie. In hun vorige maand verschenen boek Think Like A Freakbeschrijven econoom Steven D. Levitt en journalist Stephen J. Dubner hoe dat zou uitpakken. “Laten we zeggen dat er 500 terroristen in het Verenigd Koninkrijk zijn”, schrijven ze. “Met een algoritme dat 99 procent accuraat is, zou je er dus 495 opsporen.”

Dat klinkt geweldig. Maar behalve de echte terroristen zouden er ook onschuldige burgers in het filter blijven hangen. Hoeveel? Uitgaande van de eerdergenoemde accuratesse van 99 procent wordt 1 van procent van alle andere mensen in de dataset ten onrechte aangemerkt als terrorist. “Op de totale bevolking van het Verenigd Koninkrijk, zo’n 50 miljoen volwassenen, zou dat dus neerkomen op zo’n half miljoen onschuldige mensen.” Tel uit je winst.

Dit artikel verscheen in Bright Ideas 7.