Ruis in big data

Screen Shot 2014-03-25 at 14.38.15Een verstandige stap van de ING vorige week: de bank laat zijn proefballon voortijds leeglopen en gaat voorlopig niet proberen de ‘big data’ die haar klantgegevens vormen voorlopig niet proberen te gelde te maken. Dat is heel verstandig van de bank en het biedt de gelegenheid eerst eens even stil te staan met de – niet geringe – consequenties van het big data-denken dat overal om ons heen postvat. En niet alleen in het bonuskaartensysteem van het bedrijfsleven. Big data zijn ook de miljoenen telefoongesprekken die de Nederlandse inlichtingendiensten MIVD en AIVD maandelijks al dan niet legaal afvangen.

Wat is big data? Stel dat iemand  met griep naar zijn huisarts gaat. Als diegene influenza had, is dat gegeven samen met alle andere griepgevallen in Europa bij de Wereldgezondheidsorganisatie beland. Die houdt zo al decennia de verspreiding bij van het influenza-virus in Europa. Door met die data grafieken en kaarten te maken, worden patronen zichtbaar die waardevolle inzichten geven over de terugkerende risicoperiode’s en -gebieden voor griep. Het perspectief van de grieperige patiënt tegenover dat van de WHO is het verschil tussen ‘small data’ en ‘big data’.

Duidelijk is dat onder ‘big data’ méér wordt verstaan dan ‘heel veel data’. Net als de WHO zijn zowel de inlichtingendiensten als de bank niet van plan hun gegevens één voor één tegen het licht te houden. Wat ze met die data willen is bulkanalyse: er met behulp van computers patronen in herkennen.

Big data impliceert daarmee een nieuwe en specifieke manier van denken. Dit principiële punt is tot dusver onderbelicht gebleven in de ophef die ontstond naar aanleiding van bovenstaande nieuwsfeiten. Maar omdat hij niet zonder gevolgen is voor de manier waarop overheden met hun burgers en bedrijven met hun klanten omgaan, is het belangrijk de vooronderstellingen achter big data onderdeel van de discussie te maken.

Viktor Mayer-Schönberg en Kenneth Cukier omschrijven big data in hun standaardwerk als “dingen die je wel op grote schaal maar niet op een kleinere schaal kunt doen”. Ze zijn laaiend enthousiast over ‘de big data revolutie’ – zoals hun boek heet. Vooral omdat ze een aantal traditionele moeilijkheden van kwantitatief onderzoek overboord gooien.

Zo hoeven dataonderzoekers zich eindelijk niet meer druk te maken om ruis in hun data. Of om causaliteit. Big data draait om correlaties: dat mensen die vaak merk A kopen ook veelal voor merk B gaan, bijvoorbeeld. Dat niet iederéén die van merk A houdt ook van merk B houdt, wordt dan statistisch irrelevant. Net zo onbelangrijk als de reden waaróm mensen zowel A als B in hun boodschappenwagentje gooien. Dat is voor de advertentiemarkt natuurlijk worst.

De auteurs beschrijven de ontwikkeling naar big data van niet meer weten waarom, maar alleen maar wat – als een bevrijding. En wel eentje die ‘eeuwen van staande praktijken en ons basale begrip van hoe beslissingen te nemen’ aanvecht. Beroemd voorbeeld is Google’s grieptrends. Het bedrijf heeft na lang speuren in de miljarden zoektermen die gebruikers van Google intoetsen een algoritme gevonden dat nog veel beter dan de WHO in staat blijkt griepepidemieën te voorspellen. Zoek maar na op deze site. Waarom kunnen Google-gegevens griep voorspellen? Wat doet het ertoe. Het werkt!

Deze impliciete vooronderstellingen – meer is beter, correlaties kunnen causaliteit vervangen – blijven zowel in de discussie rondom ING’s proefballontje als het CTIDV-rapport over het verzamelen van communicatiedata door MIVD en AIVD tot veelal buiten beeld. Het is belangrijk om deze principes bij de discussie te betrekken. Alleen dan kan ieder voor zich een zinnig oordeel vellen over de verzameldrift van overheid en bedrijfsleven. Is meer altijd beter?

De inlichtingendiensten moeten, blijkens de immense aantallen onderschepte gegevens, geloven van wel. Op kleinere schaal doet onze nationale politie hetzelfde door op basis van algoritmes Twitter af te speuren op zoek naar bedreigingen. Dat levert dagelijks 35.000 dreigtweets op, waarvan tweehonderd door agenten worden nagetrokken. Per dag. Hoe efficiënt is dat?

Bovendien: met zoveel data is het probleem niet dat je geen patronen vindt, maar juist dat je altijd wel patronen vindt. Dan gaat het erom de zinvolle correlaties te scheiden van de onzinnige. Niet iedereen die zowel naar rugzakken googlet als naar snelkookpannen is een terrorist. Toch zijn in de nasleep van de aanslag tijdens de marathon van Boston in 2013 huiszoekingen gedaan bij mensen die in dit patroon pasten. Bij zulke ingrijpende inbreuken in de persoonlijke levenssfeer van mensen is het bijna cynisch uitsluitend op dit soort correlaties te vertrouwen. Is er niemand die zich afvraagt waarom iemand deze zoektermen zou kunnen combineren – buiten terroristische intenties om? Het kost wat meer moeite, maar het helpt wel ‘ruis’ te verklaren en ernaar te handelen.

Patronen bezitten nu eenmaal niet alle antwoorden. En net zo problematisch: vaak niet eens de goede. In een artikel in Science werd de Google Flu Trend afgelopen week met de grond gelijk gemaakt. De algoritmes voorspellen epidemieën waar ze niet ontstaan en missen ze op andere plekken. Correlaties verklaren niet, maar voorspellen. Maar wat is een goed criterium voor de voorspellende waarde als je correlaties niet altijd uitkomen? Dat hierover nog niet goed is nagedacht, getuigt volgens de auteurs van hoogmoed: ‘Big Data Hybris’. Alsof je met genoeg data en een paar veelbelovende algoritmes het gouden ei in handen hebt. Die aanname heeft een wel heel wankele basis – daar waarschuwt Mayer-Schönberger tegenwoordig trouwens ook zelf voor. Toch wordt er van alle kanten beleid op gebaseerd.

Nog niet eens zo heel lang geleden gold het als een diskwalificatie als je ergens ‘als een nummer’ werd behandeld. In de tijd van big data lijkt het voor zowel overheid als bedrijfsleven het hoogste haalbare. Maar het is sterk de vraag of burgers zich werkelijk willen laten reduceren tot hun postcode, loonstrookje of boodschappenlijstje. Zeker als ze snappen dat het betekent dat ze steeds meer informatie zullen moeten afstaan en wie niet in een patroon past niet ‘uniek’ is, maar ‘ruis’.

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s