Det överdrivna löfte om så kallad oskaplig datautvinning


Nobelpristagare Richard Feynman bad en gång till sina Caltech-elever om att beräkna sannolikheten att om han gick utanför klassrummet skulle den första bilen på parkeringsplatsen ha en särskild skyltskylt, säg 6ZNA74. Om alla siffror och bokstäver är lika sannolika och bestämda självständigt, uppskattade eleverna sannolikheten att de var mindre än 1 i 17 miljoner. När eleverna avslutade sina beräkningar avslöjade Feynman att den korrekta sannolikheten var 1: han hade sett denna skylt på väg in i klassen. Något extremt osannolikt är inte alls osannolikt om det redan har hänt.

Feynman-fällningen-ransacking data för mönster utan någon förutbestämd uppfattning om vad man letar efter-är Akilles hälsan av studier baserade på data mining. Att hitta något ovanligt eller överraskande efter det att det redan inträffat är inte ovanligt eller överraskande. Mönster kommer säkert att hittas, och kommer sannolikt att vara vilseledande, absurt eller sämre.

I hans mest sålda 2001-bok Bra till braJim Collins jämförde 11 företag som hade överträffat den totala aktiemarknaden under de senaste 40 åren till 11 företag som inte hade det. Han identifierade fem särdrag som de framgångsrika företagen hade gemensamt. "Vi började inte detta projekt med en teori för att testa eller bevisa," sa Collins. "Vi försökte bygga en teori från grunden, härledd direkt från bevisen."

Han gick in i Feynman-fällan. När vi tittar tillbaka i tid hos någon grupp av företag, det bästa eller det värsta, kan vi alltid hitta några vanliga egenskaper, så att hitta dem visar ingenting alls. Efter publicering av Bra till bra, prestationen av Collins storslagna 11 aktier har varit tydligt medioker: Fem aktier har gjort bättre än den totala aktiemarknaden, medan sex har gjort värre.

Under 2011 skapade Google ett artificiellt intelligensprogram som heter Google Fluin som använde sökfrågor för att förutsäga influensautbrott. Googles datautvinningsprogram tittade på 50 miljoner sökfrågor och identifierade de 45 som var mest korrelerade med förekomsten av influensa. Det är ytterligare ett exempel på data-mining trap: En giltig studie skulle ange nyckelord i förväg. Efter att ha utfärdat sin rapport, överskattade Google Flu influensavärdet för 100 av de kommande 108 veckorna, med i genomsnitt nästan 100 procent. Google Flu gör inte längre influensaprognoser.

En internet marknadsförare trodde att det kunde öka sina intäkter genom att ändra sin traditionella blå webbsida färg till en annan färg. Efter flera veckor av tester, fann företaget ett statistiskt signifikant resultat: tydligen älskar England teal. Genom att titta på flera alternativa färger för hundra länder så garanterade de att de skulle hitta en inkomstökning för vissa färger för ett land, men de hade ingen aning om tidpunkten för att kricka skulle sälja mer i England. Som det visade sig, när engels webbsida färg ändrades till kricka, minskade intäkterna.

Ett standard neurovetenskapligt experiment innebär att man visar en frivillig i en MRI-maskin olika bilder och ställer frågor om bilderna. Mätningarna är bullriga, plockar upp magnetiska signaler från miljön och från variationer i fettvävnadens densitet i olika delar av hjärnan. Ibland saknar de hjärnans aktivitet; Ibland föreslår de aktivitet där det inte finns någon.

En Dartmouth doktorand använde en MR-maskin för att studera en laxens hjärnaktivitet, eftersom det visades fotografier och ställde frågor. Det mest intressanta med studien var inte att en lax studerades, men att laxen var död. Ja, en död lax köpt på en lokal marknad sattes i MR-maskinen och några mönster upptäcktes. Det fanns oundvikligen mönster – och de var oändligt meningslösa.

År 2018 beräknade en Yale ekonomiprofessor och en doktorand korrelationer mellan dagliga förändringar i Bitcoin-priserna och hundratals andra finansiella variabler. De fann att Bitcoin-priserna var positivt korrelerade med aktieavkastningen inom konsumtionsvaror och hälso- och sjukvårdsindustrier, och att de var negativt korrelerade med aktieavkastning inom tillverkningsindustrin och metallindustrin. "Vi ger inte förklaringar," sade professorn, "vi dokumenterar bara detta beteende." Med andra ord kan de också ha tittat på korrelationer av Bitcoin-priser med hundratals listor över telefonnummer och rapporterade de högsta korrelationerna.

Regissören för Cornell University's Food and Brand Lab författade (eller medförfattare) mer än 200 peer-reviewed papers och skrev två populära böcker, som översattes till mer än 25 språk.

I ett 2016 blogginlägg med titeln "The Grad Student Who Never Said No" skrev han om en doktorand som hade fått uppgifter insamlade på en italiensk buffé som du kan äta.

E-post korrespondens uppstod där professorn uppmanade forskarstuderande att skilja diners till "män, honor, lunchare, middagare, människor som sitter ensamma, människor som äter med grupper om 2 personer, som äter i grupper om 2+, folk som beställer alkohol , folk som beställer läskedrycker, människor som sitter nära buffé, människor som sitter långt och så vidare … "Då kunde hon titta på olika sätt som dessa undergrupper kan skilja sig från:" # bitar pizza, # resor, fyllnadsnivå av tallrik, fick de efterrätt, beställde de en drink och så vidare … "

Han slutsatsen att hon borde "arbeta hårt, krama lite blod ut ur denna sten". Genom att aldrig säga nej, fick studenten fyra papper (nu känd som "pizzapapper") publicerad med Cornell professor som medförfattare. Det mest kända pappret rapporterade att män äter 93 procent mer pizza när de äter med kvinnor. Det slutade inte bra. I september 2018 konstaterade en Cornell-fakultetskommitté att han hade "begått akademisk missuppfattning i sin forskning." Han avgick, effektiv den följande juni.

Bra forskning börjar med en klar uppfattning om vad man letar efter och förväntar sig att hitta. Data mining söker bara efter mönster och finner oundvikligen några.

Problemet har blivit endemisk nuförtiden eftersom kraftfulla datorer är så bra att plundra Big Data. Datavinnare har funnit samband mellan Twitter-ord eller Google-sökfrågor och brottslig aktivitet, hjärtattacker, aktiekurser, valresultat, Bitcoin-priser och fotbollsmatcher. Du kanske tror att jag gör dessa exempel. Jag är inte.

Det finns ännu starkare korrelationer med rent slumptal. Det är Big Data Hubris att tro att data-minskade korrelationer måste vara meningsfulla. Att hitta ett ovanligt mönster i Big Data är inte mer övertygande (eller användbart) än att hitta en ovanlig typskylt utanför Feynmans klassrum.

WIRED Yttrande publicerar bitar skrivna av utomstående bidragsgivare och representerar ett brett spektrum av synpunkter. Läs mer åsikter här. Skicka ett upp-ed på opinion@wired.com


Mer Great WIRED Stories