« Filosofiska rummet: Hur tänker vi? | Main | larsolofsson.se: Ännu en blogg med Netch-anor »

juni 01, 2004

google som bevis

Apropå Erik Stattins serie av "google-journalistik"-anteckningar. Se t.ex. Google-journalistik 4, och dess ingående länkar till tidigare anteckningar; läs gärna även kommentarerna.

[Det följande har utgått från en anteckning skriven kring den 6:e februari som av någon anledning inte publicerades då. Början är sålunda inte riktigt kopplad till Eriks anteckning och antalet sökrträffar stämmer möjligen inte riktigt med dagsvärdet.]

Vid läsning av följande avsnitt i Clay Shirkys mycket intressanta "post mortem"-analys av Deankampanjen Exiting Deanspace påbörjades en fundering kring bevisvärdet av sökmotorsökningar. Så här står det (min emfas):

"""Howard Dean had the best-funded, best-publicized bid to be the Democratic nominee; he was so widely understood to be in the lead that the inevitability of his victory was a broad topic of discussion. (Google "Howard Dean"+inevitable if you need independent confirmation.) Even the people disputing the posited inevitability burnished the idea; no one bother debunking the idea of, say, Kucinich's inevitability."""

Det är kanske petimäteraktigt (7 förekomster på google) att göra en anmärkning på en kommentar i en inskjuten parentes, men detta sätt att påvisa samband mellan två begrepp har dykt upp flera gånger och verkar vara en trend (se nedan för en kommentar om detta). Tyvärr får Clay Shirky orättvist klä skott för detta missbruk; det är absolut inget personligt mot denne utmärkta krönikör.

Några frågor som väcktes: Vad innebär denna typ av förekomstreferens? På vilket sätt stödjer egentligen google-sökningar en viss tes?

En google-sökning på "Howard Dean" inevitable ger i skrivande stund [dvs i februari] cirka 27 700 träffar. Men vad visar detta egentligen? Det enda som visas är hur många dokument som samtidigt innehåller de två termerna "Howard Dean" och "inevitable", men det säger ingenting om relationen mellan termer. De kan stå var som helst i texten, t.ex. det ena först och det andra sist. Det finns cirka 2 040 000 sidor där "Howard Dean" nämns, och cirka 1 780 000 sidor med ordet "inevitable". Det finns sålunda en rätt stor chans att båda orden slumpmässigt skulle finns med i en och samma text utan att man ska sluta sig till ett speciellt samband.

Nu ska man nog se Shirkys hänvisning så att läsaren själv ska leta efter sambanden i dessa dokument och inte se den höga siffran 27 600 som ett bevis i sig. Troligen har Shirky rätt i att många personer har sett Dean som en "inevitable winner". Det är dock inte detta faktum som kritiseras här, utan vilken typ av stöd en googlesökning ger.

Här är några googleextrakt från de högst rankade sidorna för den nämnda sökningen [återigen från februari]. Inom parentes visas om det är en relevant referens (+) eller inte (-):

* "Dean becoming inevitable winner of NH Primary." (+)
* "Howard Dean is a dove on war issues, but realizes that sometimes war is inevitable. " (-)
* "Is a Dean Nomination Inevitable?" (+)
* "Howard Dean is right to insist that southwestern Vermont must be willing to ... That process of evaluation produces the inevitable debates that accompany most ... " (-)
* "Suddenly the inevitable doesn't look so inevitable. Howard Dean is still the front-runner this morning, but Iowa Democrats may be about to prove once more that ..." (+)
* "heralded his arrival pronounced him dead, made frequent and inevitable comparisons to ... itself -- all of these shiny new things had failed Howard Dean and failed ... " (-)
*"Inevitable Winner(s). In one of those wonderful blog-induced feedback nets, my buddy Natalie read my recent post about Molly Ivins' endorsement of Howard Dean, ... " (+)
...

En del av dessa sökträffar handlar mycket riktigt om Deans "ofrånkomliga seger", medan andra gör det inte. (Det skulle naturligtvis vara mer vetenskapligt att gå igenom en stor mängd sidor och redovisa exakt hur många som är si respektive hur många som är så.)

Om man söker på "Howard Dean" -inevitable, dvs sidor där termen "Howard Dean" förekommer men inte termen "inevitability", får man cirka 2.040.000 träffar vilket inte heller visar någonting. Att detta antal råkar sammanfalla med antalet sidor där "Howard Dean" nämns ska ses som att precisionen i det presenterade antalet är får låg.

Försöker man göra sökningen något mer stringent, t.ex. Howard Dean"+"inevitable winner" kommer 54 träffar upp, och dess "motsats" "Howard Dean"+"inevitable loser" får 1 träff. Detta verkar mer lovande men 54 träffar är inte speciellt mycket med tanke på så mycket som skrivit om Howard Dean och kampanjen. (Det kan dock finnas mer relevanta sökord som ger högre antal träffar.)

Några kommentarer: Även om man inte tror att Dean var en "inevitable winner" så betyder det inte att man måste skriva att han var en "inevitable loser", så en naiv google-sökningar verkar inte speciellt bra för att söka efter motsatser. Man kan också misstänka att antalet träffar på termen "inevitable winner" eller motsvarande ord kommer att öka eftersom kommentarerna hos bland annat de ordrika bloggarna kommer att använda termen, speciellt eftersom Clay Shirky är en betydelsefull bloggare.


Ett annat google-bevis påträffades en stund senare [återigen i februari] på codemode.org:

Google-sökning: "rasar mot" "Resultat 1 - 10 av ungefär 12,300". Det rasas mot mycket på internet..

Om man för jämförelsens skull gör sökningen på googles "sidor på svenska" i stället, vilket ger cirka 11 500 träffar. En sökning på ordet rasar ger 38 900 träffar. Dvs cirka 30% av sidorna som innehåller "rasar" innehåller uttrycket "rasar mot". Hur mycket är egentligen "mycket"?

Alla sökmotorförekomstreferenser är naturligtvis inte av ondo. I P1:s program Folkminnen och Vetenskapsradion - Språket används ibland resultat från sökmotorerna för att belägga förekomsten hos ett ord eller hur ett uttryck används, men det är då frågan om ett enda ord eller ett sammansatt uttryck (sökning inom citationstecken, t.ex. "Howard Dean"). Ofta är det för att undersöka om det överhuvudtaget finns någon förekomst i modern svenska. Jämför även med Jonas Söderströms intressanta Skickliggöra där han och andra spårar ett ord och dess användande.

Men även om det är frågan om ett enda ord, är det svårt att veta hur många förekomster som är många eller få och som faktiskt stödjer en eller annan tes om något mer än att ordet faktiskt finns på google.

Det kan vara intressant och relevant att göra jämförande analyser, antingen mellan olika ord vid en viss tidpunkt, ett och samma ords utvecklings över tiden eller en kombination av dessa. För några exempel se Veckodagsnamn på google, Veckodagsnamn på google - återkomsten, Talfördelning på google - varför är det så ont om 52?, What's Your Google Number. Den exakta vetenskapliga nyttan med dessa undersökningar är för övrigt inte heller klar.

Man kan kanske jämföra med Diaconis teori om coincidences, se t.ex. Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'. Teorin förklarar bland annat varför vi tycker oss se samband där det egentligen endast är en fråga om en naturlig och slumpmässig företeelse. Detta har två relevanser för den aktuella diskussionen: För det första att någon tycker sig se samband på formen "begreppet X används mycket nu, se bara hur många träffar som finns på google". För det andra kan och bör man ifrågasätta påståendet i den här anteckningen att sådana påståenden om samband förekommer ofta eller är många.

Det borde finnas - eller annars skapas - en mer formell statistisk modell kring bevisvärdet av sökmotorsökningar.


Language Log finns kommentarer kring google som språkkorpus. Se t.ex. Google-sampling: avoiding pseudo-text in cyberspace.Jag har även sett ganska avancerade google-jämförelser, men hittar inte dessa just nu.

Se även Lies, Damned Lies, and Google (funnen via kommentarerna till Eriks ovan nämnda blogganteckning).

Posted by hakank at juni 1, 2004 08:00 EM Posted to Sökmotorer