« Infontology: Uppdaterad programförklaring | Main | Steven Strogatz: The physics of crowds »
mars 29, 2004
Statistisk data snooping - att leta efter sammanträffanden
Denna anteckning beskriver och ger lite exempel på data snooping - "datasnokning". Efter en inledande begreppsutredning beskrivs ett par tekniska papers, varefter det blir mer lite mer lättsmält material, inklusive ett program att själv leka med.
Data snooping vs annat
"Data snooping" används för att beteckna olika typer av företeelser. Det finns en betydelse som refererar till en form av dataintrång där någon otillbörligt försöker att få reda på andra användares data; det är verkligen inte denna betydelse som avses här.
En något subtilare betydelseskillnad är till data mining. Data mining är explorativ ("datagrävande") till sin natur, men har metoder anpassade för att avgöra om t.ex. ett beslutsträd eller artificiellt neuralt nätverk verkar att ge lovande resultat.
Data snooping är - å andra sidan - den mer tvivelaktiga metoden att först leta reda på intressanta samband i en datamängd för att t.ex. sedan skriva en vetenskaplig rapport med "statistiska förtecken" som om denna inledande grävning inte gjorts. Problemet med data snooping är att detta letande gör att de traditionella statistiska analyserna, t.ex. signifikansvärde, inte längre gäller.
Super Bowl
Patric Burns Permuting Super Bowl Theory (PDF) analyserar den populära teorin att det finns en koppling mellan utgången av den amerikanska högtiden Super Bowl (amerikansk fotboll, alltså) och börsen.
Abstract:
The quality of stock market predictions based on the winner of the Super Bowl is examined using permutation tests. These tests are very easy to perform in modern computing environments like the R language. One key point that comes to light is that the success rate of a prediction is not a good measure of its usefulness. Statistically signi cant success in prediction does not automatically lead to economically profitable strategies.
På R for the Super Bowl finns R-kod (R som i www.r-project.org) för att själv köra exemplen.
Ovanstående paper refererar till två mycket tekniska papers skrivna av bl.a.
Halbert White:
Halbert White: A reality check for data snooping (PDF, ~6Mb)
R. Sullivan, A. Timmermann, and H. White: Data Snooping, Technical Trading Rule Performance, and the Bootstrap (PDF, ~6Mb)
(Av sanningivrande skäl bör noteras att dessa två papers endast har bläddrats i.)
Fler skrifter
Timothy Falcon Crack A Classic Case of "Data Snooping" for Classroom Discussion (PDF)
Abstract:
Data snooping (mistaking spurious statistical relationships for genuine ones) is an important and dangerous by-product of financial analysis. However, data snooping is a difficult concept to explain to students of financial economics because, by its very nature, it is difficult to illustrate by example (a strong statistical relationship between complex financial variables is difficult to refute). To overcome this pedagogical difficulty, I present an example of data snooping where one variable is non-financial: I show that near both new moon and full moon, stock market volatility is higher and stock market returns are lower than away from the new or full moon. The simple and off-beat nature of this example enables substantial classroom discussion.
David Jensen Data Snooping, Dredging and Fishing: The Dark Side of Data Mining, SIGKDD 1999.
Beskriver en paneldiskussion hållen 1999 om data snooping-liknande problem inom data mining. I sista avsnittet föreslås några lösningar på dessa problem.
Mer lättillgängliga skrifter
Så kommer vi till några mer lättillgängliga skrifter.
Bibelkoden
I David Jensens paper nämns som ett exempel på data snooping den teknik som används i bibelkoden (Bible codes) för att "hitta" dolda religiösa "budskap" i Bibeln. Denna teknik kan dock användas för att "hitta" vad som helst i vilken skrift som helst, t.ex. Tolstoys Krig och Fred, Moby Dick eller Microsofts licensöverenskommelse.
För mer i detta ämne se Scientific Refutation of the Bible Codes skriven bl.a. av Brendan McKay samt Skeptical Inquirer-artikeln Hidden Messages and The Bible Code. Sajten Are there Mathematical Miracles in the Qur'an or the Bible? har en omfångsrik samling av liknande forskningar.
Man kan också notera (som tidigare gjorts) att ordet hakank finns i π (pi).
666 och programmet Devil's word
I David A. Gershaw: Is It Just a Coincidence? står bland annat:
Another example [of using coincidences to prove a point] is using any combination of the number "666" to indicate that someone is the Beast of Revelation. Some said that our ex-president, Ronald Wilson Reagan, was the Beast. Why? Each of his names has six letters, therefore "666". However, if you look long enough, you can probably find some arrangement of 666 with almost anyone.
1996 skrev Matthew Hunt och Masto Christopher i Usenet-gruppen comp.lang.perl två Perl-program (antichrist.pl) som gör just detta. Källkoden samt några exempel finns här . Programmet tar ASCII-värdet av en sträng och söker efter en kombination av additioner och subtraktioner över dessa tal för att få fram talet 666, vilket lyckas för många strängar. Många ord har flera kombinationer som uppfyller villkoret, men programmet visar endast den första.
Det finns en nyskriven och webbanpassad version av programmet: Devil's word. För tillfället finns en stygg maxgräns på 20 tecken, som eventuellt senare kommer att justeras.
Exempel på en sådan körning på namnet håkan kjellerstrand:
Checking 'håkan kjellerstrand'....
Character ASCII value
h 104
å 229
k 107
a 97
n 110
32
k 107
j 106
e 101
l 108
l 108
e 101
r 114
s 115
t 116
r 114
a 97
n 110
d 100
+104+229+107+97+110-32+107-106+101+108-108+101-114-115-116-114+97+110+100 = 666
Coincidence? I think not!
Se även
Of birthdays and clusters och The extreme value fallacy från Number Watch som båda behandlar olika typer av data snooping. Dessa samt några andra artiklar kommenteras i blogganteckningen Matematiska och statistiska "självklarheter".
Uppdatering
En uppdaterad version av programmet beskrivs i Uppdatering: Devils' word (sammanträffanden i ord).
Posted by hakank at mars 29, 2004 10:32 FM Posted to Sammanträffanden | Statistik/data-analys
Comments
Bill Gates är ett givet mål. Om du inte snubblat på dem tidigare:
http://urbanlegends.about.com/library/blgates2.htm
http://www.tftb.com/deify/IsBillGates.htm
Folk är inte kloka. :-)
Mvh,
/Lars.
Posted by: Lars Olofsson at mars 30, 2004 01:35 EM
Lysande, Lars!
En annan kreativ verksamhet att skapa sammanträffanden är sedelvikning:
Posted by: Håkan Kjellerstrand at mars 30, 2004 02:30 EM