juli 03, 2007
Några videoföreläsningar om statistik, sannolikhet och data mining
Semester och det blir naturligtvis lite "hängmatte", t.ex. i form av videoföreläsningar.
Så här är några föreläsningar att förgylla sommaren med:
Davis Mease: Statistical Aspects of Data Mining
David Mease om "Statistical Aspects of Data Mining" med R (www.r-project.org) och Excel. Mease har detta även som en "riktig" (IRL inte bara URL) kurs med kurssajten www.stats202.com. Det är lugnt tempo som går igenom grunderna i både teori och verktyg.
Statistical Aspects of Data Mining (Stats 202) Day 1
Statistical Aspects of Data Mining (Stats 202) Day 2
I skrivande stund har endast publicerats ovanstående två föreläsningar. Efterkommande borde dyka upp via denna sökning på video.google.com .
Kursbok är Tan, Steinbach, Kumar: Introduction To Data Mining (ej läst).
Peter Donnelly: How juries get fooled by statistics
Peter Donnelly How juries get fooled by statistics. Visar flera av våra ointuitioner som finns inom området, ofta underhållare på ett traditionellt brittiskt-Grants sätt. Finns även på TEDTalks här.
Beskrivning:
Oxford mathematician Peter Donnelly explores the common mistakes we make in interpreting statistics, and the devastating impact these errors can have on the outcome of criminal trials. Statistical uncertainty and randomness, he says, confound many of our assumptions about the world. He shares the case of a British woman wrongly convicted of murdering her two infants -- a verdict reached, in part, by the misuse of statistics.
[För den som vill läsa mer t.ex. om det där mynt-experimentet finns en relativt djupgående redogörelse i Anirban DasGupta: Sequences, Patterns and Coincidences (PDF).]
Brian Brushwood: Scams, Sasquatch, and the Supernatural
Brian Brushwood Scams, Sasquatch, and the Supernatural. Är mest om debunkning av olika typer av pseudo-vetenskap, men innehåller en akt om sannolikheter (sammanträffanden). Underhållande och med högt tempo.
Ever wonder how those guys on TV seem to talk to the dead? What about ESP and psychic surgery? How do street scams and cons work? Want to ... all » know how YOU can trick your friends into believing you have psychic powers?As a magician, Brian’s wise to all the tricks used by frauds, tricksters, and con artists …and now he’s ready to take YOU to scam school. This is no ordinary lecture: we’re talking hands-on experiments, a live performance of psychic surgery, free giveaways of cash and prizes, and all the secrets TV psychics DON’T want you to know.
Topics covered include: scams, cons, ESP, UFOs, skeptic, skepticism, dowsing, astrology, memory, alternative medicine, psychic surgery, pseudoscience, coincidence, and crop circles.
Relaterat
Persi Diaconis On Coincidence (som jag iofs skrev om för några år sedan men rekommenderar gärna igen).
Talks Hans Rosling: New insights on poverty and life around the world
Talks Hans Rosling: Debunking third-world myths with the best stats you've ever seen
En kul semesterövning är att analysera lottodata från det sydafrikanska lotteriet. Se vidare bloggen Freakonomics: Is the South African Lottery Rigged? A Hands-On Exercise for Bored Blog Readers.
Uppdatering
Äh, jag glömde ju Scott McClouds grafiska novella The Right Number:
The Right Number is a projected three part online graphic novella about math, sex, obsession and phone numbers presented in an unusual zooming format. Click above to read Parts One and Two. (Part Three will hopefully be completed and available before too long.)
(Not: Serien är skriven 2003 så frågan är om det kommer en tredje del. De två första delarna är dock ganska självständiga. Via EconLog.)
(Avslutningsvis - men egentligen helt orelaterat till ovanstående - kan noteras att det för några veckor sedan var 4-årsdagen av denna bloggs födelse, som inträffade helt utan några virtuella tårterier. Referens till tidigare bemärkelseskriverier finns i förra årets 3-årsdag samt en drapa om varför bloggar bör ses som mer än en dagbok.)
Posted by hakank at 10:56 FM Posted to Sammanträffanden | Statistik/data-analys | Video podcasts
januari 23, 2007
Magiskt tänkande
New York Times-artikeln Do You Believe in Magic? handlar om "magisk tänkande", såsom att tro att saker/händelser hör ihop som inte hör ihop, t.ex. vidskepelse och övertolkning av sammanträffanden.
Psychologists and anthropologists have typically turned to faith healers, tribal cultures or New Age spiritualists to study the underpinnings of belief in superstition or magical powers. Yet they could just as well have examined their own neighbors, lab assistants or even some fellow scientists. New research demonstrates that habits of so-called magical thinking — the belief, for instance, that wishing harm on a loathed colleague or relative might make him sick — are far more common than people acknowledge.These habits have little to do with religious faith, which is much more complex because it involves large questions of morality, community and history. But magical thinking underlies a vast, often unseen universe of small rituals that accompany people through every waking hour of a day.
Vidare i artikeln.
“The question is why do people create this illusion of magical power?” said the lead author, Emily Pronin, an assistant professor of psychology and public affairs at Princeton. “I think in part it’s because we are constantly exposed to our own thoughts, they are most salient to us” — and thus we are likely to overestimate their connection to outside events.
Via Mind Hacks, som även länkar till The Psychologist-artikeln The Psychologist">Magical thinking - Reality or illusion? (är sönder i skrivande stund).
Se även
Wikipedia-artikeln Magical Thinking.
Emily Pronin och dennes publikationer
Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition'
Posted by hakank at 09:55 EM Posted to Sammanträffanden | Skepticism, parapsykologi etc
juli 19, 2006
Folkvett och andra skeptiska skrifter
Upptäckte att den svenska skeptiska tidskriften Folkvett, utgiven av föreningen Vetenskap och Folkbildning, har scannat alla sina gamla nummer. Kul! Det finns ett tematiskt index (PDF, 20 sidor) för artiklar skrivna mellan 1991 och 2005.
Där finns bland annat ett nummer som jag letat efter länge: Sammanträffanden och upprepbarhet (1-2/1986, PDF) som innehåller en sammanfattning av Persi Diaconis berömda föreläsning "On Coincidences". Det verkar vara i stort sett samma som föreläsningen från 1998 som jag skrev om i Persi Diaconis videoföreläsning "On Coincidences" (1998).
Man kan notera att det är Jonas Söderström (of Blind Höna fame) som var chefredaktör och skribent i detta och flera efterföljande nummer. Något som Jonas själv kommenterade i Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism i anslutning till just DIaconis föreläsning.
Från Folkvett - Aktuellt-sidan:
Nummer 3/2006 beräknas få temat trolleri och falska medier.
Bli medlem i Vetenskap och Folkbildning!
Se även folkvett.
Relaterade skrifter och annat
Håller just på att läsa boken Beyond Coincidence: Stories of Amazing Coincidences and the Mystery and Mathematics That Lie Behind Them av Martin Plimmer och Brian King (ISBN: 1840466189). De första 100 sidorna diskutera varför vi fascineras av sammanträffanden med exempel från både verkliga livet, litteraturen och andra verksamheter. Författarna har i huvudsakligen en skeptisk inställning till ämnet (ibland blir man dock osäker på deras hållning). Den senare delen av boken är i stort sett en uppräkning av en mängd märkliga sammanträffanden.
För mer om sammanträffanden, se kategorin Sammanträffanden.
James Randi-videos på google video: James Randi in the 80's eller 60 Minutes-program om Randi och dennes strid mot Uri Geller. I slutet intervjuas den unge Steve Shaw (senare Banachek) om sin roll i Project Alpha, där Shaw och Michael Edwards testades av fysiker för sina "paranormala krafter" som i själva verket var tricks av diverse slag.
För den som vill läsa mer om Randi/Geller-kontroversen bör läsa Randis avslöjande bok The Truth About Uri Geller (ISBN: 0879751991).
Carlos and James Randi är ett annat sevärt TV-program.
Randis Lecture at Princeton 2001 - "The Search for the Chimera" (som även skrevs om i James Randi-föreläsning "The Search for the Chimera" (2001)).
James Randi debunking on Tonight Show
Via Randis nyhetsbrev .
Se även James Randi - Multimedia.
Podcast: Point of Inquiry: The Radio show and podcast of The Center for Inquiry
Andra bloggar om: skepticism, james randi, sammanträffanden, folkvett, vetenskap och folkbildning, uri geller, banachek.
Posted by hakank at 09:51 FM Posted to Sammanträffanden | Skepticism, parapsykologi etc | Comments (3)
september 09, 2005
New Scientist: Spelare tenderar att vara mer vidskepliga än icke-spelare
New Scientist-artikeln Gamblers are a superstitious bunch berättar om en undersökning kring spelares (specifikt bingospelare) vidskepelse. Denna visar att (bingo)spelare tenderar vara mer vidskepliga än icke-spelare.
Gamblers are significantly more superstitious and place more importance on so-called "lucky events" than the larger population, according to new research.Over 80% of UK bingo players surveyed were generally superstitious - some attributing lucky seats, lucky friends and lucky nights of the week to gambling success.
Just one-third of the larger UK population are thought to be superstitious - the most commonly reported behaviours being: avoiding walking under ladders, touching wood for good luck and throwing salt over shoulders.
Superstition is a belief that a given action can bring good luck or bad luck even when there are no rational grounds for that belief, explains Mark Griffiths, professor of gambling studies at Nottingham Trent University, UK.
Sagde Mark Griffiths och Carolyn Bingham har skrivit om detta i A study of superstitious beliefs among bingo players (PDF). Artikeln publicerades i Journal of Gamling Issues.
Orsakssamband mellan spel och vidskepelse
Man kan fråga sig om orsakssambandet mellan spelande och vidskepelse: Blir man lättare en spelare om man är vidskepligt lagd eller tenderar spelandet att skapa ett vidskepligt beteende?
Själv vet jag inte (och jag är varken speciellt vidskeplig eller spelare). En intution kring detta är att spelande troligen förstärker vidskepelse, speciellt om man inte riktigt har koll på hur märklig slumpen kan te sig och läser in samband där samband inte finns. Några vanliga sådana felslut är "spelarens felslut" (se t.ex. gambler's fallacy från skepdic och Gambler's Fallacy från eng. wikipedia), och att se kluster där sådana inte finns: Clustering illusion, eng. wikipedia).
Se även Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition' som recenserar en utmärkt bok om vidskepelse. Vyse skriver bl.a. även att arbeten där slump eller osäkerhet av olika slag spelar stor roll, tenderar att skapa vidskepelse, såsom skådespelare, utövare av sport etc. (Tenderar spelare på börsen att vara vidskepliga?)
Kategorin Sammanträffanden innehåller bloggningar om näraliggande ämnen.
Posted by hakank at 06:56 FM Posted to Diverse vetenskap | Sammanträffanden | Comments (3)
augusti 29, 2005
Kortsamlarproblemet (coupon collector problem) i mindre och isolerade nätverk med fullständigt utbyte av kort
Introduktion
När jag var liten samlade jag en hel del på samlarkort, t.ex. flaggor, ishockey-/fotbollsspelare etc. Det var alltså sådana kort där man köpte osett, ett eller flera kort i en påse (med eventuellt medföljande tuggummi eller annat godis) och sedan antingen köpte man nya eller bytte man till sig de kort man inte hade. Den stora poängen var naturligtvis att få hela serien komplett. (Det fanns säkert en fin social poäng i att träffas och byta sådana kort, men sådana finesser uppfattade man nog inte i denna ålder, typ kring 10+ år.)
Speciellt för flaggorna kommer jag ihåg att det fanns vissa kort som var väldigt svåra att få tag på (var det Mexiko med nummer 104, eller kanske var det Kenya?). Om jag nu kommer ihåg detta korrekt var det några få lyckostar som fått detta kort och vi andra dräglade djupt över dessa rara kort.
Kortsamlarproblemet (coupon collector problem)
Det finns ett klassiskt problem inom statistiken/sannolikhetsläran som handlar om detta: kortsamlarproblemet (coupon collector problem, dvs kupongsamlarproblemet) där man studerar hur många kort man behöver köpa i genomsnitt (eller för en viss säkerhetsgrad) på att få samtliga kort i en sådan samlarserie. Det visar sig att det är ointuitivt många: För att få tag i samtliga kort i en serie av 100 kort behöver man i medeltal köpa 519 kort. (Enkel formel för detta : 100*sum(1/(1:100)) ~ 519, där 100 i formeln är just antal unika kort i samlarserien.)
Men detta antal fluktuerar naturligtvis: för att vara säker till 95% att få tag i samtliga kort krävs 791 inköpta kort. Se även min Simuleringssida för lite mer om detta; sök på "samlarkortproblemet ".
Man kan notera att ovanstående beräkningar endast gäller för en person som ensam inhandlar kort. Om man tillåter byte av kort är det en annan sak, och det är precis det som det följande kommer att handla om.
Samlarkortproblemet i ett isolerat nätverk med fullständigt utbyte
För ett tag sedan hade jag en diskussion med en kompis om detta. Denne - som vi kan kalla för E - hävdade att företagen troligen inte tillverkar lika många av varje kort, just för att få oss att köpa fler kort för att få tag i samtliga.
Denna konspirationsteori är möjligen korrekt, men jag började undra om denna effekt kunde uppstå även om företaget tillverkade lika många exemplar av alla kort, och att det vi råkat ut för var en "klustereffekt", dvs att de kort som vi i vårt lilla nätverk var en slumpmässigt urval med de traditionella egenskaperna hos sådana urval.
E antog att företagen som skapar korten alltså tillverkar vissa kort i färre upplagor, säg att de färsta (sic!) är en tiondel av de som tillverkas mest. Min utgångspunkt var att denna effekt skulle kunna vara subjektiv enligt "regeln" att om man slumpmässigt drar ett antal olikfärgade kulor från en påse med lika fördelning så är det mycket stor sannolikhet att något antal är färre än de övriga och att det finns en färg som dras fler gånger.
Detta är något man kan testa med en simulering. Vilket har gjorts.
Sammanfattning
Som vi kommer att se uppstår faktiskt denna typ av effekt (E-effekt) om det totalt köps in ett mindre antal samlarkort. För 700 inköpta kort blir förhållandet mellan minst antal kort och flest antal kort rätt exakt 1/10.
Här nedan kommer även andra saker att visas, t.ex. denna effekt hos Lotto-dragna nummer, där samma förhållande är 1/2, vilket även uppstår i en simulering. Kanske inte så remarkabelt men intressant.
Lokalt nätverk med fullständigt utbyte av samlarkort
Först en sak om nätverket. Den modell som vi här arbetar med innebär att det finns en mindre grupp, säg ett 10-tal personer, som har fritt utbyte av samlarkort inom gruppen men inte har något som helst kort-utbyte med några externa personer eller andra nätverk. Denna fullständiga isolering av inköpen gör modellen enkel att simulera.
(Man skulle även kunna studera komplexa nätverks-effekter kring detta, dvs att någon i Husieskolans krets känner någon i Stockholm och byter till sig de i Husie-kretsens ovanliga kort. Ju fler sådana svaga länkar mellan olika (inte helt isolerade) nätverk det finns, desto större blir naturligtvis den totala kretsen vilket leder till att denna lokala nätverkseffekt vi talar om här blir mindre.)
Modell och simulering
Tänk nu följande som översättning av samlarkortproblemet i ett lokalt nätverk till slumpmässig dragning av heltal i ett intervall.
En grundläggande förutsättning är att det faktiskt skapas exakt lika många kort, och att man globalt har lika stor chans att köpa alla kort, men vi studerar endast en mindre krets (nätverk) av personer som får tillgång till ett urval av dessa, t.ex. där tobakaffärens och den där kioskens urval.
Låt oss för enkelhetens skull anta att samlarkortserien har 100 olika kort. Dessa 100 olika korten motsvaras i simuleringen då av de första 100 positiva heltalen (1..100 alltså). Ett inköp av ett kort motsvarar att man slumpmässigt drar ett tal inom detta intervall, där alla tal har lika stor chans att dras. Detta görs s.a.s. med återläggning, så att ett tal har möjlighet att dragas igen.
Man drar slumpmässigt n stycken sådana tal, vilket alltså motsvarar inköp av n stycken samlarkort.
Efter det beslutade antalet "kort" (tal) är dragna, kontrolleras fördelningen bland dessa kort. Här jämför man antalet kort som kommit upp med minst antal och de som kommit med flest antal. Om ss är listan över de dragna talens fördelning är det sökta värdet alltså: min(ss)/max(ss), det som nedan kallas för min/max-förhållandet.
Vi behöver inte förutsätta något om hur stor gruppen är eller hur många kort en specifik deltagare införskaffar. Vi kommer senare se hur många fullständiga serier ett visst antal inköpta kort tenderar att generera, och man kan alltså anpassa antalet kort som (i medeltal) behöver köpas in för att få fullständiga serier.
Frågeställningen och hypotesen
Låt oss alltså se hur fördelningen mellan minimi-antalet kort och maximi-antalet kort utvecklas med det totala antal kort som inköpes.
Frågeställningen: Vad är förhållandet mellan min/max om det totalt köps in num.bought stycken kort av num.cards möjliga?
Hypotes: Om man slumpmässigt kommer fram till sådana min/max-förhållande på säg 1/10 eller något liknande har vi inget statistiskt stöd för E:s konspirationsteori.
Här följer R-koden som använts för simuleringen, som helt enkelt drar num.bought stycken tal ur intervallet 1..num.cards och returnerar fördelningen av de dragna talen (dvs hur många 1:or som dragits, hur många 2:or etc). Man kan här också notera hur enkelt denna simulering är. Det beror på att vi gjort det enkelt för oss och förutsatt att det fullständigt och fritt utbyte i detta isolerade nätverk.
collector.group.sim <- function(num.cards=100, num.bought=10000) {
ss <- rep(0,num.cards);
for (i in 1:num.bought) {
s <- sample(1:num.cards,1);
ss[s] <- ss[s] + 1;
}
ss
}
Exempel:
Om vi nu antar att det är 100 olika kort och 10 personer som samlar, samt att dessa vardera köper respektive 200 kort, inalles 10*200 = 2000 kort. En sådan simulering ser ut så här (sorterad lista eftersom vi inte behöver bry oss om de specifika talen/korten som dragits):
> ss<-collector.group.sim(100, 10*200);sort(ss);min(ss);max(ss);min(ss)/max(ss)
[1] 10 11 12 12 12 13 14 14 14 15 15 15 16 16 16 16 16 16 17 17 17 17 17 17 17
[26] 17 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 19 19 19 20 20 20 20
[51] 20 20 20 20 20 20 20 20 20 20 20 20 21 21 21 21 21 21 21 21 21 22 22 22 22
[76] 22 22 23 23 23 23 24 24 25 25 25 25 25 25 26 26 26 27 27 27 27 28 28 33 33
[1] 10
[1] 33
[1] 0.3030303
> 10*200
[1] 2000
Här kan vi alltså se att det minsta antalet dragna tal/kort är 10, dvs min(ss)
, och max är 33. Förhållandet mellan dessa min(ss)/max(ss) är 10/33 ~ 0.3
. Redan enna enkla simulering (detta nätverk) ger en känsla av att vissa kort är ovanligare än varandra, och förhållandet mellan de ovanligaste och de vanligaste är 10 på 33.
Personligen tycker jag detta är emot intuitionen: efter en slumpmässig dragning har vi ett min/max-förhållande på så stort som 0.3.
Om vi istället säger att man tillsammans endast köper 519 kort (dvs så många som det i genomsnitt krävs för att en person ska få en komplett serie) får vi några intressanta resultat. Notera att även här är det endast en enda körning, för att få en känsla för datan.
> ss<-collector.group.sim(100, 519);sort(ss);min(ss);max(ss);min(ss)/max(ss)
[1] 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4
[26] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5
[51] 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6
[76] 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 9 10 10 11 12 13
[1] 1
[1] 13
[1] 0.07692308
Här kan till exempel följande noteras:
* min/max-förhållandet är värre än E:s föreslags 1/10, nämligen 1/13 (0.077)
* det minsta talet är 1 vilket innebär att det finns kort för en fullständig serie. (Fullständiga serier kommer att studeras mer här nedan.)
Vi gör nu en mer statistisk korrekt simulering med 100 sådana här simuleringar och tar medelvärdet för min/max-förhållandet:
> mean(replicate(1000,{ss<-collector.group.sim(100, 519);min(ss)/max(ss)}))
[1] 0.05141527
min/max-talet 0.05 (~ 1/20)
stödjer ovanstående känsla att det är värre min/max-förhålllande än E:s 1/10.
Men det är kanske inte så realistiskt att en grupp tillsammans köper endast 519 kort? Låt oss nu titta på hur min/max-förhållandet påverkas av antalet inköpta kort.
Tabell över (medelvärde) av min/max-förhållandet för olika antal kortinköp
Om vi nu studerar medelvärdet av min/max för olika antal kortinköp får man följande tabell.
Från 100 inköp till 3000
> sapply(1:30, function(n) rbind(n*100, mean(replicate(100,{ss<-collector.group.sim(100, n*100);min(ss)/max(ss)})) ))
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 100 200 300 400.00000000 500.00000000 600.00000000 700.0000000
[2,] 0 0 0 0.01154701 0.04447036 0.07848971 0.1029102
[,8] [,9] [,10] [,11] [,12]
[1,] 800.0000000 900.0000000 1000.0000000 1100.0000000 1200.0000000
[2,] 0.1298539 0.1475774 0.1695608 0.1864951 0.1996583
[,13] [,14] [,15] [,16] [,17]
[1,] 1300.0000000 1400.0000000 1500.0000000 1600.0000000 1700.0000000
[2,] 0.2132364 0.2434604 0.2501553 0.2677531 0.2798811
[,18] [,19] [,20] [,21] [,22]
[1,] 1800.0000000 1900.0000000 2000.0000000 2100.0000000 2200.0000000
[2,] 0.2819174 0.2909844 0.3101849 0.3119899 0.3260513
[,23] [,24] [,25] [,26] [,27]
[1,] 2300.0000000 2400.0000000 2500.0000000 2600.0000000 2700.0000000
[2,] 0.3373065 0.3520848 0.3504074 0.3622678 0.3721507
[,28] [,29] [,30]
[1,] 2800.0000000 2900.0000000 3000.00000
[2,] 0.3841707 0.3844286 0.38901
Här kan man se att gränsen för 1/10 i förhållande mellan min och max är cirka 700 inköp. Detta motsvarar en liten grupp på 7 personer som köper vardera 100 kort, eller 4 personer som köper 175 kort osv. Jag tycker att det låter rätt lite, men å andra sidan var E:s 1/10 taget ur luften.
Om vi tar lite större steg: mellan 1000 till 30000 inköp:
> sapply(1:30, function(n) rbind(n*1000, mean(replicate(100,{ss<-collector.group.sim(100, n*1000);min(ss)/max(ss)})) ))
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 1000.0000000 2000.0000000 3000.0000000 4000.0000000 5000.0000000 6000.0000000
[2,] 0.1684101 0.3033053 0.3869192 0.4466518 0.4883167 0.5158891
[,7] [,8] [,9] [,10] [,11] [,12]
[1,] 7000.0000000 8000.0000000 9000.0000000 10000.0000000 11000.0000000 12000.0000000
[2,] 0.5387887 0.5611546 0.5857873 0.6023973 0.6199602 0.6338816
[,13] [,14] [,15] [,16] [,17]
[1,] 13000.0000000 14000.0000000 15000.0000000 16000.000000 17000.0000000
[2,] 0.6371665 0.6508695 0.6613642 0.665185 0.6797338
[,18] [,19] [,20] [,21] [,22]
[1,] 18000.0000000 19000.0000000 20000.0000000 21000.0000000 22000.0000000
[2,] 0.6845181 0.6965812 0.6978221 0.7095483 0.7138271
[,23] [,24] [,25] [,26] [,27]
[1,] 23000.0000000 24000.0000000 25000.0000000 26000.000000 27000.0000000
[2,] 0.7187094 0.7274481 0.7267149 0.733775 0.7309658
[,28] [,29] [,30]
[1,] 28000.0000000 29000.0000000 30000.0000000
[2,] 0.7380007 0.7450008 0.7422353
Exempel: I vårt lilla samlarkortnätverk var vi väl 10 stycken och köpte kanske 150
kort per person, dvs total 10*150 = 1500 inhandlade kort. I tabellen ser man att
förhållandet mellan antalet färst kort och antalet flest kort är 0.25 (1/4), vilket
troligen skulle kunna uppfattas som den E-effekt vi talade om i början.
Ännu större inköp som tar riktigt lång tid att simulera: för 100000 inköpta kort blir medelvärdet av min/max cirka 0.85 (0.8506242). För en miljon inköp är det 0.9512054.
Vi ser alltså att min/max-förhållandet tenderar att utjämnas då antalet inköp ökar, vilket är vad man kan förvänta sig enligt de stora talens lag.
Fullständiga serier i nätverket
Ser man på minimivärderna för dessa får man antalet (genomsnittligt uppkomna) fullständiga serier i nätverket. Detta förutsätter alltså att alla i nätverket byter rakt av och inte är snikna eller har orealistiska byt-krav.
> sapply(1:30, function(n) rbind(n*1000, mean(replicate(100,{ss<-collector.group.sim(100, n*1000);min(ss)})) ))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
[1,] 1000.00 2000.00 3000.00 4000.00 5000.0 6000.0 7000.00 8000.00 9000.00
[2,] 3.08 9.71 17.08 24.98 33.2 41.2 49.87 59.03 66.67
[,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17]
[1,] 10000.00 11000.00 12000 13000.00 14000.00 15000.00 16000.00 17000.00
[2,] 76.01 84.79 94 102.37 111.52 120.41 128.45 138.62
[,18] [,19] [,20] [,21] [,22] [,23] [,24] [,25]
[1,] 18000.00 19000.00 20000.00 21000.00 22000.0 23000.00 24000.00 25000.00
[2,] 147.44 156.05 165.46 173.09 184.5 192.92 202.72 212.33
[,26] [,27] [,28] [,29] [,30]
[1,] 26000.00 27000.00 28000.00 29000.00 30000.00
[2,] 220.74 229.74 238.11 248.47 257.23
Dvs om 3 (3.08 i tabellen ovan) personer tillsammans köper 1000 kort får de (i medelvärde) alla får en fullständig serie. På samma sätt om 9 (9.71) personer köper 2000 kort, 17 (17.08) köper 3000 kort så bör de i genomsnitt få fullständiga serier. Osv.
Fokuserar här in på 100 .. 3000 kortinköp:
> sapply(1:30, function(n) rbind(n*100, mean(replicate(100,{ss<-collector.group.sim(100, n*100);min(ss)})) ))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11]
[1,] 100 200 300 400.00 500.00 600.00 700.00 800.00 900.0 1000.00 1100.00
[2,] 0 0 0 0.13 0.57 1.05 1.48 1.97 2.5 3.17 3.69
[,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20] [,21]
[1,] 1200.00 1300.00 1400.00 1500.0 1600.0 1700.00 1800.0 1900 2000.00 2100.00
[2,] 4.44 4.99 5.63 6.1 7.3 7.97 8.3 9 9.91 10.41
[,22] [,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30]
[1,] 2200.00 2300.00 2400.00 2500.00 2600.00 2700.00 2800.00 2900.00 3000.00
[2,] 11.17 11.95 12.79 13.53 13.93 15.09 15.85 16.16 17.21
Här ser vi också en-person-problemet: för 600 inköp är det drygt en person som får en full serie, det "exakta" väntevärdet är alltså 519.
Några noteringar
Lite av det vi set ovan:
* Om det är få inköps (säg < 700) får man alltså den 1/10-effekt som både E och jag upplevde i våra respektive barndomar. Det behövs alltså inte någon konspirationsteori för att förklara detta. (Naturligtvis kan detta kombineras med att kort-företaget faktiskt gjorde denna 1/10-tillverkning, men dessa experiment stödjer alltså inte detta.)
* Nätverkets storlek, dvs antalet personer som ingår i det, är inte viktig i denna modell, utan det som är avgörande är hur många kort man tillsammans köper. Det kan vara en person som köper 10000 och de andra 100 stycken, och tillsammans har de alltså 10000+ 10*(N-1) kort vilka sedan kan bytas hur som helst.
Samt en sista notering:
För 519 inköp i ett utbytesnätverk blir det igenomsnitt så här många fullständiga serier:
> table(replicate(1000,{ss<-collector.group.sim(100, 519);min(ss)}))/1000
0 1 2
0.409 0.563 0.028
Vilket är intressant eftersom det i 2.8% av fallen faktiskt skapas 2 stycken fullständiga serier (trist nog befann man sig aldrig i dessa nätverk :). 519 inköpta kort är, som sagt, det magiska medeltalet för att en person skulle få en fullständig serie.
Jämförelse: min/max-analys av svenska Lottodragningar
Här görs en motsvarande min/max-analys av svenska Lottodragningar. I går inhämtades fördelningen av senaste halvårets lottodragningar. (Värdena hämtas från Svenska Spel: klicka på den gröna Lotto-bilden/knappen, och i den uppkomna popuppen klicka på den gröna "Statistik"-knappen.)
Fördelningen av de 35 Lotto-talen är att det minst dragna talet har endast dragits 22 gånger (faktiskt två tal), och det mest dragna talet har dragits 44 gånger. En sorterad fördelning av talen ser ut så här:
> lotto2<-read.table("svensk_lotto2.dat",head=T, sep=",")
> sort(lotto2$dragna)
[1] 22 22 23 24 27 28 28 29 30 30 30 31 31 31 31 32 32 32 32 33 34 35 35 35 35
[26] 36 37 37 38 38 39 40 40 43 44
> sum(lotto2$dragna)
[1] 1144
> min(lotto2$dragna);max(lotto2$dragna)
[1] 22
[1] 44
> min(lotto2$dragna)/max(lotto2$dragna)
[1] 0.5
Det ger alltså ett min/max-förhållande på 22/44 = 0.5. Är det något lurt här? Låt oss ser hur en simulering beter sig. Det är alltså totalt 1144 dragna tal de senaste halvåret och det finns 35 tal, vilket - för att prata i samlarkortproblemets terminologi - motsvarar 35 "kort" och 1144 "inköpta kort"
En exempelkörning:
> sort(ss<-collector.group.sim(35, 1144))
[1] 22 22 22 24 24 26 27 27 28 29 29 29 31 31 32 32 32 33 33 33 33 34 34 35 36
[26] 37 39 39 39 40 41 42 43 43 43
> min(ss)
[1] 22
> max(ss)
[1] 43
> min(ss)/max(ss)
[1] 0.5116279
Medelvärdet för 100 sådana min/max-simuleringar är cirka 0.47, vilket är tillräckligt nära Lotto:s min/max-värde på 0.5 för att vi ska känna oss trygga att Lotto-dragningar inte är påtagligt konstiga.
> mean(replicate(100, {ss<-collector.group.sim(35, 1144);min(ss)/max(ss)}))
[1] 0.466839
Slutkomihåg
I en samling slumpmässiga dragningar som Lotto eller samlarkort är det alltid någon eller några bollar/kort/tal som slumpmässigt dras fler gånger än de övriga, liksom det är alltid någon eller några som dras färre gånger än de övriga.
Man kan förledas att tro att det är något signifikant (speciellt, konstigt, magiskt) med dessa olika extremvärdena, speciellt om det är ett mindre antal dragningar som studerats. Sådana felslut kallas för "The extreme value fallacy" (se nedan).
Se även
Extremvärdesanalys av webbesök, speciellt länken till Number Watch: The extreme value fallacy.
Födelsedagsparadoxen/födelsedagsproblemet: Se t.ex. Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences' (teknisk, men länkar i slutet till andra sidor) samt .
Födelsedagsproblemet kan kanske ses som ett komplement till samlarkortproblemet: I födeledagsproblemet studerar man hur många personer det minst måste vara för att två (eller fler) ska ha samma födelsedag. I samlarkortproblemet är det frågan om hur många personer det måste vara för att alla dagar på ett år ska ha åtminstone en person som har födelsedag på denna person: Enligt det klassiska samlarkortproblemet (för en person som själv samlar kort) är det 365*sum(1/(1:365)) ~ 2365.
En Java-simulering: Coupon Collector Problem, från den trevliga sajten Probability by Surprise.
Posted by hakank at 07:27 EM Posted to Matematik | Sammanträffanden | Statistik/data-analys | Comments (2)
juli 23, 2005
Annals of Improbable Research: Namntal (Name Number) för en profession
Även om jag just nu inte kan ge några bra exempel så är det inte helt sällan jag ser t.ex. i TV-intervjuer, eftertexter till filmer eller ute i allmänna livet, efternamn som får mig att fundera kring kopplingen mellan efternamn och yrke/profession/intressen. T.ex. en elektriker som heter Ström får väl en att börja undra, liksom en murare som heter Tegel.
I den excellenta tidskriften för otroliga forskningsresultat Annals of Improbable Research (AIR, Improbable Research är kanske mest kända för sitt Ig Nobel Prize) finns det att beläsa om s.k. Name Numbers (här nedan namnat "namntal") för en forskningsgren. Ett sådant namntal anger andelen personer inom en forskningsgren som har ett efternamn kopplat till denna forskningsgren.
Ursprungsartikeln för denna forskning skrevs av Kevin Krajik och var kring geologi i The "Name Number" for Geology, and for Other Professions, Annals of Improbable Research, vol. 11, no. 2, March/April 2005 (tyvärr ej funnen å lina och därför inte läst, men borde finnas här).
Den visade att namntalet för geologi är 1.35% (dvs att 1.35% av de som forskar inom geologi har namn som är kopplat till geologin). Emedan jag inte läst originalstudien får hänvisas till sekundär källa kring dess urval (från Astronomistudien, se referens nedan, och det är min alldeles egenhändigt befetade befetning):
Krajick calculated the Name Number for geology by dividing the number of geology-related surnames for those who presented papers at the 2003 meeting of the Geological Society of America by the total number of authorial surnames for that meeting. The geology Name Number presented in Krajick's study was 117 / 8639, or 0.0135432.
Namntalet för astronomi är 0.0027143 (0.27%), dvs betydligt lägre. Detta enligt Eric Schulman och Caroline V. Cox: The Name Number for Astronomy. Namntalsnamn här är Sun, Moon, Starr etc.
Det har även gjort en liknande studie kring statvetenskap, Richard Neimi (misspelled) The Name Number(s) for Political Science (PDF) som
... examined the 4,529 names (including those occurring more than once) appearing in the on-line index to the program for the 2005 national conference of the Midwest Political Science Association.
Författaren beskriver sedan flera namntalsvärden. Det första resultatet är 1.26% (vilket alltså är lägre än geologernas). Exempel på sådana namn: King, Prince, Good.
Sedan gör dock författaren en, enligt min mening, något farlig abrovink och antar att efternamn på amerikanska presidenter och andra statsmän är giltiga namntalskopplingar och kommer således upp i hela 2.08%. (Detta är - som metod betraktad - en farlig metod eftersom det räcker med att en eller ett fåtal presidenter har väldigt vanliga namn för att namntalet ska öka drastiskt och orättvist. Såvida man inte tillåter detta inom andra professioner också, t.ex. att fysiker som heter Newton, Pascal etc är namntalsnamn. Hmmm, dessa båda är faktiskt fysiska konstanter och borde vara namntalsnamn bara av det skälet. OK, vad med de som studerar filosofi och har samma namn som kända filosofer t.ex. Wittgenstein, Sarte och Marx? Nej, jag tycker inte att det borde vara tillåtet med endast efternamnkopplingar. Eller i alla fall att de i så fall indexeras på ett speciellt sätt såsom att räknas med en faktor f, t.ex. 1/3, eller sätts i en speciell kolumn till höger om de "riktiga" kopplingarna.)
Däremot gör författaren sedan några intressanta uppföljningsstudiefrågor vilket gör att man gärna och snart förlåter dennes abrovinklande:
Further study could look into the sub-specialties of the above-mentioned authors. Do Professors Washington, Adams, and so on study the presidency? Or at least American politics? Are Gandhi and Mao Indian and Chinese specialists, respectively? Do Wiseman, Goodman, Fair and Bliss study political philosophy? Do Power, Powers, and Guerra write about International Relations? From there, one could move on to consider whether persons take on any of the characteristics of the leaders (or kinds of leaders) whose names they bear. Are Law and Lawless opposites? Is Fair fair? And what should we expect from the Nixons? And, of course, one could see whether names and particular kinds of colleges and universities are linked. Are the Popes at Catholic institutions? Does Canon’s school have an ROTC program? These and many other fascinating questions await more detailed analyses.
Vänligen bemärk att AIR har en blogg: Improbable Research What's New -- News about research that first makes people LAUGH, and then makes them THINK. This is the official blog of the Ig Nobel Prizes and of the Annals of Improbable Research (AIR).
(Parentes 1: Det mesta ovan via just denna blogg, mer specifikt blogganteckningen Name number for political scientists.)
Slutfråga
För att avsluta med en slutfråga: När kommer den första svenska tillämpningen av denna nya forskningsgren? Och man skulle också kunna undra vilken typ av efternamn som ger namntalspoäng inom området.
En ännu sistare sak: Mitt efternamn, Kjellerstrand, har inga tydliga beståndsdelar som ger namntalspoäng i någon forskningsområde alls, vilket kanske skulle förklara en del eller annat. Några möjliga men åletade kopplingar: "Kjell" skulle kunna vara "källa" och kanske kunna kopplas till filosofi (sökande efter källan till vis(s)het) eller till vatten (jag dricker rätt mycket te), och "strand" kopplas till sand som vidare kopplas till att smula sönder saker (t.ex. namn) till dess minsta beståndsdelar, såsom just denna analys. Eller helt enkelt att jag är en lat person som tycker om att sitta vid en strand (läs: på balkongen eller i en park) och läsa en bok.
(Parentes 2: Den mer eller mindre vanligtvis observante läsaren kanske observerar kategoriseringen av denna anteckning till Sammanträffanden. Och det är ingen slump.)
Posted by hakank at 08:58 FM Posted to Sammanträffanden | Statistik/data-analys
juni 04, 2005
Lite om sammanträffanden och Ramseyteori (Ramsey theory)
En sak som jag tidigare tänkt skriva om i anslutning till sammanträffanden är Ramsey-teori, men det har inte blivit av tidigare. Här är en något bearbetad text som skrevs när jag höll på som mest kring detta (hösten 2003/våren 2004). Funderingarna aktualiserades genom uppdateringen av Devil's Word för en stund sedan.
Det började med en Skeptical Inquirer-artikel från 1998 Coincidences: Remarkable or Random? där Ramseyteorin nämns (min emfas):
Clearly, unspecified improbable coincidences occur daily to everyone, and these coincidences are most likely the result of randomness. If the data set is large enough, coincidences are sure to appear, as demonstrated with the first 100 decimal digits of p. The chance of tossing five straight heads is only 3 percent, but for 100 tosses the chance becomes 96 percent. Though applied in a different context, Ramsey theory (Scientific American, July 1990) states that "Every large set of numbers, points, or objects necessarily contains a highly regular pattern." It is not necessary to posit mysterious forces to explain coincidences.
Efter det har jag försökt hitta mer information om det finns mer direkt koppling mellan Ramseyteorin och studiet av sammanträffanden. Tyvärr är jag inte tillräckligt matematiskt insatt för att förstå finliren i de mer avancerade delarna av teorierna, och därför hänvisat i stort sett endast till populariserade skrifter (vilket ju är tillåtet för en PopSci-junkie, eller hur?).
Tyvärr har jag inte lyckats hitta den artikel som refereras i citatet ovan: Ramsey Theory av Ronald Graham och Joel Spencer. Scientific American, 1990, Juli-numret. 263 (1), sid 112-117. Har någon en elektronisk kopia till övers vore det önskvärt med en pek.
Not: Det finns andra "Ramseyteorier", bland annat i logisk analys och ekonomisk teori. Den Ramseyteori som är relevant för detta vidkommande är den matematiska, grafteoretiska. Intressant nog är det är samma Frank Ramsey som avses i alla.
Ramseyteoretikernas credo (eller en popularisering av denna) är "Complete disorder is impossible", dvs i varje samling av punkter finns det alltid någon struktur. En annan beskrivning är "studies the conditions under which order must appear" (min fetning). Båda dessa beskrivningar finns t.ex. i Wikipedia-artikeln Ramsey Theory.
Ramseys teori brukar presenteras genom att utgå från det s.k. party-problemet (se t.ex. Ivars Peterson Party Games) som frågar hur många personer det minst måste vara på en fest för att garantera att det ska finnas antingen tre eller flera personer som känner varandra eller tre eller flera personer som är obekanta.
Ett enklare exempel är följande: Tänk att vi har två par strumpor i en byrålåda, två par röda och två par blå. Hur många strumpor måste vi ta för att vara säkra på att få ett par av samma färg. Svar: tre strumpor.
Det intressanta här är att teorin säger att i en tillräcklig stor (matematisk) struktur kan man hitta vilken delstruktur som helst. Ett exempel som brukar nämnas är stjärnhimmeln och dess konstellationer: genom att rita linjer mellan de stjärnorna som syns på himmeln kan man i stort sett få fram vilken figur som helst. Detta är, så vitt jag vet, inte matematiskt bevisat, utan ska ses som ett exempel på vad Ramseyteorin säger.
Troligen är Ramseyteorin inte praktisk användbar för att räkna ut de faktiska värdena för så komplicerade sammanträffanden som "X och Y är födda på exakt samma dag och klockslag, deras föräldrar bodde grannar för länge sedan men flyttade till olika städer. X och Y gick på samma universitet trots att deras väg dit var helt olika. Vilket sammanträffande!" (Se snarare Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences' för detta.)
En annan sak är att vi nästan alltid pratar om dessa sammanträffanden i efterhand, dvs efter vi upptäckt dem. Statistiker och andra anser att detta är totalt förkastligt och vetenskapliga undersökningar som gör sådant fördöms starkt. Se Statistisk data snooping - att leta efter sammanträffanden för exempel på sådant.
Ett exempel på att vi ofta kan hitta sådana strukturer är programmet Devil's Word som har beskrivits på lite olika ställen, t.ex. här och nyligen här.
Vad är då kopplingen mellan Ramseyteorin och teorier om sammanträffanden? Tyvärr har jag inte hittat så mycket mer än ovanstående, förutom kanske lite fler och andra exempel (se referenserna nedan). Jag har inte heller hittat någon specifik teori där man konkret exemplifierar med vår tro på övernaturliga sammanträffanden etc.
Slutsatsen bör ändå vara att eftersom det i varje (sammanträffande-)situation finns det någon form av struktur (dvs sammanträffande), bör vi därför vara försiktiga med att säga att en viss uppkommen struktur beror på något annat än slumpen. Förresten, det är ju inte ens slump utan en matematiskt nödvändigt att vissa typer att strukturer ska finnas där!
[Kan som kuriosa nämna att jag tidigare hade skrivit om Ramseyteori, sammanträffanden kopplat till komplexa/sociala nätverk, men det var lite väl flummigt så det togs bort.]
Litteratur som lästs
Här är några böcker som i alla fall har några relevanta sidor om sammanträffanden och Ramseyteori.
* Martin Gardner: Ramsey Theory. Artikeln finns t.ex. i Gardners samlings-samlingsvolym The Colossal Book of Mathematics: Classic Puzzles, Paradoxes, and Problems som innehåller några fler kommentarer än originalartikeln.
* Ivars Peterson: Jungle in Randomness
* Deborah Bennett Randomness
* Ramsey och Ramseyteorin nämns på några sidor i två Erdös-biografierna: My brain is open < >, samt The Man Who Loved Only Numbers - The Story of Paul Erdos and the Search for Mathematical Truth. Se utdrag från den senare boken. (Jag nämnde f.ö. båda dessa böcker häromdagen i en kommentar.)
* John Allen Paulos: Upon a Number nämner Ramsey (sid 160ff) och sammanträffanden, dock inte så mycket kopplat till varandra.
* Bela Bollabas: Random Graphs (kapitlet "Ramsey Theory", som tyvärr inte gav speciellt mycket i frågan om sammanträffanden).
Några artiklar å nätet:
Ramsey theory
Ivars Peterson Rainbow Randomness
Ivars Peterson Deep in the Jungles
Craig Merow The Odd Couple (de udda figuerna är Paul Erdös och Ronald Graham)
Van der Waerden's theorem
Posted by hakank at 09:49 EM Posted to Sammanträffanden | Comments (3)
Uppdatering 2 av Devil's Word
Efter inspiration av en skoj diskussion hos Henrik Sundström har programmet Devil'S Word utökats till att även räkna med vanliga heltalssekvenser och inte bara ASCII-tecken. Välj "Use plain integers" och välj minsta respektive högsta talet i talsekvensen.
T.ex. ger följande uträkning svaret 666 för talen 1 t.o.m 51.
-1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16-17-18-19+20+21+22+23+24+25+26+27+28+29+30+31+32+33+34+35+36+37+38+39+40+41+42+43+44-45+46-47-48+49+50+51 = 666
Och om man kvadrerar talen ("Use squares": yes) finns det en kombination som ger samma måltal som resultat
-1-4-9-16-25-36-49-64-81-100-121-144-169-196-225-256-289-324-361+400+441+484+529+576+625+676+729+784+841+900+961+1024+1089+1156+1225-1296-1369-1444+1521-1600-1681-1764-1849-1936+2025-2116+2209-2304+2401+2500-2601 = 666
Mer om programmet finns rätt långt ner i Statistisk data snooping - att leta efter sammanträffanden. Bör kanske och åter påpeka att en av de poängerna med programmet är att det finns en stor chans att en mängd tal som kombinerade med matematiska operatorer (här + och -) kan de ge en viss summa (t.ex. 666). Det finns ingen som helst magi i denna typ av sammanträffanden, utan ren slump, och är en konsekvens av att man testar väldigt många kombinationer. Mer om detta finns i den ovan nämnda anteckningen.
Att jag själv tycker att det är en kul och intressant slump är en annan sak.
Se även den tidigare Uppdatering: Devil's word (sammanträffanden i ord)
Posted by hakank at 09:05 EM Posted to Program | Sammanträffanden | Comments (2)
april 20, 2004
Figurer i molnen
I Skeptical Report-artikeln Shapes in the Clouds diskuteras och kritiseras den parapsykologiska forskningen kring Remove Viewing (klärvoajans), speciellt PEAR (Princeton Engineering Anomalies Research), ett av de mest berömda projekten .
Efter att diskutera statistiskt metodologi görs en mer lättfattligt analogi med hitta mönster/figurer i moln: om man letar aktivt efter mönster i en tillräckligt stor datamängd så finner man alltid något intressant. (Ett annat exempel vore att hitta mönster bland stjärnorna på stjärnhimmeln.)
It is now well documented that the human mind is capable of finding patterns in a huge variety of situations. In fact, it is actively seeking recognisable patterns in the environment, in an attempt to make sense of it, to take advantage of it. This particular subject is far larger than can be dealt with in this critique, and in any case it is has a lot of supporting evidence to support it. So I will concentrate on that subject with specific reference to PEAR's analyses of their data. The point being made here is that the human mind's search for patterns is innate to us as humans - we have this ability in us, and it is relentless - it is almost impossible for us to avoid the process.
With this in mind, consider these two actual and unretouched pictures of clouds, courtesy of CloudClub. Our human minds, in search of patterns, will almost inevitably find sufficient pattern information to define "a bunny" and "a dragon". (Although it would probably be more accurate to say that our Westernised minds would allow these definitions to come to the fore - other cultures do not have rabbits or dragons.)
Bilderna som beskrivs visas här:
Artikeln fortsätter:
But consider the actuality of these cloud formations - what is really so about them - what is their data? Do they contain something actually physically different from any other clouds that make them form shapes recognisable to us? In all sensibility, any factors affecting cloud formation create clouds that are no different to the innumerable others that form all the time in our atmosphere. It is just that these particular ones look like a bunny and a dragon to us because the shapes are familiar to us. There is no reason or evidence to show that the formation of a "bunny cloud" or a "dragon cloud" is any more or less likely than the appearance any other shape of cloud. In reality, the shape we perceive is purely the result of a desire, a search-for-a-pattern, in the human mind, not any inherent property of the cloud formation itself.
So it is possible to say that in almost all cases, a pattern of some sort that we recognise can possibly be seen be seen in just about any ambiguous data situation. It would then be reasonable to conclude that such pattern seeking in the face of the ambiguity of the data will be an artifact and very highly subjective.
And this is what has happened with the PEAR data, and seems to fully explain the results they obtained. The initial "positive" effects were obtained as the result of some highly subjective and high-level judging of the data sets. This is the equivalent of seeing a shape in the clouds. But as the analyses were refined, the positive effects tended to be less visible, in the same way that the closer you look at any cloud, the less it looks like any recognisable shape at all. The ultimate result for PEAR was that the "final analyses" revealed no evidence in support of the initial positive results at all, the equivalent of getting down to droplet level in a cloud where its total shape becomes meaningless. In effect, the PEAR analyses changed from being subjective, with good results, to objective, with none.
In most situations, improved analysis of data will tend to magnify an effect, if it is there to be found. Refinement of the testing and analyses throws the focuses more and more on the reasons and/or components that create the positive effect, and they become magnified. However, if the effects tend to disappear with such refinement, it can be reasonably assumed that either the refined testing did not take all available data into account, or that the effects were imaginary or an artifact. PEAR sieved the whole 25 years' worth of data in this exercise, and used a number of methods of analysis to try to capture the intended effects, so all the available data was in play. Therefore it becomes a bit difficult to escape the conclusion, given their stated results, that PEAR were actually chasing something subjective - imaginary - from the outset.
In other words, there was never any RV [Remote Viewing] effect at all to be found. They just saw a bunny in the clouds!
Se även
The Skeptic's Dictionary-artikeln PEAR
samt
Littlewood's Law of Miracles -The law of truly large numbers
Statistisk data snooping - att leta efter sammanträffanden
Sammanträffanden.
Posted by hakank at 09:48 FM Posted to Kognitiva illusioner | Sammanträffanden | Skepticism, parapsykologi etc
april 07, 2004
Littlewood's Law of Miracles -The law of truly large numbers
Lite mer om sammanträffanden.
I The New York Review of Books-recensionen One in a Million recenseras boken Debunked! ESP, Telekinesis, and Other Pseudoscience (bok ej läst). Recensent är Freeman J. Dyson.
The book also has a good chapter on "Amazing Coincidences." These are strange events which appear to give evidence of supernatural influences operating in everyday life. They are not the result of deliberate fraud or trickery, but only of the laws of probability. The paradoxical feature of the laws of probability is that they make unlikely events happen unexpectedly often. A simple way to state the paradox is Littlewood's Law of Miracles. Littlewood was a famous mathematician who was teaching at Cambridge University when I was a student. Being a professional mathematician, he defined miracles precisely before stat-ing his law about them. He defined a miracle as an event that has special significance when it occurs, but oc-curs with a probability of one in a million. This definition agrees with our common-sense understanding of the word "miracle."
Littlewood's Law of Miracles states that in the course of any normal person's life, miracles happen at a rate of roughly one per month. The proof of the law is simple. During the time that we are awake and actively engaged in living our lives, roughly for eight hours each day, we see and hear things happening at a rate of about one per second. So the total number of events that happen to us is about thirty thousand per day, or about a million per month. With few exceptions, these events are not miracles because they are insignificant. The chance of a miracle is about one per million events. Therefore we should expect about one miracle to happen, on the average, every month. Broch tells stories of some amazing coincidences that happened to him and his friends, all of them easily explained as consequences of Littlewood's Law.
...
A session with a noticeably high percentage of correct guesses is a miracle according to Littlewood's definition. If a large number of experiments are done by various groups under various conditions, miracles will occasionally occur. If miracles are selectively reported, they are experimentally indistinguishable from real occurrences of telepathy.
Vad jag förstår är det denna lag som även kallas :"The law of truly large numbers". Från Persi Diaconis och Mosteller Methods for Studying Coincidences (min fetning):
Succinctly put, the law of truly large numbers states: With a large enough sample, any outrageous thing is likely to happen. The point is that truly rare events, say events that occur only once in a million [as the mathematician Littlewoood (1953) required for an event to be surprising] are bound to be plentiful in a population of 250 million people. If a coincidence occurs to one person in a million each day, then we expect 250 occurences a day and close to 100000 such occurences a year.
Going from year to a lifetime and from the population of the United States to that of the world (5 billion at this writing), we can be absolutely sure that we will see incredibly remarkable events. When such events occur, they are often noted and recorded. If they happen to us or someone we know, it is hard to escape that spooly feeling.
För övrigt nämner Diaconis denna lag i sin On Coincidences-föreläsning.
Se även:
SkepDic: The law of truly large numbers
Littlewoods bok som refereras i Mosteller & Diaconis är A Mathematician's Miscellany (som tydligen heter Littlewood's Miscellany nuförtiden)
John Edensor Littlewood
Quotations by J E Littlewood
samt
Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'.
Posted by hakank at 12:59 FM Posted to Sammanträffanden | Comments (2)
april 06, 2004
Persi Diaconis videoföreläsning "On Coincidences" (1998)
History
2005-02-25: Uppdaterade länk till själva föreläsningen. Not: Den fanns på samma ställe som http://www.hakank.org/webblogg/archives/000914.html, nämligen Princeton University Lectures som innehåller en massa annat intressant.
Som en del av mina läsare troligen noterat är Persi Diaconis en av mina husgudar av skäl som redovisas i kommentarerna till Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism.
Sedan den kommentaren skrevs har jag nu läst en hel del av Diaconis skrifter, men hade till för en stund sedan ännu inte sett honom in action. När Jonas Söderström berättade att han sett Diaconis uppträda (i samma kommentar som ovan), väckte det alltså en viss avundsjuka.
Denna avundsjuka har minskat något eftersom jag nyss sett mer än 1 timme Diaconis, nämligen föreläsningen On Coincidences från 19 november 1998 (Real video). Föreläsningen är hållen på en populärvetenskaplig nivå och handlar mest om sammanträffanden (coincidences) samt en del om debunking av paranormala utövare; dock inget trolleri.
De matematiska/statistiska sakerna är sådant som han skrivit om i sina papers t.ex. "Statistical Problems in ESP Research" samt - tillsammans med Frederick Mosteller - "Methods for studying coincidences", men i föreläsningen finns lite mer kringhistorier, exempel och annat matnyttigt. Tyvärr är OH-bilderna ganska otydliga så det är svårt att se t.ex. de matematiska formlerna.
Se även Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences' där en del av de matematiska formlerna beskrivs och exemplifieras. (Det är dock inte riktigt samma formler som i hans föreläsning. T.ex. används konstanten 2.5 i hans paper för att ge 95% säkerhet, medan han i föreläsningen använder 1.6. Principerna framgår tydligt i alla fall.)
Mer har bloggats om Diaconis, vilket denna sökning visar.
(Föreläsningen hittades f.ö. via audio/video-sökmotorn Singing Fish. Uppdatering: hittade den nya länken via Yahoo! Videosökning.)
Posted by hakank at 10:33 EM Posted to Sammanträffanden | Comments (1)
april 05, 2004
Uppdatering: Devil's word (sammanträffanden i ord)
Programmet Devil's word skrevs för att visa att det finns stora möjligheter att hitta rent slumpmässiga sammanträffanden genom att försöka få fram en viss summa ("djävulstalet", 666) från ett namn. En inramning av detta gjordes i Statistisk data snooping - att leta efter sammanträffanden.
Nu har det kommit en ny version av programmet. Nyheterna är
- Man kan skriva in vilket måltal som helst, dvs inte bara 666
- Något längre ord kan klaras av (cirka 30 tecken jämfört med tidigare 20)
- Avgörande av vissa matematiska omöjligheter
- Ett ord vars summa av ASCII-värden är udda kan inte kombineras (med +/-) så att det blir ett jämnt tal, och vice versa. Denna udda-/jämnhet kallas för "paritet".
- Om den maximala summan för ett ord inte når upp till måltalet är det meningslöst att giddra med talen.
I bägge dessa fall lämnas besked och eventuellt lite förslag.
Exempel 1, Exempel 2.
- Ett ord vars summa av ASCII-värden är udda kan inte kombineras (med +/-) så att det blir ett jämnt tal, och vice versa. Denna udda-/jämnhet kallas för "paritet".
- Viss statistisk information har lagts till.
- Tyvärr har det känts tvunget att lägga till en timeout i programmet (cirka 10-20 sekunder) vilket innebär att programmet inte garanterar att ge ett resultat.
Om du har något namn/ord som du alldeles förfärligt gärna vill ha kontrollerat, kontakta mig så gör jag en manuell körning (vissa begränsningar finns dock härvidlag).
En tabell över de ASCII-tecken som används i hintarna finns här.
Posted by hakank at 01:45 EM Posted to Program | Sammanträffanden | Comments (4)
mars 29, 2004
Statistisk data snooping - att leta efter sammanträffanden
Denna anteckning beskriver och ger lite exempel på data snooping - "datasnokning". Efter en inledande begreppsutredning beskrivs ett par tekniska papers, varefter det blir mer lite mer lättsmält material, inklusive ett program att själv leka med.
Data snooping vs annat
"Data snooping" används för att beteckna olika typer av företeelser. Det finns en betydelse som refererar till en form av dataintrång där någon otillbörligt försöker att få reda på andra användares data; det är verkligen inte denna betydelse som avses här.
En något subtilare betydelseskillnad är till data mining. Data mining är explorativ ("datagrävande") till sin natur, men har metoder anpassade för att avgöra om t.ex. ett beslutsträd eller artificiellt neuralt nätverk verkar att ge lovande resultat.
Data snooping är - å andra sidan - den mer tvivelaktiga metoden att först leta reda på intressanta samband i en datamängd för att t.ex. sedan skriva en vetenskaplig rapport med "statistiska förtecken" som om denna inledande grävning inte gjorts. Problemet med data snooping är att detta letande gör att de traditionella statistiska analyserna, t.ex. signifikansvärde, inte längre gäller.
Super Bowl
Patric Burns Permuting Super Bowl Theory (PDF) analyserar den populära teorin att det finns en koppling mellan utgången av den amerikanska högtiden Super Bowl (amerikansk fotboll, alltså) och börsen.
Abstract:
The quality of stock market predictions based on the winner of the Super Bowl is examined using permutation tests. These tests are very easy to perform in modern computing environments like the R language. One key point that comes to light is that the success rate of a prediction is not a good measure of its usefulness. Statistically signi cant success in prediction does not automatically lead to economically profitable strategies.
På R for the Super Bowl finns R-kod (R som i www.r-project.org) för att själv köra exemplen.
Ovanstående paper refererar till två mycket tekniska papers skrivna av bl.a.
Halbert White:
Halbert White: A reality check for data snooping (PDF, ~6Mb)
R. Sullivan, A. Timmermann, and H. White: Data Snooping, Technical Trading Rule Performance, and the Bootstrap (PDF, ~6Mb)
(Av sanningivrande skäl bör noteras att dessa två papers endast har bläddrats i.)
Fler skrifter
Timothy Falcon Crack A Classic Case of "Data Snooping" for Classroom Discussion (PDF)
Abstract:
Data snooping (mistaking spurious statistical relationships for genuine ones) is an important and dangerous by-product of financial analysis. However, data snooping is a difficult concept to explain to students of financial economics because, by its very nature, it is difficult to illustrate by example (a strong statistical relationship between complex financial variables is difficult to refute). To overcome this pedagogical difficulty, I present an example of data snooping where one variable is non-financial: I show that near both new moon and full moon, stock market volatility is higher and stock market returns are lower than away from the new or full moon. The simple and off-beat nature of this example enables substantial classroom discussion.
David Jensen Data Snooping, Dredging and Fishing: The Dark Side of Data Mining, SIGKDD 1999.
Beskriver en paneldiskussion hållen 1999 om data snooping-liknande problem inom data mining. I sista avsnittet föreslås några lösningar på dessa problem.
Mer lättillgängliga skrifter
Så kommer vi till några mer lättillgängliga skrifter.
Bibelkoden
I David Jensens paper nämns som ett exempel på data snooping den teknik som används i bibelkoden (Bible codes) för att "hitta" dolda religiösa "budskap" i Bibeln. Denna teknik kan dock användas för att "hitta" vad som helst i vilken skrift som helst, t.ex. Tolstoys Krig och Fred, Moby Dick eller Microsofts licensöverenskommelse.
För mer i detta ämne se Scientific Refutation of the Bible Codes skriven bl.a. av Brendan McKay samt Skeptical Inquirer-artikeln Hidden Messages and The Bible Code. Sajten Are there Mathematical Miracles in the Qur'an or the Bible? har en omfångsrik samling av liknande forskningar.
Man kan också notera (som tidigare gjorts) att ordet hakank finns i π (pi).
666 och programmet Devil's word
I David A. Gershaw: Is It Just a Coincidence? står bland annat:
Another example [of using coincidences to prove a point] is using any combination of the number "666" to indicate that someone is the Beast of Revelation. Some said that our ex-president, Ronald Wilson Reagan, was the Beast. Why? Each of his names has six letters, therefore "666". However, if you look long enough, you can probably find some arrangement of 666 with almost anyone.
1996 skrev Matthew Hunt och Masto Christopher i Usenet-gruppen comp.lang.perl två Perl-program (antichrist.pl) som gör just detta. Källkoden samt några exempel finns här . Programmet tar ASCII-värdet av en sträng och söker efter en kombination av additioner och subtraktioner över dessa tal för att få fram talet 666, vilket lyckas för många strängar. Många ord har flera kombinationer som uppfyller villkoret, men programmet visar endast den första.
Det finns en nyskriven och webbanpassad version av programmet: Devil's word. För tillfället finns en stygg maxgräns på 20 tecken, som eventuellt senare kommer att justeras.
Exempel på en sådan körning på namnet håkan kjellerstrand:
Checking 'håkan kjellerstrand'....
Character ASCII value
h 104
å 229
k 107
a 97
n 110
32
k 107
j 106
e 101
l 108
l 108
e 101
r 114
s 115
t 116
r 114
a 97
n 110
d 100
+104+229+107+97+110-32+107-106+101+108-108+101-114-115-116-114+97+110+100 = 666
Coincidence? I think not!
Se även
Of birthdays and clusters och The extreme value fallacy från Number Watch som båda behandlar olika typer av data snooping. Dessa samt några andra artiklar kommenteras i blogganteckningen Matematiska och statistiska "självklarheter".
Uppdatering
En uppdaterad version av programmet beskrivs i Uppdatering: Devils' word (sammanträffanden i ord).
Posted by hakank at 10:32 FM Posted to Sammanträffanden | Statistik/data-analys | Comments (2)
december 01, 2003
NPR program: "Science and Pseudoscience"
I NPR programmet Science and Pseudoscience (från 29 augusti 2003) deltar Michael Shermer (klicka på hans namn i vänsterspalten) och Stuart Vyse. De diskuterar varför och hur vi tror på pseudovetenskapliga teorier och vad den eventuella nyttan respektive faran med sådan tro kan vara.
Se även Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition' samt kategorierna Sammanträffanden och Skepticism, parapsykologi etc.
Posted by hakank at 02:13 EM Posted to Sammanträffanden | Skepticism, parapsykologi etc
november 18, 2003
Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition'
För en månad sedan frågade jag efter mer information om sammanträffanden, speciellt dess evolutionära fördelar. Hur kommer det sig att vi är så fascinerade av sammanträffanden? Och att vi tycker oss se något magiskt i dem? Efter rekommendation läste jag ett kapitel i en av Richard Dawkins böcker, och skrev därefter en kapitelrecension Richard Dawkins 'Unweaving the Rainbow' (Unweaving the uncanny).
(Efter jag började skriva denna anteckning, startade radioprogrammet Folkminnen som handlar just om folktro, skrock etc. Vilket märkligt sammanträffande!)
En bok som dök upp någonstans bland diskussionerna och sökmotorerna var Believing in Magic - The Psychology of Superstition av Stuart Vyse. Den har nu lästs och här följer en kort recension.
Stuart Vyse är professor i psykologi och har gjort en hel del forskning kring varför och hur vi uppvisar vidskepligt beteende och tro på paranormala fenomen. Vyse diskuterar båda dessa i boken, vilket gjorde den mer intressant än vad jag förväntat mig.
Tyvärr blir det i början lite rörigt vad författaren egentligen pratar om: är det vidskepelser (supersitions) eller paranormala fenomen? För mig finns det en skillnad mellan dessa två, även om jag inte skulle kunna definiera denna skillnad på ett bra sätt. På sidan 19 görs ett försök på en definition av "supersition": belief or practices groundless in themselves and inconsistent with the degree of enlightment reached by the community to which one belongs. Därefter följs en kort diskussion av vad "degree of enlightment" innebär, vilket naturligtvis inte helt enkelt.
Boken innehåller mängder av referenser till gjord forskning inom ett flertal områden: psykologi, barnpsykologi, sociologi, socialpsykologi, antropologi, beslutsteori, statistik, sannolikhetsteori etc. Tack och lov beskrivs de allra flesta experimenten för oss utan skolning i respektive ämne. Han undervisar sina studenter i statistik, vilket i vissa kapitel märks tydligt. Det blir således en trevlig resa i de olika disciplinerna.
"Magi" i titeln på boken ("Belief in Magic") hänför sig till att vidskeplighet ofta innehåller föreställningar om att det är något magisk som ska hjälpa oss över olika typer av hinder eller prövningar. Det behöver inte vara "demoner eller gudar"-magi utan kan helt enkelt vara en trosföreställning att just denna hartass eller lyckostrumpa bringar tur.
Summering av bokens teser
Jag tänker inte skriva om allt som står i boken. Det finns, som sagt, många bra och roliga exempel samt intressanta forskningsresultat. Däremot kommer här en kort summering av bokens teser, i huvudsak tagna från rubrikerna i det näst sista kapitlet "A Magicial View of the World".
Mycket vidskepelse uppstår via medlemsskap i en grupp
Gruppens betydelse för vidskepelsers uppkomst och underhållande betonas. T.ex. tenderar sportutövare, spelare, skådespelare, studenter, som grupp betraktad ha fler vidskepelser än andra typer av grupper. Flera exempel nämns i boken, t.ex. att Björn Borg kommer från en vidskeplig familj (som tydligen hade någon form av spott-ritualer när Björn spelade) och själv inte rakade sig när väl en turnering börjat. En baseballspelade har endast ätit kycklig de senaste åren för att detta upplevt bringa tur. Det som kännetecknar dessa grupper är en osäkerhet inför en viktig utgång, t.ex. vinst i spelet, klarad tenta, lyckad föreställning.
Vissa typer av beteenden är sådana att de direkt lärs från andra i gruppen, t.ex. för (sport-, om pengar-, liksom skåde-)spelare. Andra beteenden eller trosföreställningar kan vara mer individuella men kan tillåtas och förstärkas i dessa grupper.
Barn är en grupp som uppvisar beteenden liknande vidskepelse, och dessa halv-trosföreställningar ("halv-beliefs") är en viktig grund för vissa av våra vidskepelser.
Personlighet är relaterad till vidskepelse, men endast till viss del
Det har gjorts undersökningar som visar att det finns vissa belägg att anta att personer med vissa personlighetstyper tenderar att vara mer vidskepliga än andra. Däremot är det inte en tillräcklig förklaring, utan det behövs även andra typer av påverkan, t.ex. att man ingår i en viss grupp.
Vidskepelse uppstår ofta from tillfälllig betingning
Här beskrivs Skinners duv-experiment med olika varianter som ett paradigm för hur vi skapar vidskepliga beteenden. (Se t.ex. Kapitelrecension: Richard Dawkins 'Unweaving the Rainbow' (Unweaving the uncanny) för lite mer information om Skinners duvor). Liknande, fast mer sofistikerade, experiment har även gjorts på barn och vuxna med samma resultat: Om vi ställs inför ett fenomen, men inte riktigt vet vad som orsakar detta kan det uppstå beteenden som påminner om vidskepelse. Exakt vilket beteende som uppstår är då en tillfällighet. Viss typ av inlärning med någon form av feedback (operant betingning) kan alltså ge grunden till vidskepelse.
Det ges även en evolutionär förklaring (sid 76):
An evolutionary interpretation of conditioned superstition suggest that it is a basic behaviour adaption. When stakes are high, we are particularly susceptible to conditioning. There is a strong tendency to repeat any response that is coincident with reinforcement. In the long run, this tendency serves the species well: if turning in a circle really does operate the feeder, the bird eats and survives another day; if not, little is lost.
Tankefel vidmakthåller vår tro på vidskepelser
Om man har en vidskeplig trosföreställning så tenderar den att förstärkas genom olika typer av tankefel/-villor, t.ex. att vi ofta inte har en tillräckligt intuition (utbildning) hur sannolikheter egentligen fungerar. Ett exempel på detta är t.ex. hur vi upplever sammanträffanden. Dessa tankefel är i stort sett de "kognitiva illusioner" som har många har forskat kring sedan 50-talet. Dessa tankefel orsakar inte vidskepelser, däremot kan de förstärka vidskepliga åsikter/beteenden.
Se även anteckningar i kategorin Kognitiva illusioner om detta. För en mer matematisk diskussion om sammanträffanden, se t.ex. Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'.
Vidskepelse är ett sätt att kontrollera det okontrollerbara
I situationer där det inte råder någon tvekan om utgången av en händelse är vidskepelser ovanliga. För händelser med osäker utgång (t.ex. olika typer av spel) kan vidskepelserna däremot frodas. I det första introducerande kapitlet beskrivs Malinowskis iakttagelser av beteendet hos fiskare: I de lugna vatten fanns det lite vidskepelser, däremot var det mycket olika typer av vidskepliga ritualer när de fiskade på farliga vatten.
Vidskepelser hjälper till att fördriva tiden
Detta var intressant. En hel del av vidskepelserna uppstår från behover att fördriva tiden, t.ex. inför ett spel (gambling), en föreställning eller överhuvudtaget då man är otålig inför en viktig uppgift (prov).
Vyse tar som ett enkelt exempel upp beteenden som uppstår när vi väntar på att pengarna ska komma ut från pengaautomaten. Denna tid är tillräckligt länge för att vi ska göra något, t.ex. trumma på skyddsplåten, kamma oss etc. På samma sätt är väntan vid ett övergångsställe ett tillfälle där vi sådana "fördriva tiden"-beteenden kan uppstå. Detta är troligtvis inget vidskepligt beteende, men skulle kunna vara det om man av någon anledning får för sig att man måste göra på detta sätt för det ska komma ut pengar ur automaten, t.ex. om man ser automaten som något magiskt.
Vyse skriver inget om datorer, men nog borde det uppstå liknande beteenden när man väntar på att ett dataprogram ska bli klar med sina beräkningar eller en webbsida ska komma upp. Ett eget beteende under sådan väntan som jag haft tidigare är att trumma med fingertopparna på nedre delen av tangentbordet (det blir ett rätt fräckt ljud), ofta i någon form av minimalistisk rytm.
Ett annat datorrelaterat beteende, som jag numera endast gör i undantagsfall, var att knacka exakt en gång med knogarna i bordet och kort därefter utropa "Yes!" när jag lyckades att lösa ett svårt problem/hitta en märklig bugg i programmet. Det uppstod när jag pluggade datalogi och programmerade i vår datorsal där någon började med detta, varpå flera andra (däribland jag) tog upp detta beteende. Det var ibland ett fruktansvärt bankande och tjoande... Detta ska dock inte ses som något tidsfördrivande beteende utan svarare som någon form av utlopp för den glädje man känner när man lyckats med något bra. Jämför t.ex. med "High Five" i sportsammanhang. Vi gjorde faktiskt ibland "Low Five" när vi par-programmerade, vilket kanske börjar närma sig vidskepligt beteende.
Vidskepelse är inte begränsad till traditionell kulturer eller personer med lång intelligens
Båda dessa två myter avfärdas. T.ex. uppvisar många högutbildade personer i "moderna samhällen" vidskepligt beteende eller tro på paranormala fenomen.
Vidskepelse är inte en form av psykopatologi
Även om det finns vissa likheter i själva beteendet hos psykiskt sjuka personer (vad jag förstår framförallt med schizofreni) har, så är vidskepelser något helt annat.
Positivt för individen, negativt för samhället
Visa diskussion om en mängd olika experiment och teorier som finns om vidskepelse kommer Vyse fram till sin slutpoäng: Även om en viss typ av vidskepelse kan vara positivt för den enskilde individen är det samhälleligt ett problem. Om ett samhälle för mycket litar på "magiska förklaringsmodeller", som inte är vetenskapligt och empiriskt prövade, kommer det inte att utvecklas på ett sätt som är önskvärt.
Man bör notera att det är först i de två sista kapitlena som denna åsikt framförs så tydligt och starkt. I tidigare kapitel kan det framskymta en viss antydan till detta, men ibland undrade jag om Vyse kanske egentligen tyckte att vidskepelser var riktigt bra att ha (man kanske skulle skaffa några!). Och det kan det alltså vara. För den enskilde individen, men inte för samhället som helhet.
Slutkommentarer
Om man är nyfiken på varför vi uppvisar vidskepligt beteende och tror på skrock, paranormala fenomen etc, är detta en mycket intressant bok att läsa. Mina favoritkapitel är kapitel 3 och 4 ("Superstition and Coincidence" respektive "Superstitous Thinking") där det beskrivs kognitiva illusioner, inklusive Skinners duv-experiment, samt sannolikhetsteori och beslutsteori. Ett roligt avsnitt är då det görs en analys av tron på vidskepelse som ett Pascals vad. Ett kapitel som också var intressant var "Growing Up Supersitious" som handlar om hur barns vidskepelse uppstår och lägger grogrunden för vidskepelser hos vuxna. Det läsvärda näst sista kapitlet "A Magicial View of the World" innehåller en summering om slutsatserna som gjorts samt Vyse "politska" syn på hur man bör förhålla sig till vidskepelse.
Se även de anteckningar som finns samlade i Sammanträffanden samt Skepticism, parapsykologi etc (vissa anteckningar finns i båda kategorierna).
Posted by hakank at 11:57 FM Posted to Sammanträffanden | Comments (1)
november 04, 2003
Sammanträffanden - ur en annan vinkel
Mer från Cialdinis bok Influence - Science and practice.
I kapitlet "Liking", avsnittet "Similarity", sid 150f, står det följande om likheter (emfas i originalet):
We like people who are similar to us. ... This fact seems to hold true whether the similarity is in the area of opinions, personality traits, background, or lifestyle. Consequently, those who want us to like them so that we will comply with then can accomplish that purpose by appearing similiar to us in a wide variety of ways.
...
Another way requesters can manipulate similarity to increase liking and compliance is to claim that they have backgrounds and interests similar to us. Car salespeople, for example, are trained to look for evidence of such things while examine a customer's trade-in. If there is camping gear in the trunk, the salespeople might mention, later on, how they love to get away from the city whenever they can; if there are golf balls on the back seat, they might rmark that they hope the rain will hold off until they can play the eighteen holes they scheduled for later in the day; if they notice that the car was purchased out of state, they might ask where a customer is from and report - with surprise - that they (or their spouse) were born there, too.
As trivial as there similiarities may seem, the appear to work. One researcher who examined the sales records of insurance companies found that customers where more likely to buy insurance when a salesperson was like them in age, religion, politics, and cigarette-smoking habits. Another researcher was able to significantly increase the percentage of people who responded to a mailed survey by changing one small feature of the request: On a cover letter, he modified tha name of the survey-taker to be similar to that of the survey recipient. Thus, Robert Greer received the survey from a survey center official named Bob Gregar, while Cynthia Johnston received hers from a survey center official named Cindy Johanson. In two separate studies, adding this little bit of similarity to the exchange nearly doubled survey complicance.
Detta är en (annan) förklaring till varför vi är så fascinerade av "märkliga sammanträffanden", t.ex. med någon man sitter bredvid på planet: här träffar man - överraskande - på en person som är så lik en själv! Det behöver inte vara att man anser det är något övernaturligt på gång, utan kan ha enklare orsaker: Att man helt enkelt känner sig vänligt stämd mot personen och, förhoppningsvis, även vice versa. En bra ice-breaker, helt enkelt.
Det kan också vara ett knep från en bondfångare...
Tidigare anteckningar om sammanträffanden finns samlade i kategorin Sammanträffanden. Andra undersökningar om hur olika typer av likheter påverkar oss skrevs om i Socialt avstånd - och semantiskt. I Skrivande som påverkan refererades ett annat avsnitt från Cialdinis bok.
Posted by hakank at 12:02 FM Posted to Sammanträffanden
oktober 20, 2003
Kapitelrecension: Richard Dawkins 'Unweaving the Rainbow' (Unweaving the uncanny)
I Vår besatthet att hitta mönster i tillvaron berättade jag om ett boktips jag fått på min fråga (som finns i Brights-initiativet och Dan Larhammar) om var Richard Dawkins skrivit om mönstersökandet som evolutionär mekanism.
Nu har jag läst det kapitel som rekommenderades, nämligen kapitel 7 'Unweaving the uncanny' i Richard Dawkins bok Unweaving the Rainbow: Science, Delusion and the Appetite for Wonder, sid 145-179. Det kändes fristående så jag tror inte det gör så mycket att läsa det isolerat. Vi får se när jag läser resten.
Precis som utlovats handlar kapitlet om sammanträffanden (coincidences). I slutet av kapitlet diskuteras en del om den evolutionära mekanismen bakom fenomenet. Det görs även en beskrivning av Skinners duv-experiment som visar att skrock-beteenden inte endast görs av människor (se nedan). Dock domineras kapitlet av olika typer av sammanträffanden och hur lätt det är för oss att se dem.
Det är en roligt kapitel med flera exempel som visar vår intuition om sammanträffanden, och Dawkins skriver mestadels kritisk om vår tro på det övernaturliga.
T.ex. berättas om en TV-kändis med en (påstått) parapsykologisk förmåga att kunna stoppa eller starta klockor. Här tänkte jag naturligtvis på Uri Geller som var med i svensk TV 1974 och "orsakade Geller-epidemi i Sverige" (citat från NE); Geller nämns dock inte. Dawkins skriver utförligt hur man i princip räknar ut sannolikheterna för att sådana klock-händelser ska hända rent slumpmässigt av helt naturliga orsaker.
Han inför begreppet PETWHAC, dvs "Population of Events That Would Have Appeared Coincidental" (ungefär "Samlingen Av Händelser Som Skulle Uppfattas Som Sammanträffanden", SAHSSUSS, en kanske inte lika catchy akronym). Detta begrepp är menat att betona att det finns väldigt många händelser som, för en person under en viss situation eller tidsperiod, skulle uppfattas som "märkliga sammanträffanden" och att den händelse som verkligen hände egentligen inte var så märklig (osannolikt) som vi trodde.
Dawkins betonar dock den psykologiska mekanismen att det är svårt att inte känna något om man själv blir "utsatt" för sådana sammanträffanden, t.ex. om vi själva drömmer om en gammal klasskamrat som man inte sett på många år och stöter på denne dagen efter. Då kan det vara bra att tänka på PETWHAC.
Naturligtvis tas även födelsedagsproblemet upp. Trots att det är inte helt enkla matematiska problem som diskuteras lyckas Dawkins att göra det mycket överskådligt. Så förvänta inte en matematisk stringent genomgång av problemen.
(För mer om en mer matematisk genomgång av födelsedagsproblemet, se t.ex. referernserna i Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'.)
En stor fördel är att kapitlet beskriver hypotesprövningar och förklarar översiktligt de vetenskapliga metoderna för att undersöka om samband finns: Det är viktigt att man före utfallet förklarar vad som ska hända, och inte bara räknar de händelser där man i efterhand ser sammanträffanden, liksom att ta med alla de händelser som inte inträffar, t.ex. de gånger jag drömt om personer utan att jag därefter träffar dem dagen efter. En av orsakerna till att vi får denna känsla av övernaturlighet är att vi har stor tendens att endast komma ihåg de händelser som "sticker ut", dvs som verifierar vår teori om att det är något övernaturligt som händer.
Dawkins beskriver B.F. Skinners experiment med duvor i en Skinner Box. Detta experiment visade att duvorna tenderar att uppvisa märkliga beteenden om de matas av orsaker som inte är kopplat till att duvan petar på matningsspaken. Eftersom duvan ändå får mat skapar den en "teori" kring vad som orsakade matandet, och upprepar detta om och om igen.
Detta visar hur benägna vi (såväl duvor som människor och andra djur) är att försöka förklara orsak och verkan, och att i situationer där sådant inte kan göras, ibland uppvisar märkliga beteenden eller skapar märkliga teorier. Exempel på detta är spelare som har olika rutiner för att frammana tur.
Skinners paper 'Superstition' in the pigeon finns online och kan läsas, men Dawkins beskrivning är mycket roligare. Troligen finns det en hel del kritik av Skinners experiment och slutsatser, men några sådana har jag inte läst. (Och just nu passar detta utmärkt eftersom Skinners slutsatser är ett stöd för mina egna teorier :-) )
Dawkins gör även en intressant koppling mellan olika typer av fel som kan uppkomma i hypotesprövningar och olika typer av "personligheter": de som tenderar att se mönster där sådana egentligen inte finns (övertolkning), och de som tenderar att missa mönster där sådana finns ("undertolkning"). Liksom i hypotesprövningar gäller det att få en bra jämvikt mellan de båda, men helt fri från dessa skevheter går inte att vara. Här beskrivs även hur olika djur kan "drivas" av evolutionen att betona det ena eller andra "personlighetstypen", men detta är, vad jag förstå, spekulationer.
Summering: Kapitlet är kort, 35 sidor, och Dawkins får med mycket matnyttigt om sammanträffanden på ett lättsamt och underhållande sätt. Det blev inte som jag hoppats om de evolutionära mekanismerna. Rekommenderas i alla fall!
Posted by hakank at 09:22 EM Posted to Böcker | Sammanträffanden | Skepticism, parapsykologi etc | Comments (2)
oktober 15, 2003
Simulering av sammanträffanden - I
När jag häromdagen läste Persi Diaconis och Frederick Mostellers underbara paper "Methods for Studying Coincidences" skrev jag lite R-kod för att testa vissa avsnitt. Några exempel publicerades i blogganteckningen Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'.
Dock skrev jag då ingen simulering av hur sammanträffanden slumpmässigt kan uppstå, vilket nu åtgärdas i Simulering av sammanträffanden - I .
Varning: dokumentet kan upplevas som tekniskt av känsliga personer.:-)
Mer om R, systemet som använts, finns på www.r-project.org.
Posted by hakank at 10:10 EM Posted to Sammanträffanden | Statistik/data-analys
oktober 13, 2003
Vår besatthet att hitta mönster i tillvaron
I går frågade jag (i Brights-initiativet och Dan Larhammar) om var Richard Dawkins skrivit om följande (citat från Larhammar):
Som Richard Dawkins har sagt är människan besatt att hitta mönster i tillvaron. Det har säkert varit en oerhört viktig evolutionär mekanism, men ibland slår det över och vi försöker hitta mönster där det inte finns några.
Det jag speciellt undrade var Dawkins skrivit om mönstersökandet som evolutionär mekanism.
Ett tips jag fått var boken
Unweaving the Rainbow: Science, Delusion and the Appetite for Wonder som verkar vara mycket spännande.
En lite längre recension görs i Finding Awe, Reverence, and Wonder in Science (från Skeptical Inquirer).
Från artikeln:
Seeking to understand how we are so strongly impressed by coincidences, Dawkins turns to his Darwinian roots. Like all other creatures, humans must behave as intuitive statisticians. We need to steer between false positive and false negative errors according to which offer the greater penalty in a given situation. Furthermore, our willingness to be impressed by uncanny coincidence was influenced by the smaller population size of our ancestors and the relative sameness of their everyday experience, leading us to expect a very modest level of coincidence. Yet today we are immersed in a giant global media culture and our access to stories of all kind is multiplied many times compared with that of our small-village ancestors. This means, says Dawkins, that the number of opportunities for coincidence is greater for each one of us than it would have been for our ancestors, and consequently greater than our brains are calibrated to assess. Theoretically, we can learn to recalibrate ourselves, but that is "revealingly difficult even for sophisticated scientists and mathematicians."
Tack för tipset! Fler tips om den evolutionära mekanismen kring mönstersökandet emottages tacksamt. Det får även vara referenser till andra än Dawkins.
Posted by hakank at 10:04 FM Posted to Sammanträffanden
oktober 12, 2003
Brights-initiativet och Dan Larhammar
I dagens Godmorgon, världen (cirka 13 minuter inne i programmets första timme; djuplänk , en veckas giltighet) berättas om The Bright-rörelsen/uppropet/initiativet.
Jag läste om, och fascinerades av, Brights-initiativet i mitten på juni i år, men har inte skrivit om det tidigare. Därför skrivs lite nu.
En bright är (citat från sajten):
A Bright is a person who has a naturalistic worldview
A Bright's worldview is free of supernatural and mystical elements.
The ethics and actions of a Bright are based on a naturalistic worldview.
Röreslsen i sig beskrivs på följande sätt:
Currently the naturalistic worldview is insufficiently expressed within most cultures. The purpose of this movement is to form an Internet constituency of individuals having social and political recognition and power. There is a great diversity of persons who have a naturalistic worldview. Under this broad umbrella, as Brights, these people can gain social and political influence in a society infused with supernaturalism.
1. Promote the civic understanding and acknowledgment of the naturalistic worldview, which is free of supernatural and mystical elements.
2. Gain public recognition that: persons who hold such a worldview can bring principled actions to bear on matters of civic importance.
3. Educate society toward accepting the full and equitable civic participation of all such individuals.
Många bra artiklar finns på sajten, under rubriken Selected Essays on the Brights lite längre ned.
På Edge finns två artiklar av Richard Dawkins (inofficiell sajt) och Daniel Dennett samlade.
I programmet intervjuas Dan Larhammar, professor i molekylär cellbiologi. Han säger bland annat (ungefär) följande om vår tro på övernaturliga krafter:
Den underliggande mekanismen [bakom vår tro på övernaturliga krafter] tycks framför allt vara att vi hela tiden söker mönster och samband i tillvaron. Det är det som har varit den evolutionära drivmekanismen för detta. Men det innebär ibland att vi drar förhastade slutsatser. Så fort vi ser två företeelser som ser ut att korrelera så tror vi att det det finns ett orsakssamband mellan dem. ... Som Richard Dawkins har sagt är människan besatt att hitta mönster i tillvaron. Det har säkert varit en oerhört viktig evolutionär mekanism, men ibland slår det över och vi försöker hitta mönster där det inte finns några.
Jag försöker nu spåra mer exakt var Dawkins (eller någon annan för den delen) sagt eller skrivit om denna evolutionära mekanism. Någon?
Dan Larhammars sajt är väl värd att kika vidare på. Jag stötte på den tidigare i veckan och tänke skriva lite om den. Vilket sammanträffande! :-)
Där finns det flera bra artiklar om pseudovetenskap, evolution vs. creatiomism, neurobiologin bakom religiösa upplevelser (neuroteologi) samt många bra litteraturreferenser i dessa ämnen. Hans artiklar i folkvett finns även här.
Roliga länkar, med koppling bland annat till optiska illusioner, finns på Links to educational and/or entertaining web sites. Några skoj (=intressanta) är Change Blindness samt Synvillan. Läs först instruktionerna, följ dem sedan.
Posted by hakank at 10:43 FM Posted to Sammanträffanden | Skepticism, parapsykologi etc
oktober 05, 2003
Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'
[Om denna anteckning är svårläst på huvudsidan, försök då att läsa det som separat anteckning här]Detta är en liten anteckning med anledning av papret Methods for Studying Coincidences av Persi Diaconis och Frederick Mosteller som jag lyckades få tag i tack vare en snäll person. Tack!
Studiet av coincidences (sammanträffanden) är relaterat till kognitiva illusioner som jag (egentligen) håller på att kolla in. Vi har dålig intuition om sammanträffanden, vilket födelsedagsproblemet visar: Födelsedagsproblemet säger att det krävs 23 personer för att det ska vara 50% chans att två av personerna i denna grupp har samma födelsedag. Förvånande? En vanlig intuition är att det krävs många fler personer.
Se nedan för refererenser om detta mycket berömda problem.
Här nedan går jag igenom ett av de intressantaste avsnitten i Diaconis och Mostellers paper, avsnittet "7.1 General-Purpose Models: Birthday Problems" (sid 857ff).
Mestadels består denna anteckning av citat från papret och en del R-kod. Statistik/data analys-paketet R finns att ladda ner på www.r-project.org.
I övrigt finns det andra mycket intressanta diskussioner i artikeln, t.ex.
- sannolikheten att man, efter ha lärt sig ett nytt ord, "inom kort" stöter på det igen.
- B.F. Skinners analys om Shakespeares alliterationer. Skrev han verkligen så många och så medvetet som vi (tydligen) antagit?
- diskussioner relaterade till ESP-forskning.
The Standard Birthday Problem
Detta är standardversionen av födelsedagsproblemet.
Problem 1: The Standard Birthday Problem. Suppose N balls are dropped at random into c categories, N <= c. The chance of no match (no more than one ball) in any of the categories is
prod(1-i/c, i=1..N-1) (Expression 7.1)
... If c is large and N i small compared to c**(2/3), the following approximation is useful. The chance of no match is approximately
exp(-N**2/2*c) (Expression 7.2)
This follows easily from Expression (7.1), using the approximation
log_e(1-i/c) ~ -i/c
To have probability about p of least one match, equate (7.2) to 1-p and solve for N. This gives the approximations
N ~ 1.2 * sqrt(c) (Expression 7.3)
for a 50% chance of match and
N ~ 2.5 * sqrt(c)
for a 95% chance of match.
[...]
Thus, if c=365, N=22.9 or 23 for a 50% chance and about 48 for a 95% chance.
I R skriver man:
> 1.2 * sqrt(365) [1] 22.92597 > 2.5 * sqrt(365) [1] 47.76243Many Types of Categories
Följande problem är mycket intressant. Här räknar man (approximativt) ut hur stor sannolikheten är för att det finns sammanträffande där det finns flera attribut. I standardversionen av födelsedagsproblemet är det ju endast ett attribut (samma födelsedag). Här generaliseras alltså detta.
Problem 2: Many Types of Categories.
...
Suppose that a group of people meet and get to know each other. Various types of coincidences can occur. These include same birthday; same job; attended same school (in same years); born or grew up in same country, state or city; same first (last) name; spouses' (or parents') first names the same; and same hobby. What is the chance of a coincidence of some sort?
....
If the numbers of [independent] categories in the sets are c1, c2,...ck, we can compute the chance of no match in any of the categories and subtract from 1 as before. If k different sets of categories are being considered, the number of people needed to have an even chance of a match in some set is about
N ~ 1.2 * sqrt(1/ (1/c1 + 1/c2 + ... 1/ck)
The expression under the square root is the harmonic mean of the ci divided by k. If alla ci equal c, the number of people needed becomes 1.2*(c/k)^1/2 so that multiple categories allow coincidences with fewer people as would be expected. For a 95% chance of at least one match, the multiplier 1.2 is increased to 2.5 as in Expression 7.4.
...
As an illustration, consider three categories: c1 = 365 birthdays; c2= 1000 lottery tickets; c3 = 500 same theater tickets on different nights. It takes 16 people to have an even chance of a match here.
I R:
För en 50-50-chans för en match kräver alltså 16 personer:
> 1.2 * sqrt(1/sum(1/c(365,1000,500))); round(.Last.value) [1] 15.83929 [1] 16Och för 95% chans till en match krävs 33 personer:
> 2.5 * sqrt(1/sum(1/c(365,1000,500))); round(.Last.value) [1] 32.99852 [1] 33Multiple Events
Här studeras en match för k antal personer som ska ha samma attribut (t.ex. samma födelsedag).
Problem 3. Multiple Events. With many people in a group it becomes likelu to have triple matches or more. What is the least number of people required to ensure that the probabilit exceeds 1/2 that k or more of them have the same birthday? McKinney (1966) found, for k=3, that 88 people are required. For k=4, we require 187.
....
The number of people required to have the probability of p of k or more in the same category is approximately [...]
N*E**(-N/(c*k)) / (1 - N/(c*(k+1)))^(1/k) =
( c**(k-1) * k! * log_e(1/(1-p)) )**(1/k) (Expression 7.5]
....
[Example:]
A friend reports that she, her husband, and their daughter were all born on the 16th. Take c = 30 (as days in a month), k = 3, and p = 1/2. Formula (7.5) gives N ~ 18. Thus, among birthdays of 18 people, a triple match in day of the month has about a 50-50 chance.
R-kod:
Först lite förklaringar:
log är logaritmen med basen E.
Funktionen factorial() finns i paketet gregmisc och är definierad som
factorial <- function(x) { gamma( 1 + x)}
Det kan även skrivas som prod(1:k), dvs
> c=30; k=3; p=1/2; (c**(k-1) * prod(1:k) * log(1/(1-p)) )**(1/k) [1] 15.52648men om man vill arbeta med vektorer, t.ex. testa för olika värden av k (t.ex. 1:10), blir det problem att ha ytterligare en vektor i prod(1:k)
> c=30; k=3; p=1/2; (c**(k-1) * factorial(k) * log(1/(1-p)) )**(1/k) [1] 15.52648Trist! Jag förväntade mig värdet (ungefär) 18 här.
Jag pushar ovanstående diskussion och kollar in detta problem lite mer.
Funktionen qbirthday finns som standard i R som är följande (via hjälpen, ?qbirthday):
Computes approximate answers to a generalised ``birthday paradox'' problem. `pbirthday' computes the probability of a coincidence and `qbirthday' computes the number of observations needed to have a specified probability of coincidence.
Man refererar explicit och endast till Diaconis och Mostellers paper.
Är det fel i papret?
Med min formel får jag princip samma som följande:
> qbirthday(prob=0.5, classes=30, coincident=3) [1] 16Jag jämför här min formel med qbirthday för olika k-värden, och avrundar sålunda till heltal.
> c=30; k=1:10; p=1/2; round((c**(k-1) * factorial(k) * log(1/(1-p)) )**(1/k)) [1] 1 6 16 26 37 48 59 71 82 93 > c=30; k=1:10; p=1/2; sapply(k, function(i) qbirthday(prob=p, classes=c, coincident=i)) [1] 1 6 16 26 37 48 59 71 82 93De ser ut att vara identiska! Jag vet tyvärr inte varför våra värden skiljer sig mot papret.
Tyvärr hittade jag även följande problem: För stora värden av k (t.ex. 1000) är min formel dålig eftersom den ger Inf (infinity) i factorial(). Även om man i stället använder prod(1:k) blir det Inf. Efter lite undersökningar visar det sig att max-värdet för k är 170. Så qbirthday är att föredra i sådana fall.
> c=30; k=1000; p=1/2; round((c**(k-1) * factorial(k) * log(1/(1-p)) )**(1/k)) [1] Infmedan qbirthday inte har några problem med stora värden för k (t.ex. 1000):
> c=30; k=1000; p=1/2; sapply(k, function(i) qbirthday(prob=p, classes=c, coincident=i)) [1] 11043OK. Nu vet vi det.!
Så, tillbaka till huvudspåret.
För en simulering av födelsedagsproblemet med k = 3 resp. 4 får vi följande approximationer (jämför med svaren 88 resp 187 som nämns ovan). Vi jämför också med qbirthday för att kolla.
> c=365; k=3; p=1/2; (c**(k-1) * factorial(k) * log(1/(1-p)) )**(1/k) [1] 82.13359 > qbirthday(prob=0.5, classes=365, coincident=3) [1] 82 > c=365; k=4; p=1/2; (c**(k-1) * factorial(k) * log(1/(1-p)) )**(1/k) [1] 168.6471 > qbirthday(prob=0.5, classes=365, coincident=4) [1] 169Dvs det krävs (approximativt enligt "vår" metod) 83 personer för att, med 50% chans, tre eller flera personer ska ha samma födelsedagar.
Almost Birthdays
Detta är vad författarna även kallar för multiple endpoints, dvs att två saker nästan matchar. Tillåter vi sådana nästan-matchningar (och ofta görs det utan någon uttrycklig gräns för var "nästan" slutar) blir sannolikheten hög för en träff.
Problem 4: Almost Birthdays.
...
How many people are needed to make it even odds that two have a birthday within a day.
...
A neat approximation for the minimum number of people required to get a 50-50 chance that two have a match within k, when c categories are considered [...] is approximately
N ~ 1.2 * sqrt(c/(2*k + 1) (Expression 7.6)
When c = 365 and k = 1, this approximation gives about 13 people (actually 13.2).
I R:
> 1.2 * sqrt(365/(2*1 + 1)) [1] 13.23631Om vi kollar denna approximering från 0 dagar till 20 får vi följande:
> sapply(0:10, function(i) round(1.2 * sqrt(365/(i*1 + 1)),1)) [1] 22.9 16.2 13.2 11.5 10.3 9.4 8.7 8.1 7.6 7.2 6.9dvs det krävs ungefär 7 personer för att det ska vara 50% chans att två personer fyller år inom 10 dagars räckvidd.
Jag antar nu (men det står inte uttryckligen i papret) att detta gäller samma som tidigare, dvs vi multiplicerar med 2.5 för att få 95% chans till en match. Vi får då:
> sapply(0:10, function(i) round(2.5 * sqrt(365/(i*1 + 1)),1)) [1] 47.8 33.8 27.6 23.9 21.4 19.5 18.1 16.9 15.9 15.1 14.4dvs med 15 personer är vi tämligen säkra (95%) att det finns två födelsedagar inom 10 dagars räckvidd.
The Law of Truly Large Numbers Slutligen avslutas med följande tänkvärda (och möjligen i efterhand självklara) citat:
The Law of Truly Large Numbers.
Succinctly put, the law of truly large numbers states: With a large enough sample, any outrageous thing is likely to happen. The point is that truly rare events, say events that occur only once in a million [as the mathematician Littlewoood (1953) required for an event to be surprising] are bound to be plentiful in a population of 250 million people. If a coincidence occurs to one person in a million each day, then we expect 250 occurences a day and close to 100000 such occurences a year.
Going from year to a lifetime and from the population of the United States to that of the world (5 billion at this writing), we can be absolutely sure that we will see incredibly remarkable events. When such events occur, they are often noted and recorded. If they happen to us or someone we know, it is hard to escape that spooly feeling.
Se även följande om födelsedagsproblemet
Birthday Problem
Coincident Birthdays
Coincidence
The Skeptic's Dictionary: law of truly large numbers (coincidences)
Relevanta tidigare blogganteckningar (och referenser):
Tankeillusioner och tankemisstag
Chance News (och sajt)
Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism (läs även kommentarerna).
Uppdatering
Mer om simulering av sammanträffanden finns i Simulering av sammanträffanden - I.
Posted by hakank at 09:39 EM Posted to Sammanträffanden | Statistik/data-analys
augusti 30, 2003
Begreppet "överraskning", en annan hjärndump
Detta är en liten hjärndump av några tankar jag haft den senaste tiden. Nämligen om begreppet överraskning. Jämför med det jag precis skrev om Om ordvitsar och annat - en hjärndump.
Av olika anledningar har jag börjat fundera på begreppet överraskning (eng. surprise). Här är några, synnerligen ofullständiga, kopplingar som gjorts eller som jag själv tycker mig se.
Emergensteori
Vem skrev att begreppet "surprise" inte var tillräckligt operationellt som definition på ett emergent fenomen? (Det var i en fotnot på första eller andra sidan i ett paper jag läste för några veckor sedan.) Vad har mer skrivits om detta?
Machine learning/data mining
Ett av syftet [till och med det uttryckliga syftet! Referens?] med machine learning och data mining är att skapa överraskande resultat, dvs oväntande resultat.
Det har forskats en del i detta, det vet jag. Var/vem?
Detta har en stark koppling till informationsbegreppet men även till begreppet "intressant": Något fakta, F, är överraskande (inom machine learning/data mining) om man (målgruppen) dels inte visste om F tidigare, dels om F "tillräckligt intressant", hur nu det ska definieras.
Humor
En av anledningarna till att vi skrattar åt en (viss typ av) humoristisk händelse är att vi finner något i den överraskande/oväntat. Ordvitsar är ett paradigmatiskt exempel.
Sannolikheter
Att någon vinner en miljon på lotteri är inte speciellt överraskande. Däremot skulle jag bli mycket överraskad om jag själv eller någon jag känner skulle vinna.
Ett annat exempel, och där jag tror att man (Persi Diaconis?) forskat eller i alla fall skrivit om är tillfälligheter (coincidence) i samband med skrock, folktro etc. Exempel på sådana tillfälligheter är t.ex. att jag drömde om en gammal klasskamrat i går natt och idag träffade jag henne på stan. Detta leder drömmaren att tro att det finns någon mening i denna tillfällighet (vad det nu än är för typ av mening).
Uppenbarligen krävs det en viss typ av överraskning här: T.ex. om jag går i skola och drömmer om en av mina (nuvarande) klasskamrater är det inte speciellt förvånande om jag träffar henne nästa dag i skolan.
Slumpmässighet är i någon mening överraskande, i betydelsen oväntat eller att ett specifikt utfall inte går att förutse (aggregerat går det däremot ibland att göra).
Men det känns konstigt att säga att jag blir överraskad att en tärning i ett speciellt slag skulle komma upp med en sexa (det kunde jag inte förutse). Däremot blir jag överraskad om det kommer upp t.ex. 20 sexor i rad, och jag börjar troligen ana något fusk.
Oväntat
För att vara överraskande mäste det vara oväntat. Vilket i princip är samma som "sannolikheter".
Skräckfilm
En av poängerna med denna typ av filmer är att bli överraskad, här mer i betydelsen skrämd.
En "dålig" skräckfilm är en film där man kan förutse (ett annat nyckelord) ett spökes uppdykande och man blir därmed inte skrämd.
(Jämför med en dålig vits: den går att förutse.)
Två noter: a) Jag ser inte speciellt mycket på skräckfilmer. I princip var Exorsisten den senaste jag så och jag blev inte så mycket skrämd som äcklad.
b) vad jag förstår finns det andra kvaliteter i skräckfilmer, som troligen har undgått mig.
Förväntningar
Ett nyckelbegrepp är naturligtvis vilka förväntningar vi har kring en viss situation. Att en skolad matematiker kommer på något revolutionerande är inte så överraskande, däremot att en helt oskolad indier gör det (Ramanujan).
Cf Kants definition på humor: "En spänd förväntans upplösning i intet".
Kreativitet
Det ligger väl nästan i begreppet kreativitet (möjligen via humor) att det ska vara överraskande.
Se till exempel det Niklas Johansson skriver i här om humor och kreativitet:
Humor och kreativitet berörs även i In the mind's eye. Thomas G. West skriver att idéer som möts med gapskratt ofta visar sig vara de mest kreativa. Han hävdade att skratt är ett bra mått på vad som är kreativt och inte. Om jag minns rätt använde han bröderna Wright som exempel. Hade jag inte sett ett flygplan och förstått tekniken bakom är jag rädd att jag också hade skrattat åt dem.
Vid brainstorming är det ofta de tokigaste idéerna som leder till de bästa associationerna och som sedan blir de genomförbara lösningarna.
Information
Det finns en stark koppling mellan överraskning och den information vi har om en situation, händelse etc.
Om jag läser en bok som jag klassar som en typisk kioskdeckare men sedan får reda på att författaren fått Nobelpriset i litteratur (med speciellt nämnande av denna bok) skulle jag bli mycket överraskad. Skulle jag veta detta innan skulle jag troligen läst boken annorlunda och möjligen inte tyckt så nedlåtande (alternativt ansett att Akademien var några riktiga knäppgökar).
Paradigmskifte
Är det inte någon som har det som exempel på humorteori. Paulos?
Jämför med ord med liknande betydelse: förvånad, överrumplad (t.ex. av ett regn), häpen.
Posted by hakank at 01:01 EM Posted to Humor | Komplexitet/emergens | Sammanträffanden | Comments (2)
juli 29, 2003
Humor och kreativitet - The Fortsättningen
Efter min betraktelse över humor och kreativitet, påminner Peter mig privat om två av sina tidigare inlägg om humor och kreativitet gjorda här och här. Det är reflexioner gjorda kring scenen när man försöker lära roboten i Bicentennial Man att skämta. Läs speciellt det andra av Peters två inlägg, där finns en massa bra referenser till kreativitet och AI.
Scenen i Bicentenial Man påminner om Heinleins Moon is a Harsh Mistress ('Revolt mot Jorden' på svenska) när huvudpersonen lär datorn Mike vilka skämt som är roliga och varför. Datorns kön avgörs sedan genom att analysera vilka skämt denne tycker är roliga respektive icke roliga. Detta tema är ett av skälen till att boken är en av mina återläsningsfavoriter.
Är det någon som vet fler filmer, romaner eller noveller som innehåller detta tema?
När det gäller att generera kreativt är det svårt för mig att bortse från en av mina äldsta husgudar: Edward de Bono. Hans tidigare böcker om lateralt tänkande och problemlösning har påverkat mig stort i mina senare intressen. För mer om "lateral thinking", se t.ex. denna kurs och de Bonos sajt.
Nu är det många år sedan jag läste något av de Bono bland annat eftersom det blev för mycket geschäft över honom och hans verk, men hans tankar ligger fortfarande och skvalpar där i bakgrunden.
Det var bland annat dessa böcker som fick mig att inse hur fantastiskt funtade våra hjärnor är, med den märkliga förmågan att blixsnabbt kunna associera mellan två helt orelaterade saker, vilket just är den drivande mekanismen i ordvitsar (härav min fascination). Brainstorming exploaterar också detta fenomen, vilket är den bärande idén hos de Bono.
Ett "partytrick" i brainstorminganda som förvånansvärt ofta ger gott resultat är att göra fria associationer mellan ett angeläget problem man försöker lösa och ett slumpvis valt ord från SAOL. Associerar man "tillräckligt länge" kommer man nästan alltid fram till en intressant lösning att gå vidare med. Notera att för att detta ska fungera vettigt måste problemet vara uttryckligen formulerat och "tillräckligt angeläget". [Jag skrev för länge sedan ett webbaserat sådant system som hade viss framgång, men det är nerpackat av tekniska skäl. Får väl ta och refaktorisera det vid tillfälle.]
Den negativa aspekten av denna associationsförmåga är att vi tycker oss hitta kopplingar (mönster) mellan saker som inte har sådana kopplingar, som man gör t.ex. i övertro och skrock.
För mer om detta, läs t.ex. Skeptical Inquirer-artiklarna Hidden Messages and The Bible Code om bibelkoden, Coincidences: Remarkable or Random? och den av mig häromdagen refererade boken How We Know What Isn't So av Thomas Gilovich.
Posted by hakank at 10:57 FM Posted to Humor | Husgudar | Sammanträffanden