hakank.blogg: Resampling - Statistik utan tårar

« Farliga rekommenderare | Main | Miljöoptimism - en liten sökmotorresearch »

juli 11, 2003

Resampling - Statistik utan tårar

När jag nu läser om systemdynamik och dess förespråkare har jag flera gånger kommit att tänka på Julian Simons Resampling-projekt som innebär att lära ut 'statistisk utan tårar'.

En parentetisk not: Julian Simon är möjligen mer känd som en "miljöoptimist"/"teknikoptimist" vilket - intressant nog - går stick i stäv mot slutsatser som vissa systemdynamiker kommit fram till. Se till exempel Julian Simons Bet. Notera att jag inte alls är någon expert i denna debatt, knappast - och tyvärr - inte ens newbie. Jag vet inte heller om Simons miljöoptimism är kopplad till hans resamplingprojekt på något sätt, men inget jag läst i hans resamplingsskrifter har antytt detta, mer än möjligen i något förfluget exempel.

Efter denna utvikning: tillbaka Simons resampling. Simon var mycket kritiskt till hur statistisk analys lärs ut i skolorna och används av statistiker. Den statistika formalismen - menar Simon - har dels som konsekvens att det är få som förstår vad statistikerna pratar om och därmed har svårt att följa tankegångar och slutsatser som bygger på statistisk analys. Dels passar den statistika teorin endast för vissa typer av problem som ofta inte är speciellt realistiska i "den verkliga världen". Ett annat problem är att även enklare sannolikhetsteoretiska resonemang är svårt för en icke invigd att ta till sig. Hans lösning var att man i stället skulle lära ut en teknik för att göra analyser tillgängliga för alla - en statistik utan tårar.

Likheten mellan Simon och systemdynamikerna är att man försöker få ut ett mer tillgängligt sätt att använda matematiska metoder till dem som inte är matematiskt skolade. För Simon var det den matematiska statistiken som kritiseras, för systemdynamikerna var det dynamiska system med differens-/differentialekvationer. Båda mycket lovvärda projekt!

Här kan man också jämföra med t.ex. John Allen Paulos Innumeracy, som är en mycket arg och mycket bra bok om att vi är väldigt dåliga på att förstå även enkla statistiska/sannolikhetsteoretiska resonemang och konsekvenserna av detta. Paolos böcker ger dock ingen systematisk lösning på hur man löser problemet, villket Simon gör.

Simons lösning heter alltså resampling, vilket helt enkelt innebär är att man simulerar problem i stället för att försöka få in dem i statistikens matematiska apparat (som kan vara mycket komplicerad att förstå). Simuleringen görs genom att programmera problemet med ett programspråk. Simon skapade ett system med ett eget programspråk, Resampling Stat, som endast är till för sådana simuleringar, vilket gör det enkelt att förstå och använda. I ärlighetens namn måste jag säga att jag inte kört just Resamplig Stats speciellt mycket; i stället har jag använt statistikspråket R, Java eller andra generella språk. Däremot har jag översatt mycket Resampling Stat-kod, och kortare tester med Resampling Stats gör att jag tycker det verkar lätt att använda för någon som inte har programmeringserfarenheter.

Väldigt mycket mer om Resamplig Stats finns på www.resample.com. En utomordentligt trevlig introduktionsbok Resampling: The New Statistics finns online.

Båda systemdynamikernas och Simons resamplingsmetoder går alltså ut på att förstå verkliheten genom att simulera den, däremot gör systemdynamikerna det vanligen i mycket mer grafiskt aptitliga system.

För några månader sedan skrev jag en hel del om resampling etc i Lite om resampling, simulering, sannolikhetsproblem etc. som jag hänvisar till. Sidan innehåller en hel del relaterade länkar, och en massa simuleringar (skrivet främst i R) av sannolikhetsteoretiska problem av olika digniteter.

Personligen anser jag att man bör, om det är möjligt, kombinera (Simons) simuleringsmetoder och mer formell statistisk analys. Man kan t.ex. använda resampling/simulering för få en känsla för problemet, prototypa problemet, kontrollera resultat eller om man inte är expert inom statistisk analys.

I den (formella) statistiska analysen finns det även något som heter resampling som har mycket av Simons idé, och är en accepterad och matematiskt väl underbyggd teori. Men den är inte lika enkel att ta till sig som Simons mer pedagogiska variant.

Ett tips är att börja läsa Simons skrifter och sedan läsa mer formell statistik och sannolikhetslära. En utmärkt introduktion i sannolikhetslära är Introduction to Probability av Charles M. Grinstead och J. Laurie Snell, som också använder mycket simulering för att visa hur begreppen hänger i hop. Det finns kod skriven i Mathematica, Maple, True Basic och Java Applets. Själv gjorde jag exempel och övningar i R.

En utmärkt svensk bok om sannolikhetsproblem är Sant eller sannolikt : Tankar kring matematik, statistik och sannolikheter av Allan Gut. Det är dock ingen lärobok utan innehåller en mängd essäer i ämnet.

En sista not: Jag har även testat att modellera några enklare sannolikhetsproblem, av den typ som Simon koncenterar sig på, i systemdynamikprogrammet Vensim. I vissa fall kändes de inte riktigt lika enkelt som att programmera problemen i R eller Java, möjligen är detta en vanesak. Fortsatt forskning pågår...

Posted by hakank at juli 11, 2003 11:15 FM Posted to Dynamiska system | Statistik/data-analys

hakank.blogg

Anteckningar från en PopSci-junkie. Av Håkan Kjellerstrand (hakank@gmail.com).

juli 11, 2003

Resampling - Statistik utan tårar