hakank.blogg: september 2003 Archives

« augusti 2003 | Main | oktober 2003 »

september 30, 2003

Lasse O'Månsson och Bertil Pettersson

I senaste Språket avslutas programmet med två underbara mono-/dialoger ~~av och~~ med Lasse O'Månsson och Bertil Pettersson: "en epsiodet var inte mer då?" samt "Korven", båda härligt ekvilibristiska (miss)bruk av det svenska språket. Uppdatering på förekommen anledning (se kommentar): "en episodet var inte mer då?" är skriven av Lasse O'Månsson och "Korven" är skriven av Bertil Pettersson.

Både personerna och -logerna påverkade denne bloggare starkt när det begav sig, när det nu begav sig.

Bokrekommendationer
Samtliga dessa böcker är mycket bra, intressanta och roliga. Tyvärr har jag inte hittat köplänkar till alla.

blå tummen, Williams Förlag, 1967.
"det bästa" från radioprogrammet blå tummen.

Bertil Petterssons självbiografiska Om allting, bland annat eller En tid i Danmark, Natur och Kultur, 1997.

Daddy O' - En bok om och av Lasse O'Månsson, sammanställd av Urban Nilmander och Kenneth Ahlborn. Galago, 2002.
Innehåller biografisk introduktion, intervju med Bertil Pettersson samt många texter av Lassse O'Månsson eller/tillsammans med Bertil Pettersson.
Köplänkar: Bokus och AdLibris.

Mer
Om Bertil Pettersson. Om Lasse O'Månsson.

Radioprogrammet innehåller även en intressant intervju med en dyslektisk författare och lite annat smått och gott.

Uppdatering
Lade till referens till boken Daddy O'.

Posted by hakank at 02:08 EM Posted to Böcker | Humor | Comments (9)

Statistikknarkande: Antal webb-besökare och power law

Av lite olika anledningar har jag nu kollat in hur många unika besökare jag haft under det exakt (på dagen!) ett år min sajt (www.hakank.org) började notera i webbserverloggen.

En unik besökare är här definierad som ett unikt IP-nummer. Ja, det är problem med dynamiska IP-nummer och proxys på större företag. Men så är världen nu beskaffad....

Jag har här räknat med samtliga "besökta filer" som finns i min webbserverlogg, inklusive bilder (det lilla fåtal jag har), RDF- och CSS-filerna till bloggen, class-filerna till Java Applets, etc.

Här är resultatet av undersökningen.

Unika besökare
Det har varit 33876 unika IP-nummer-besök på totalt 150889 besök, dvs varje besökare har gjort i genomsnitt 4.45 besök. Igenomsnitt har det varit cirka 413 besök per dag och cirka 93 unika besökare per dag. (De senaste månaderna har jag dock snittat på cirka 1000 besök per dag.)

De mest frekventa besökarna:
Sök-bottarna dominerar naturligtvis, vilket vi ser i listan över de mest frekventa besökarna. Av totalt 150889 träffar var 27976 sökbott-träffar, dvs cirka 18%, vilket innebär att ungefär var femte besökare är en sökbott (egentligen var 5.5:e)!

Besökare: antal besök

crawler11.googlebot.com: 1806
[en frekvent index.rdf-hämtare]: 1690
crawler10.googlebot.com: 1677
cr031r01-2.sac2.fastsearch.net: 1648
trek18.sv.av.com: 1518
crawler14.googlebot.com: 1468
12.148.209.198: 1158
buildrack17.sv.av.com: 979
cr1.turnitin.com: 972
crawlers.looksmart.com: 814
drone10.sv.av.com: 735
[amerikansk bott, ej sökmotor]: 727
drone6.sv.av.com: 698
[en nära vän]: 678
si1006.inktomisearch.com: 641
crawler12.googlebot.com: 607
....

Bottar
De 8 större bottar jag kom att tänka på, fördelar sig på följande sätt. Här har jag slagit ihop alla IP-nummer från en domän till en entry:

googlebot.com: 8170
sv.av.com: 7096
inktomisearch.com: 3873
alexa.com: 3061
fastsearch.net: 2928
looksmart.com: 1370
teoma.com: 1296
directhit.com: 182

Frekvenstabell
Här nedan följer ett litet utdrag ur en sammanställning av antal besökare som haft en viss besöksfrekvens. Dvs det finns en dator (googlebot naturligtvis) som besökt min sajt 1806 gånger, en som besökt 1690 gånger osv. Sist har vi engångsbesökarna som är 21886 till antalet. Det är alltså sorterat i antal besök (flest först).

Här är datafilen.

Antal besök: antal besökare
1806: 1
1690: 1
1677: 1
1648: 1
1518: 1
1468: 1
1158: 1
979: 1
972: 1
814: 1
735: 1
727: 1
698: 1
678: 1
641: 1
607: 1
605: 1
576: 1
.....
14: 92
13: 73
12: 119
11: 120
10: 171
9: 195
8: 273
7: 341
6: 483
5: 641
4: 1193
3: 2290
2: 4873
1: 21886

Power law
Naturligtvis började jag att fundera på hur denna fördelning ser ut i en log-log-graf. Skulle det möjligen vara en power-law-fördelning på antalet besök vs antalet besökare? (Se nedan för referenser till power law.)

Med några raska R-kommandon undersökte jag detta närmre. R finns att ladda ner på www.r-project.org.

> hits<-read.table("hits.dat", header=T, sep=",")
> plot(hits, type="l")

En log-log-plot:

> plot(hits, log="xy")

Tja, det ser faktiskt ut som ett skolexempel på en power law!

För att studera det lite mer statistiskt använder jag funktionen nls() från paketet nls.

> library(nls)
> hits.nls <- nls(hosts ~hits^B, data=hits, start = 
c(B=0.1),control=list(maxiter=100),alg="plinear",trace = TRUE) 

508371265 :  0.1000 56.2787 
498492486 :  -0.1094190 368.8806565 
451677547 :   -0.3347585 1975.0531057 
317338776 :   -0.588109 6945.458497 
144332341 :    -0.8947935 13969.2739399 
38531928 :    -1.295967 18993.358662 
4431768 :    -1.760797 21213.372275 
170968.8 :    -2.061232 21792.250830 
59470.55 :    -2.127369 21872.694076 
59302.93 :    -2.130101 21875.741431 
59302.92 :    -2.130125 21875.768037 
59302.92 :    -2.130125 21875.768235 

> hits.nls
Nonlinear regression model
  model:  hosts ~ hits^B 
   data:  hits 
           B         .lin 
   -2.130125 21875.768235 
 residual sum-of-squares:  59302.92

Detta innebär att -2.130125 är koefficienten, dvs

  hosts = hits^-2.130125

Värdet 21875.768235 är intercept. Notera dock att vi kommer att använda 10-logartimen av detta värde nedan när vi ritar ut bilden:

> log10(21875.768235 )
[1] 4.339963

Summary:

> summary(hits.nls)

Formula: hosts ~ hits^B

Parameters:
       Estimate Std. Error t value Pr(>|t|)    
B    -2.130e+00  3.367e-03  -632.7   <2e-16 ***
.lin  2.188e+04  1.580e+01  1384.5   <2e-16 ***
---
Signif. codes:  0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

Residual standard error: 15.85 on 236 degrees of freedom

Correlation of Parameter Estimates:
           B
.lin -0.2368

Här ser vi att både exponenten och intercept är statistiskt signifikanta (p<0.001).

Vi har nu allting som krävs för att rita ut den fullständiga bilden:

> plot(hits, log="xy")
> abline(log10(21875.768218), -2.130125, col="red")

Så här blev bilden:

.
Här är den som PDF-fil.

Man ska tolka bilden på följande sätt: Det finns många besökare som gjort ett fåtal besök, och ett fåtal besökare som har gjort många besök. Den räta (regressions-)linjen på en log-log-skala (bas 10) är ett kännetecken på att det är frågan om en power law. Notera att värdena på axlarna inte är log10-värden utan de riktiga "oskalade" värdena. Återigen: Exponenten, lutningen på linjen (log-log skala) är cirka 2.13.

Hur ska vi nu förklara detta? Power law brukar vara ett kännetecken på att det finns någon form av "skiktning" (orättvisa, etc) i befolkningen som studeras. T.ex. Paretos berömda tes att de 20% rikaste äger 80% av världens tillgångar. "De som har ska vara givet". Se även häromdagenanteckningen Segregeringseffekter inom yrken för några fler exempel.

En sak är ju klar, de som besöker sajten flest gånger är maskiner och inte vanliga "manuella" användare (med ett lysande undantag för den nära vännen). Jag kom på att man skulle kunna ta bort värdena för alla bottar och se hur figuren blir då. Men det blir en annan gång...

Några referenser till power-law
Zipf, Power-laws, and Pareto - a ranking tutorial
Power Laws, Weblogs, and Inequality.

Se även mina andra skriverier om detta.

Uppdatering
Flera referenser om power law-fenomenet finns via JonblOGG, anteckningen Power Laws. Det är även i övrigt en intressant blogg.

Artiklar av Jacob Nielsen:
Zipf Curves and Website Popularity
Diversity is Power for Specialized Sites
Do Websites Have Increasing Returns?

Av Jason Kottke: Weblogs and power laws

Samt:
Vilfredo Pareto
The Marginal Productivity Theory of Distribution

Posted by hakank at 03:14 FM Posted to Statistik/data-analys

september 27, 2003

Tankeillusioner och tankemisstag

Har nu (enligt min antydan sist i denna anteckning) börjat läsa Inevitable Illusions : How Mistakes of Reason Rule Our Minds av Massimo Piattelli-Palmarini. Här finns ett gäng artiklar skriva av författaren.

Boken handlar om "kognitiva illusioner" (cognitive illusions), dvs hur vi ibland, men uppenbarligen konsekvent, tänker galet när vi ska göra "bedömningar under osäkerhet", dvs i situationer med ofullständig information.

Uppdatering
En recension har skrivits i Recension: Massimo Piattelli-Palmarini 'Inevitable Illusions'.

Här är några relaterade sajter.

Det finns en kurs Psychology 410: Cognitive Illusions, som innehåller några exempel samt en länklista.

Fallacy Files är en intressant sajt med mängder av tankemisstag, såväl formella (logiska) och icke-formella felslut samt kognitiva "snedtänk". Webbloggen Fallacy Files Weblog innehåller nyheter, kommentarer etc om sajten. Se Sources and Resources för flera sajter.

Några exempel på kognitiva illusioner eller felslut:
Volvo fallacy.
Texas Sharpshooter Fallacy
Gambler's Fallacy

Critical Thinking on the Web innehåller en omfattande länksamling med instruktiva kommentarer om varje sajt/länk/dokument. Att mer eller mindre slumpmässigt surfa på denna sajt rekommenderas stort. Speciellt relevant är Cognitive Biases and Blindspots.

WebService//:Googlesökningar:
cognitive illusions.
judgement under uncertainty

Se även anteckningarna Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism och Hur bedömer vi lycka?.

Posted by hakank at 10:11 FM Posted to Kognitiva illusioner

Segregeringseffekter inom yrken

Råkade höra P1:s Människor och tro fredag kväll (26 september) där det bland annat diskuteras om kvinnliga präster och dess motståndare. Djuplänk till programmet finns här, det bytas dock varje vecka.

Cirka 11.40 minuter in i programmet säger Helene Egnell, forskare och präst i Stockholms stift, att forskning har visat att "när kvinnorna blivit 30% inom ett område upplevs det som om de tagit över". Prästyrket slutar då att vara ett "manligt yrke" och blir ett "kvinnligt yrke", och får därmed lägre status. Något senare pratas även om att samma fenomen verkar finnas inom politiken.

Detta verkar vara ett exempel på den modell för segregering som Thomas Schelling utvecklat och det är därför jag blev intresserad just nu. Se t.ex. mina anteckningar Matematiska och statistiska "självklarheter" samt avsnittet "Agentbaserat" i Länkdump efter restaurangbesök.

Tidigare har jag hört/läst om de uppgifter som nämdes i programmet, men blev nyfiken på exakt vilken forskning som Egnell refererar till. Tyvärr hittade jag inte något relevant paper. Någon?

Dock hittades ett intressant citat från Jämställdhet är ett farligt ord i medierna. Jag lyckades inte hitta någon författare, men en lite omarbetad version finns som ett debattinlägg där Anne Jalakas står som författare. (Se under rubriken "Jämställdhet ger kalla kårar".)
...
Det verkar finnas en 20-80-regel som är i det närmaste helig. Någon gång kan den nog överskridas, men när andelen kvinnor närmar sig 30 procent börjar det bli farligt. Det brukar visa sig genom att avdelningar läggs ned och redaktioner struktureras om. Inte sällan med motiveringar som nysatsning eller förnyelsebehov.
30-procentsgränsen har nu inget särskilt med kvinnor att göra utan är den nivå då de som har makt börjar reagera. Det kan vara vita amerikaner i ett område där svarta flyttar in eller pojkar i ett svenskt klassrum där taltiden plötsligt börjar fördelas mer jämlikt.
När den underordnade gruppen utgör 30 procent börjar det kännas som om de tagit över. Och då höjs ropen på återställare.

I citatet ovan nämns 20-80 (eller 80-20 regeln) som är "Paretos lag/princip", dvs att 20 procent av en population utgör/har/äger 80 procent av någonting, t.ex. 20% av mänskligheten äger 80% av tillgångarna, i programutveckling sägs 80% av buggarna finnas i 20% av koden, 80% av ett företags omsättning kommer från 20% av produkterna etc. Förhållandet kan även vara 90-10.

Jag förutsätter att det inte är endast till denna allmänna Pareto-princip (med värdena 30-70) som Egnell och Jalakas hänvisar till med de 30 "magiska" procenten, utan någon annan, mer specifik forskning om jämställdhet inom yrken.

Pareto-principen är dock väldigt intressant i sig, så här är lite länkar:

Paretos Princip: 80% av resultatet kan nås med 20% av insatsen
80/20-regeln - en äkta klassiker
Zipf, Power-laws, and Pareto - a ranking tutorial

Aside
Andra intressanta "lagar" finns här, mestadels från Computer Sweden-artiklar.

Posted by hakank at 12:04 FM Posted to Dynamiska system | Komplexitet/emergens

september 26, 2003

Lek: Hitta gömt ord

Som ett delprojekt i något annat har jag skapat en liten lek: Hitta ett gömt ord i en slumpsträng. Programmet kallas Find hidden words.

Principen bakom programmet är enkel: slumpa fram ett ord från en ordlista, skapa sedan en sträng med "meningslösa" bokstäver och göm det korrekta ordet i denna sträng.

Hur lätt/svårt är det att hitta det gömda ordet?

Naturligtvis finns det en koppling mellan detta och de nyliga projekt som beskrivits i Förvanskade ord - liten empirisk undersökning, Läsning av förvanskade ord samt Skapa stavfel.

Det intressanta med programmet är att det använder en n-gram-fördelning för att generera de meningslösa bokstäverna. Detta innebär att ju högre n-värde (n som i n-gram) desto större är chansen att delsträngar i texten liknar riktiga delsträngar. Generering av text med Markov-kedjor bygger på samma princip (se nedan).
Man kan leka med olika värden för n för att se om/hur det påverkar hur lätt/svårt det är att hitta det gömda ordet.

N-gramfördelningen har jag tagit genom att gå analysera mina ordlistor, vilket säkert inte är helt optimalt. Man borde nog använda en stor fet korpus av "vanliga" texter.

Lite andra program som använder n-gram (Markov-kedjor) för att skapa slumpmässiga texter:

Posted by hakank at 01:29 EM Posted to Diverse | Comments (5)

Amazontest

Jag testar nu Movable Type plugin-en MTAmazon. Troligen tar jag bort anteckningen efter test. Don't be alarmed! :-)

Uppdatering
För tillfället blev det inte så mycket mer än delar av min Amazon-wish-list, se sist i högerspalten.

Posted by hakank at 09:31 FM Posted to Böcker

september 24, 2003

Doyne Farmer om börsen

I Nature-artikeln Stock market traders show signs of zero intelligence berättas om börs-forskning gjord av Doyne Farmer och andra från Santa Fe Institute.

Market traders are not mindless. But if they were we might not notice the difference, claim J. Doyne Farmer, of the Santa Fe Institute in New Mexico, and co-workers.
...
Traders, it suggests, are rather like ants swarming chaotically through the guts of a great clock, barely affecting its ability to tick.

Papret som refereras är The Predictive Power of Zero Intelligence in Financial Markets av J. Doyne Farmer, Paolo Patelli, Ilija I. Zovko.

Abstract:
Standard models in economics are based on intelligent agents that maximize utility. However, there may be situations where constraints imposed by market institutions are more important than intelligent agent behavior. We use data from the London Stock Exchange to test a simple model in which zero intelligence agents place orders to trade at random. The model treats the statistical mechanics of the interaction of order placement, price formation, and the accumulation of stored supply and demand, and makes predictions that can be stated as simple expressions in terms of measurable quantities such as order arrival rates. The agreement between model and theory is excellent, explaining 96% of the variance of the bid-ask spread across stocks and 76% of the price diffusion rate. We also study the market impact function, describing the response of prices to orders. The nondimensional coordinates dictated by the model collapse data from different stocks onto a single curve, suggesting a corresponding understanding of supply and demand. Thus, it appears that the price formation mechanism strongly constrains the statistical properties of the market, playing a more important role than the strategic behavior of agents.

Posted by hakank at 11:16 EM Posted to Agentbaserad modellering | Komplexitet/emergens

september 23, 2003

Länkdump efter restaurangbesök

Detta är en länkdump, mestadels riktad till en god vän efter ett kort men trevligt besök på favoritrestaurangen Kin Long i Malmö (karta). Där finns nämligen riktig kinesmat. Rekommenderas!

Språkligheter
Uncle Jazzbeau's Gallimaufrey "Linguistics, philosophy, and politics" av Jim Bisso. Han har skrivit mycket om de berömda förvanskade texterna. Till och med denne bloggskribent har refererats.

Det var Bisso som nämndes i slashdot-artikeln häromdagen. Se även 50-millisecond segments för historik etc samt David Harris Salon-artikel My meme experiment där Harris "avslöjar allt".

Bonus: En liten undersökning om Särskrivningar (PDF).

F.ö. ser jag gärna att svenskan fick mer av sär skrivningar eftersom det då vore mycket enklare att automat parsa texter. :-)

"Skickliggöra"
På Blind Höna gör Jonas Söderström och Mikael Parkvall ännu en intressant språklig resa när de försöker spåra ordet skickliggöra.

Jag är tämligen säker på att ha läst detta ord tidigare, men inte i religiös text, utan antingen i byråkrat-/juristtexter (kanske den underbare lagmannen Petrén?) eller hos någon äldre svensk filosof (Hans Larsson ligger nära till hands). Tyvärr har jag inga belägg.

En riktig byråkrat skulle nog i stället skriva "skickliggörande" (google-sök).

Artificiella språk
Det var konstspråket Lojban jag tänkte på, och inget annat.

Lite länkar, bland annat via http://www.bisso.com/links.html.

Constructed Human Languages

artificiallanguages2 : Artificial Languages - Esperanto, Klingon, Quenya, Folkspraak, Dlatci...

langmaker2: This mailing list is a companion to the LangMaker Model Languages web site (http://www.langmaker.com).

Yahoo-kategorin Constructed Languages (men den är säkert redan bekant).

Agentbaserat (naturligtvis)
Lite NetLogo-simuleringar:

Party. är ett exempel på en igenkännbar segregering.
This program models a cocktail party. The party is made up of groups of both men and women. The partygoers have a TOLERANCE that defines their comfort level with a group that has members of the opposite sex. If they are in a group that has a higher percentage of people of the opposite sex than their TOLERANCE allows, then they are considered "uncomfortable", and they leave that group to find another group. This action continues until everyone at the party is "comfortable" within their group.

This model is based on the work of the pioneering economist Thomas Schelling.

Denna simulering är f.ö. ett tidigt exempel i NetLogo-manualen.

Segregation är ett annat exempel som Thomas Schelling utvecklat, bland annat i boken Micromotives and Macrobehavior.

Det är otroligt vad svårt det är med korrekt intuition kring dessa typer av (emergenta) fenomen.

Fler skojiga NetLogo-modeller av olika slag finns här och här.

Jag upptäckte precis lite nya exempel: Agent-based Queuing Models. Notera att den första länken (Simple single-line Queue) inte är korrekt, det ska vara till en html-sida, men för närvarande är så icke fallet.

Se även referenser i Agent-baserad modellering - simuleringar av emergenta fenomen. Sökning på agent på bloggen min ger andra anteckningar.

Posted by hakank at 10:24 EM Posted to Diverse | Memetik | Comments (1)

Mer forskning om panik

Nature-artikeln Panicking mice find flaws in exit routes skriver om panik-forskning gjord på möss.

Panic-stricken mice are hinting at how people fleeing a confined space can hinder each other's escape. The animals could help to test computer models of crowd-control measures.

Caesar Saloma and colleagues at the University of the Philippines in Quezon City watched mice escape through doorways in a flooded chamber. Mice have a strong impulse to avoid water, so the researchers placed their rodents in a flooded cell with one or more exits.
...
Like us, mice fleeing from life-threatening danger look for the exit and make for it, pushing others aside if necessary. What's more, like panicking humans, the animals tend to follow one another rather than assessing the best exit route.

Skrifter av Caesar Saloma finns här

Som vanligt är det lite stökigt att hitta de paper som refereras i Nature-artiklar, så här länkas till alternativa källor.

I skrivande stund kommer jag inte åt det första papret som refereras i artikeln. Det skall finnas på annat ställe, men det verkar för närvarande vara strul med länkningen på sajten. Saloma, C., Perez, G. J., Tapang, G., Lim, M. & Palmes-Saloma, C.: Self-organized queuing and scale-free behavior in real escape panic.

Detta paper finns däremot: Perez, G. J., Tapang, G., Lim, M. & Saloma, C.: Streaming, disruptive interference and power-law behavior in the exit dynamics of confined pedestrians (PDF)

Se även blogganteckningarna Applåder och panik och Simulering av "Vågen", trafikfenomen och Crowd Dynamics där andra dokument/länkar finns.

Posted by hakank at 09:08 FM Posted to Agentbaserad modellering

september 21, 2003

Länkdump efter en fest

Här är lite spridda länkar med anledning av en liten och äkta delmängd av diskussionerna på gårdagens trevliga födelsedagsfest. Tack Ingar!

Jag vill även passa på att tacka Helene och Johan för namngivningsfesten tillägnad Vendela i rökstugan vid Svaneholmssjön. Underbart!

Fu Manchu-böcker
Tips gavs om en "mysterieförfattare": Sax Rohmer som jag inte känt till tidigare. En massa onlineböcker av Rohmer finns här.
En översikt av Rohmers verk finns på Sax Rohmer Bibliography.

Det som gjorde mig speciellt intresserad var att det sades att hans böcker inspirerade till den utomordentliga Marvel-serietidningen "Shang Chi's Händer - Mästaren på karate" (jaja, all kampkonst sådant kallades för karate i mitten på 70-talet). Originaltiteln var Master of Kung Fu
På föregående länk står det tydligt angående Marvels olika figurer: Among [the licensed characters] was Sax Rohmer's classic Asian villain, Fu Manchu.

Jag köpte nog alla nummer av "Shang Chi's Händer" ('74/'75) men lånade ut dem "för evigt". För några år sedan fick jag tag på ett gäng nummer igen och det blev ett härligt nostaliskt möte. Om man skulle behöva en värderingslista för tidningarna finns en sådan här.

På The Precursors of Dr. Fu Manchu nämns, förutom Sax Rohmer, även Guy Boothby nämns. Det finns också några online-böcker av Boothby.

"Nobelpriset" i ekonomi
Efter en liten diskussion om Daniel Kahneman, som fick Nobelpriset i ekonomi 2002 (mer formellt: "Sveriges Riksbanks pris i ekonomisk vetenskap till Alfred Nobels minne 2002", se även nedan) pratades det om ekonomipriset 2001 som bland annat gick till George Akerlof för hans modell om marknader med asymmetrisk information, t.ex. begagnade bilar ("lemons").

Kort beskrivning:
George Akerlof demonstrated how a market where sellers have more information than buyers about product quality can contract into an adverse selection of low-quality products. He also pointed out that informational problems are commonplace and important. Akerlof's pioneering contribution thus showed how asymmetric information of borrowers and lenders may explain skyrocketing borrowing rates on local Third World markets; but it also dealt with the difficulties for the elderly to find individual medical insurance and with labour-market discrimination of minorities.

Hans nobelföreläsning finns här.

För den som vill leka själv finns en liten NetLogo-simulering av Akerlofs teori.

Jag kan åter rekommendera (se kommentaren) Daniel Kahnemans Nobelföreläsning Maps of Bounded Rationality.

Agentbaserad nationalekonomi
Kort därefter blev jag tillfrågad om jag visste någon bra referens till agentbaserad modellering nationalekonomi. Den bok jag snabbt rekommenderade var Thomas Schellings
Micromotives and Macrobehavior av, som innehåller några sidor om Akerlof. När jag läste avsnittet om Akerlofs lemons försökte jag hitta hans 'Market of 'Lemons'" men lyckades inte. (Hint! :-)

Se även Matematiska och statistiska "självklarheter" och Growing Artificial Societies - recension.

På Agent-Based Computational Economics (ACE): Growing Economies from the Bottom Up av Leigh Tesfatsion finns mycket skoj saker.

Design av olika saker
Efter lite prat med en bildkonstnär om hur man designar cockpitar i flygplan kom vi även in på design av hemsidor och hur man kunde göra dem bättre och mer logiska. Ett av problemen är ju att de ska vara användbara av både en nybörjare och en "power user".

Några referenser jag i hastigheten kom på var Donald Norman's Design of everyday things (alldeles inspirativ bok om konsten att göra saker enkla att använda. Och svåra.) samt Jacob Nielsen skrifter.

Tidigare på dagen hade jag sett (via Mats Andersson) att internetworld i Sveriges sämsta sajter korade SAS-sajten till den värsta. Det hölls med om att den är lite väl plottrig och svårnavigerad.
Citat när SAS-sajten nämndes: "Det är tur att man kan ringa sin resebyrå för att få den information man behöver".

Posted by hakank at 07:05 EM Posted to Agentbaserad modellering | Diverse | Comments (4)

september 19, 2003

Fredagsfyran -Tema hobbies

OK, här är min fredagsfyra.

1. Har du någon hobby?
Många. De poppar upp lite då och då med mellanrum. En hel del av dem skrivs om på bloggen; vissa har inte poppat upp tillräckligt mycket för att märkas så tydligt där.

Eller är de kanske intressen? Se nedan för en liten utvikning.

2. Har du någonsin samlat på något?
Oja. Gamla synder: Frimärken, samlarbilder (ishockey-/fotbollsspelare, flaggor, bilar, etc), vitsar, frimärken, mynt, serietidningar är några som koms på.

Lite nyare:
Filmer: främst kungfu och intelligenta brittiska romantiska komedier samt bra SF.

Det är lite svårare med böcker. Det finns vissa områden där jag försöker få tag på det mesta som givits ut, men är det att "samla på"?
Inom skönlitteraturen finns det t.ex. vissa författare som jag försöker få tag på allt av (såsom Clayton Rawson, Ellery Queen, Asimov, m.fl.).

3. Finns det någon hobby du skulle vilja dra igång med?
Det finns ju alltid det jag sagt/"lovat" i minst 10 år: att lära mig spela piano så bra att jag vackert och obehindrat kan spela Bachs "Musikalische Opfer" och/eller Rachmaninovs "Rhapsody on a Theme of Paganini, Op 43" (inspirerad av Groundhog Day) innan jag fyllt femtio.

Jag skulle också vilja kunna måla (naturligtvis surrealistiska) tavlor. Mina tidigare försök var inte så lyckade så det kommer i så fall ta mycket lång tid att komma dit. Till pensionen kanske...

4. Är inte hobbies ett slöseri med bra slappartid?
Tvärtom! Slappartid är ett slöseri med bra hobbytid. :-)

Vad är egentligen skillnaden mellan hobby och intresse? Frågan går till NE. Som förklarar hobby så här:
aktiv verksamhet som man regelbundet och av renodlat intresse ägnar sig åt på fritiden ofta med inslag av skapande e.d. (sällan t.ex. om läsning) {eintresse 3}: hobbyarbete; hobbyrum; hans ~ är modellflygplan; måleriet var bara en ~, inte ett levebröd
HIST.: sedan 1916; av eng. hobby med samma bet., trol. bildat till en smeknamnsform av Robert

intresse beskrivs på följande sätt (det är 3:an som är mest relevant):

1 (knappast plur.) spontan och lustbetonad inriktning av uppmärksamhet på ngt ämne, ngn företeelse e.d. {eengagemang 1, uppmärksamhet 1}: han lyssnade med spänt ~; frågan har väckt ~; ~t koncentrerades nu på vem som skulle bli den avgångne ministerns efterträdare
BET.NYANS: lust att fortlöpande ägna uppmärksamhet åt ngt: han har ett levande ~ för människor; hysa ~ för språk
KONSTR.: ~ (för ngn el. ngt)
HIST.: sedan 1783; jfr fornsv. interesse 'fördel; ränta'; av ty. Interesse 'intresse'; till lat. interesse 'vara av vikt; angå', eg. 'vara emellan'

2 (knappast plur.) inneboende förmåga att fånga och hålla kvar uppmärksamhet särsk. hos ämne, företeelse e.d.: frågan saknar allmänt ~
KONSTR.: (vara av) ~
HIST.: sedan 1795; se intresse 1

3 ngt som man har naturlig lust att syssla med utanför arbetet e.d. {ehobby}: bowling är hennes stora ~; de har många gemensamma ~n
HIST.: sedan 1868; se intresse 1

4 (ofta plur.) engagemang i ngt som man hoppas vinna fördelar av spec. i pol. sammanhang {se engagemang 2} {esatsning}: intressekonflikt; gruppintresse; riksintresse; stormakterna bevakar sina ~n i Afrika
BET.NYANSER: a) spec. äv. i affärssammanhang om ekon. satsning e.d.: ägarintresse; gruppen har stora ~n i bilföretaget b) utvidgat, utan ekon. aspekt (utsikt att vinna) fördel: hon har inget ~ av att skada honom; det ligger i ditt eget ~
KONSTR.: (i ngns) ~, ~ (av ngt), ~ (i ngt)
HIST.: sedan 1625; se intresse 1

Jag är fortfarande lite osäker på skillnaden. Det verkar alltså som om man måste skapa något för att det ska vara en hobby. Så, om jag läser om Z eftersom det är ett av mina intressen, och sedan skriver om det på min blogg, blir det då en hobby?

Vad gäller regelbundenheter krävs det nog inte att man gör det nästan varje dag. T.ex. borde man kunna ha som hobby att göra jultomtemasker vid juletid eller kanske skriva dikter på skottdagen.

Och ska jag straffas bara för att en av mina hobbies är det jag råkar jobba med (nämligen programmering)?

:-)

Posted by hakank at 11:59 EM Posted to Diverse | Comments (2)

Lunda-professuren i parapsykologi

På aktuelltsidan hos Vetenskap och Folkbildning står att läsa de som sökt Lunda-professuren i parapsykologi.

Jag väntar med spänning på nästa nummer (3/2003) av folkvett "som beräknas utkomma i månadsskiftet september/oktober". Flera intressanta artiklar verkar det vara.

Posted by hakank at 08:58 EM Posted to Skepticism, parapsykologi etc

september 18, 2003

Förvanskade ord - liten empirisk undersökning

Lite mer om Läsning av förvanskade ord. Jag kunde alltså inte riktigt släppa det...

Niklas Johansson skriver i en kommentar till Skapa stavfel att han tycker sig förstå texten mindre om de icke-fixa bokstäverna är sorterade i stället för att vara slumpvis oordnade. Jag tycker han har en bra poäng.

Till viss del även inspirerad detta, samt av en kommentar från av mina vänner, har jag nu kollat in vilka ord (från de ordlistor jag har) som bildar samma sträng när man sorterar de icke-fixa bokstäverna i ordet. T.ex. för fixering av de två första och två sista bokstäverna blir orden upplivad och uppvilad samma sträng, nämligen upilpvad.

Här är en summering av hur många ord som har denna typ av likhet. Det länkas även till filerna för språk och respektive antal fixa bokstäver i början (X=0,1,2) och i slutet (Y=0,1,2). Notera att när X=Y=0 så är det frågan om (fullständiga) anagram.
Förklaring till innehållet i filerna: en rad innehåller först den gemensamma strängen, sedan de ord som bildar denna sträng.

Svenska
(cirka 115000 ord i ordlistan)
X=0, Y=0 (anagram): 7347 ord (c:a 6.3 %)
X=1, Y=1: 1000 ord (c:a 0.9 %)
X=2, Y=2. 230 ord (c:a 0.2 %)

Engelska
(cirka 45000 ord i ordlistan)
X=0, Y=0 (anagram): 5629 ord (c:a 12.4 %)
X=1, Y=1: 761 ord (c:a 1.7 %)
X=2, Y=2: 94 ord (c:a 0.2 %)

Jag vet inte riktigt vilken slutsats man kan dra av detta. Dock noterar jag att jag ibland var tvungen att läsa vissa ordpar flera gånger innan jag upptäckte den exakta skillnaden mellan de listade orden. Avsaknaden av språkligt sammanhang är möjligen signifikant. Testa gärna själv.

För övrigt skulle jag vilja kalla denna typ av ord med X,Y > 0 för *nagram*, i brist på något bättre.

Det är intressant att engelskan verkar ha något fler *nagram* än svenskan, men skillnaden kan beror på hur ordlistorna är uppbyggda och hur många ord det är i respektive lista. Medellängden för orden är cirka 8.1 för den engelska ordlistan och 10.1 för den svenska.

Egen-*nagram*
Det finns vissa ord som (redan) är sorterade med X=Y>0. Låt oss kalla dessa ord för egen-*nagram*. Några exempel på sådana ord (för X=Y=2): angostura, arabiska, dubbelmoral, grabbnäve.

Jag kollade antalet sådana ord för respektive språk och X=Y-värden.

Svenska
X=Y=0: 259 (0.23%), längsta ord: access, chintz etc
X=Y=1: 3351 (2.91%), längsta ord: badflotte
X=Y=2: 10809 (9.40), längsta ord: dubbelmoral, kvinnopräst, licenstvång etc)

Engelska
X=Y=0 : 323 (0.72%), längsta ord: effort, access etc
X=Y=1: 2876 (6.39), längsta ord: fillmore, bacillus
X=Y=2: 9043 (20.10), längsta ord: diagnostic

Det går säkert att hitta mycket längre sådana ord...

En aside:
För den som vill gissa korrekt ord efter en slumpartad permutation av samtliga bokstäver, kan leka med
Word build (endast 8-bokstavsord) respektive AnaGuess (svenska ord av olika längd).

Posted by hakank at 11:37 EM Posted to Diverse | Comments (3)

september 17, 2003

Skapa stavfel

Efter publicerandet av programmet Reading scrambled text häromdagen har jag fått lite reaktioner, tips och önskemål. Se min blogganteckning Läsning av förvanskade ord. (Den rapporterade buggen torde vara fixad, meddela mig annars.)

Detta program gjordes för att kolla in vilka parametrar (antal fasta tecken i början respektive slutet av ordet) som krävdes för att skapa en text som var "tillräckligt förståbar" (vad nu detta innebär).

En av de saker jag själv funderade på, och som bland annat Mats Andersson har (privat) funderat kring, är ett program som skapar mer realistiska stavfel.

Jag har inte sett något sådant program, så därför totade jag ihop ett nu i morse: Generate spelling errors.

Programmet använder tre olika operatorer för att förvanska ett ord:

ta bort en bokstav (delete)
lägg till en bokstav (insert)
byt två näraliggande bokstäver (transpose)

Dessa operatorer är f.ö. i princip samma som man t.ex. använder i (Levenshteins) edit distance för att kontrollera eller söka efter snarlika ord, t.ex. just felstavningar.

Några finesser i programmet är att man kan justera sannolikheterna för dessa olika operatorer och sannolikheten att ett ord överhuvudtaget ska ändras samt hur många förändringar man ska göra per ord (om det nu ska förändras).

Jag funderade också på att även lägga in operatorn från förra programmet, men - för tillfället i alla fall - har jag lagt detta på is.

Den exakta nyttan med programmet är väl inte helt klart. En av tillämpningarna kan vara att se hur mycket vi förstår av en text efter olika typer av förvanskningar. Tyvärr kan nog spammare ha nytta av en sådan funktionalitet, vilket innebär att även spamdetektorprogramutvecklare har nytta av att skapa sådana texter.

En annan tillämpning: Om man vet man vet att det finns (slumpmässigt genererade) stavfel i en text blir man tvungen att läsa igenom texten extra noga, vilket ju är bra.

Kommentera gärna, antingen privat eller via kommentarsfunktionen.

Uppdatering
Jag hittade precis papret Detection of spelling errors in Swedish not using a word list en clair av Rickard Domeij, Joachim Hollman och Viggo Kann. Där står det (sidan 5)

Many studies ... show that four common mistakes cause 80 to 90 percent of all typing errors:

1. transposition of two adjacent letters

2. one extra letter

3. one missing letter, and

4. one wrong letter.

Jag har nu även implementerat den fjärde, dvs att byta ut en slumpmässig bokstav i ordet mot en annan helt slumpmässig bokstav. Detta är kanske inte helt realistiskt eftersom sådana stavfel väl tenderar att innefatta näraliggande tangenter.

(Kolla även vad de tre författarna gjort i övrigt. Mycket intressanta saker är det.)

Posted by hakank at 11:31 FM Posted to Program | Comments (5)

september 15, 2003

Läsning av förvanskade ord

Enligt en text som spridits på nätet den senaste tiden räcker det att de första X tecknen och de sista Y tecknen i ett ord ska vara i korrekt position för att vi ska kunna förstå en text. Enligt texten hos Mats Andersson är X=Y=2, och enligt texten på Kalles klätterträd är X=Y=1.

Jag tyckte det kunde vara en lite lagom avkoppling att göra ett litet snabbhack för att kolla detta llite. Så här är ett program för att slumpa de tecken som finns mellan de X första respektive Y sista tecknen i orden. X och Y är justerbara.

Man får dock själv läsa den förvanskade texten och avgöra om det är enkelt eller svårt att förstå den. Så mycket för vetenskapligheten.:-)

Default-texten är Mats Anderssons ursprungstext (något justerad). Testa gärna med andra texter och språk.

Här är alltså Reading scrambled words.

Frågor: Är det någon som verkligen läst den undersökning man skriver om? Finns det en sådan? Var?

En vidareutveckling vore kanske att göra en "inverterad" Levensthein edit distance (länken är till google) för att se hur blandad den förvanskade texten kan vara med små värden för X och Y.

Uppdatering 1
Jag kom lite senare på att ett relaterat program är AnaCheck, som givet en slik förvanskad text går igenom en ordlista för att lista ut vilka ord som kan vara korrekta. Glöm inte att kontrollera att korrekt språk är valt.

Uppdatering 2
Och så finns det en tråd på slashdot som diskuterar detta och liknande fenomen..

Uppdatering Blå
Under inspiration av Niklas Johanssons kommentar har jag nu lagt till en möjlighet att sortera de icke-fixa bokstäverna. Tack Niklas!

Uppdatering Kablagebyte
Så har vi tydligen fått tag i undersökningen. DN-artikeln Bkasotvsodnrnig sknaar bydetslee skriver mer om detta.

Enligt artikeln är det undersökningen Sublexical units and the split fovea av Richard Shillcock och Padraic Monaghan, University of Edinburgh, January 10, 2003.

Jag har dock inte läst papret ännu...

Tack till Mats Andersson som hittade DN-artikeln (hans kommentar finns här).

Posted by hakank at 08:57 EM Posted to Program | Comments (7)

september 14, 2003

Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism

Oavsett hur det går i folkomröstningen i kväll har jag en förutsägelse: Många kommer att säga sig ha kunnat förutsäga utgången eftersom de tydligt sett alla tecken på att resultatet skulle bli just så.

Själv har jag endast en liten aning om utgången eftersom det finns så många motstridiga tecken såsom olika resultat från olika opinionsinstitut, olika sätt att tänka kring huruvida valdeltagandet kommer vara högre eller lägre än tidigare efter mordet på Anna Lindh etc.

Min egen förutsägelse, att många kommer att säga att de korrekt förutsåg valet, bygger på något som jag kollat in de senaste dagarna, nämligen "hindsight bias" (kallas även "creeping determinism"). Detta innebär att när vi väl vet att något har hänt finns en stor tendens hos oss att, i efterhand, tydligt se de olika "spår" som leder till resultatet. Vår hjärna lurar oss att inte komma ihåg korrekt vad vi verkligen tänkt eller tyckt innan och vi tenderar även att tro oss ha tyckt på detta sätt hela tiden. Undersökningar som gjorts kring detta fenomen verkar tyda på att det är allmängiltigt.

Fenomenet är också relevant för vissa diskussioner om mordet på Anna Lindh. Läs om en artikel skriven av Malcolm Gladwell nedan.

Det bästa papret jag läst om fenomenet är av Baruch Fischhoff (som är en av de mest kända forskarna om fenomenet), artikeln For those condemned to study the past: Heuristics and biases in hindsight. Artikeln finns i samlingen Judgment under Uncertainty : Heuristics and Biases redigerad av Daniel Kahneman, Paul Slovic och Amos Tversky (sid 335ff). Tyvärr har jag inte lyckas hitta denna eller några andra relevanta artiklar av Fischhoffs artiklar på webben (i alla fall inga som är öppna för allmänheten).

Här är lite av det jag råkat hitta om fenomenet 'hindsight bias'/'creeping determinism'.

Hindsight bias
It is a common observation that events in the past appear simple, comprehensible, and predictable in comparison to events in the future. Everyone has had the experience of believing that they knew all along the outcome of a football game, a political election or a business investment. The hindsight bias is the tendency for people with outcome knowledge to believe falsely that they would have predicted the reported outcome of an event. After learning of the occurrence of an event, people tend to exaggerate the extent to which they had foreseen the likelihood of its occurrence.

Synonyms: Rückschau-Fehler, knew-it-all-along effect, creeping determinism

Did You Know It All Along?
One problem with common sense, however, is that we invoke it after we know the facts. Events are far more "obvious" and predictable in hindsight than beforehand. Baruch Fischhoff and others (Slovic & Fischhoff, 1977) have repeatedly demonstrated that when people learn the outcome of an experiment, that outcome suddenly seems unsurprising -- certainly less surprising than it is to people who are simply told about the experimental procedure and the possible outcomes. People overestimate their ability to have foreseen the result. This happens especially when the result seems determined and not a mere product of chance (Hawkins & Hastie, 1990).
....
Likewise, in everyday life we often do not expect something to happen until it does. We then suddenly see clearly the forces that brought it to be and feel unsurprised. After Ronald Reagan's presidential victory over Jimmy Carter in 1980, commentators -- forgetting that the election had been "too close to call" until the campaign's final few days -- found the Reagan landslide unsurprising and easily understandable. When the day before the election, Mark Leary (1982) asked people what percentage of votes they thought each candidate would receive, the average person, too, foresaw only a slim Reagan victory. The day after the election Leary asked other people what result they would have predicted the day before the election; most indicated a Reagn vote that was closer to the Reagan landslide.
....
If this hindsight bias (also called the I-knew-it-all-along phenomenon) is pervasive, you may now be feeling that you already knew about it. Indeed, almost any conceivable result of a psychological experiment can seem like common sense -- after you know the result.
...
The point is not that common sense is predictably wrong. Rather, common sense usually is right after the fact; it describes events more easily than it predicts them. We therefore easily deceive ourselves into thinking that we know and knew more than we do and did.

Avsnittet Hindsight Biases in Evaluation of Intelligence Reporting från boken 'Psychology of Intelligence Analysis av Richards J. Heuer, Jr (notera URL:en, cia.gov!).
I del III 'Cognitive Biases' finns andra intressanta kapitel hur vi tänker "skevt".

Så till en artikel som är mycket relevant för de senaste dagarnas händelser. Jag tänker naturligtvis på mordet på Anna Lindh.

I Connecting the Dots skriver Malcolm Gladwell om kritiken mot FBI och CIA hur de hanterade hoten om terrordåden före den 11 september 2001. Varför insåg de inte att det skulle komma en sådan attack? Alla ledtrådar var ju tydliga! Gladwell diskuterar här vad som hände utifrån Fischhoffs "creeping determinism".

Han skriver även om förslaget att slopa CIA:s och FBI:s "tävlande verksamheter" och varnar att detta kan vara en "överkompensation" grundat på den kraftiga kritiken.

I artikeln finns (naturligtvis) kopplingar till kritiken mot SÄPO:s bedömning av hotbilden mot Anna Lindh i onsdags.

Ett annat exempel på hindsight bias/creeping determinism är artikeln The dangers of 'creeping determinism' där undersökningarna om Columbiaskytteln diskuteras.

Två länklistor från Tim van Gelder's Critical Thinking On the Web är relevanta: Intelligence (military, etc.) samt Cognitive Biases and Blindspots.

Slutligen en bok man borde beställa: Inevitable Illusions: How Mistakes of Reason Rule Our Minds av Massimo Piattelli-Palmarini.

Posted by hakank at 03:50 EM Posted to Kognitiva illusioner | Comments (4)

Dagens folkomröstning

Nu har jag utnyttjat min medborgerliga rättighet och röstat.

Även om jag inte är 100 procent säker på mitt val är det viktigt att ta till vara på de möjligheter som finns att demokratiskt påverka Sveriges och kanske även andra länders framtid.

Se även Steffanies mer vältaliga uppmaning.

Gå och rösta!

Posted by hakank at 11:03 FM Posted to Diverse

september 11, 2003

Tomhet

Liksom Malin och många, många andra har jag hela dagen lamslagen lyssnat på radio, sett på TV, läst tidningar och bloggar för att försöka förstå det overkliga som hänt. Och för att försöka fylla ut tomrummet.

Nu har nästan alla TV-program om Anna Lindh tystnat för idag.

Alla ord är ändå för ofullständiga.

Posted by hakank at 11:07 EM Posted to

september 10, 2003

Recension av Mitchell Waldrop: Complexity

Detta är en liten recension av Mitchell Waldrop: Complexity: The Emerging Science at the Edge of Order and Chaos.

En av anledningarna till att jag började läsa böcker inom komplexitetsteori (emergensteori, självorganiserande system etc) är att jag har velat få en historisk bakgrund till forskningen kring komplexa nätverk. De böcker jag läst i detta ämne har berättat väldigt lite om det som föranledde forskningen, t.ex. det man forskade kring på Santa Fe Institute där Duncan Watts och Steven Strogatz var när Watts skapade sin inspirationgivande teori om komplexa nätverk.

När jag läste Johnsons Emergence: The Connected Lives of Ants, Brains, Cities, and Software blev jag lite besviken eftersom jag inte hittade så många direkta sådana kopplingar; boken är definitivt intressant att läsa av andra skäl, om inte annat för att den är rätt mycket nyare än Waldrops bok.

Waldrops berättar historien om just Santa Fe Institute, från historien bakom grundandet av institutet fram till någon gång 1992 då bokens gavs ut. Det beskrivs lättsamt hur många av nyckelpersonerna kom till institutet, var de gjorde innan och vad de gjorde under Santa Fe-tiden. Tyvärr slutar boken 1992, men det är ju inget att skälla på boken för. Han har kritiserats för att i princip enbart beskriva Santa Fe-folket, men det gör också att boken har fått en naturlig ram att skriva kring. Waldrop nämner också, om än parentetiskt, andra personer än de som besökt Santa-Fe.

Boken är skriven som en väldigt lång tidningsartikel, med anekdoter, utdrag från intervjuer av och lite citat från böcker/artiklar skrivna av huvudpersonerna. Det finns ett par huvudspår personifierade av Brian Arthurs forskning om ekonomi, John Hollands forskning om liv via genetiska algoritmer, Stuart Kauffmans om booleanska nätverk och självorganisation, Chris Langton om cellulära automater och artificiellt liv etc, samt hur deras teorier befruktar varandra. En av bokens standardansatser är att beskriva den ensamme forskaren som plötligt upptäcker att han inte är ensam om sina märkliga fundering om världen. Kanske lite väl programmatiskt men det funkar.

Det är mycket fascinerande att läsa boken, inget snack om det, men tyvärr ger den ibland ett splittrat intryck och jag förstår inte riktigt hur kapitelindelningen är gjord. Tydligen har James Gleicks bok Chaos varit ett stilistiskt föredöme, och jag har samma kritik mot Gleicks bok: rörig men beskriver ett mycket fascinerande ämne.

Informationen som ges i 'Complexity' är bra och intressant. Waldrop klarar rätt bra av att populärt förklara de olika begrepp som finns inom området: självorganisation, emergenta fenomen, artificiellt liv, genetiska algoritmer, cellulära automater etc. Troligen beror det på att han oftast använder forskarnas egna förklaringar, och metaforer och inte försökt skapa egna (krystade) förklaringar.

Man kan också notera att det inte finns en enda förklarande bild eller fotografi i boken. Det är synd, eftersom vissa begrepp skulle (trots allt) må bra av lite kompletterande bilder.

Personligen fick jag också reda på en massa kopplingar mellan olika forskningsområden jag inte haft klart för mig tidigare. Se t.ex. min blogganteckning Data mining, machine learning och emergens häromveckan.

Några kapitel som (positivt) står ut är det första kapitlet (om Brian Arthur) samt de två näst sista kapitlen om Doyne Farmer (en ständigt uppdykande personlighet!) respektive funderingarna vad emergensteorin kan ha för konsekvenser för "världen". Båda dessa kapitel kändes faktiskt som om de skulle vara lämpade som avslutningskapitel. I flera kapitel känns det dock som tomgångskörning och innehöll lite onödiga utvikningar. T.ex. när det berättas om Langtons olycka som gjorde honom förlamad i flera månader och beskrivs rätt långdraget över flera sidor. Fast på något sätt lyckas Waldrop ändå att få in det som ett viktigt led i Langtons utveckling av sina teorier.

På det hela taget är jag mycket nöjd med Waldrops bok och vill gärna rekommendera den till någon som är intresserad av komplexitet och emergenta fenomen. Eftersom den är lite gammal bör man dock komplettera med andra böcker.

Nå, har jag då fått reda på vad jag ville om relationen mellan emergensteorin och komplexa nätverk? Kanske inte fullt ut, men jag ser inte längre komplexa nätverk som en helt-plötsligt-uppdykande idé hos Duncan Watts eller Albert-Laszlo Barabasi, utan mer som en del i en längre och större forskningstradition.

Lite mer om vad jag skrivit om komplexitet (etc) finns i anteckningarna som finns i Dynamiska system. Se även anteckningarna i Social Network Analysis/Complex Networks.

Posted by hakank at 02:12 EM Posted to Agentbaserad modellering | Komplexitet/emergens | Social Network Analysis/Complex Networks

Bloggares födelsedagar

Med sin sedvanliga snabbhet och beredvillighet har Mats Andersson skapat en sida för att samla främst bloggares födelsedagar. Se hans annonserande av tjänsten i När fyller du år?.

Gå gärna och fyll i din födelsedag på Min födelsedag!.

Posted by hakank at 01:03 EM Posted to Blogging | Comments (1)

september 09, 2003

Hur bedömer vi lycka?

I New York Times-artikeln The Futile Pursuit of Happiness beskrivs forskning om hur vi bedömer lycka och gör förutsägelser om framtida lycka ("lyckoberäkningar"). Kommer mitt liv verkligen påverkas så mycket som jag tror när jag köpt den där nya datorn?

A professor in Harvard's department of psychology, [Daniel] Gilbert likes to tell people that he studies happiness. But it would be more precise to say that Gilbert -- along with the psychologist Tim Wilson of the University of Virginia, the economist George Loewenstein of Carnegie-Mellon and the psychologist (and Nobel laureate in economics) Daniel Kahneman of Princeton -- has taken the lead in studying a specific type of emotional and behavioral prediction. In the past few years, these four men have begun to question the decision-making process that shapes our sense of well-being: how do we predict what will make us happy or unhappy -- and then how do we feel after the actual experience? For example, how do we suppose we'll feel if our favorite college football team wins or loses, and then how do we really feel a few days after the game? How do we predict we'll feel about purchasing jewelry, having children, buying a big house or being rich? And then how do we regard the outcomes? According to this small corps of academics, almost all actions -- the decision to buy jewelry, have kids, buy the big house or work exhaustively for a fatter paycheck -- are based on our predictions of the emotional consequences of these events.
...
Gilbert and his collaborator Tim Wilson call the gap between what we predict and what we ultimately experience the ''impact bias'' -- ''impact'' meaning the errors we make in estimating both the intensity and duration of our emotions and ''bias'' our tendency to err. The phrase characterizes how we experience the dimming excitement over not just a BMW but also over any object or event that we presume will make us happy. Would a 20 percent raise or winning the lottery result in a contented life? You may predict it will, but almost surely it won't turn out that way. And a new plasma television? You may have high hopes, but the impact bias suggests that it will almost certainly be less cool, and in a shorter time, than you imagine. Worse, Gilbert has noted that these mistakes of expectation can lead directly to mistakes in choosing what we think will give us pleasure. He calls this ''miswanting.''

Flera av Wilsons artiklar om affective forecasting finns här.

Daniel Kahneman har skrivit många artiklar om hur vi gör bedömningar under osäkerhet och hur vi tänker (oftast fel) kring sannolikhetsteoretiska problem. T.ex. finns ett flertal av de klassiska artiklar som hans skrev tillsammans med Amos Tversky i boken Judgment under Uncertainty: Heuristics and Biases. Tyvärr har jag endast läst spridda artiklar från boken. Men tänk vad lycklig jag kommer bli när jag har läst hela...

Posted by hakank at 10:00 FM Posted to Kognitiva illusioner

september 08, 2003

Om vardagligt beteende och rutiner

"Vardagligt beteende". Kan det vara intressant att studera? Det tycker man i Journal of Mundane Behavior, en akademisk skrift som funnits sedan 2000.

Det finns något i ansatsen som tilltalar mig mycket i studier av vardagsfenomen, i alla fall som komplement till forskningen om mer sällsynta eller extrema händelser som t.ex. krig. Vi tillbringar så mycket tid i den vanliga vardagen att det är väl värt forskning.

Introduktionsartikeln Introduction: To Mundanity and Beyond... förklarar syftet med tidskriften:
In this time of visual excess, information overload, and mass media blitzkriegs upon our senses, then, it seems strange that a journal devoted to studying “the mundane” would be established. This, too, is part of the reason for the establishment of Journal of Mundane Behavior: Most of us don't live Jerry Springer lives. We get up at some ungodly hour, commute an insane distance to work, live in a 6-by-6-foot cubicle for 8 or more hours, reverse the insane commute, and go home to “our lives.” This amounts to probably 60% or more of our lives, and the editors here think that this vast amount of energy, effort, and in some cases sheer drudgery deserves some attention. But this is not the only part of our lives we consider “mundane”; in actuality (and this is not to be “post-modern” about it in any sense of the word) we're not exactly sure what constitutes “the mundane.” A good thesaurus says that “mundane” doesn't simply refer to the ordinary or everyday, but also the secular, the earthly, the worldly things in our lives, making it the opposite of “sacred.” How droll. The editors of Journal of Mundane Behavior believe that the everyday, the earthly, the worldly represents a part of what is sacred about our lives; and yet, as I've said before, all we get is the outlandish, the extraordinary, the distinguished.

Se även tidskriftens Mission Statement.

ABCNews skrev en presentationsartikel Research of the Ordinary när första numret kommit ut.

Några exempel:

Remarks on the social organisation of space and place.

Bathroom English: Utilizing Private Mundanity to Maximize Second Language Acquisition

The Ubiquity, Functions, And Contexts Of Bullshitting.

"I'm sick of shaving every morning": or, The Cultural Implications of "Male" Facial Presentation.

Om rutiner
Häromdagen skrev nj.com en artikel You can't spell routine without R-U-T om bland annat Scott Schaffer som är grundare till Journal of Mundane Behavior. Denna artikel skriver lite om vardagsrutinernas betydelse, både dess fördelar och faror.

Posted by hakank at 09:33 FM Posted to Diverse | Comments (8)

september 07, 2003

Veckodagsnamn på google - återkomsten

För ett tag sedan gjordes en analys av förekomster av veckodagsnamn på google. Se min anteckning Veckodagsnamn på google för mer om bakgrunden till detta projekt.

Edliga löften gavs att återkomma med en ny sådan när vi fått data från en hel månad. En sådan analys görs i Google veckodagsnamnsanalys 2.

Möjligen, jag skriver möjligen, kommer en ny analys att göras vid något senare tillfälle.

Posted by hakank at 09:34 EM Posted to Statistik/data-analys

september 05, 2003

Digital Grusväg

Senaste numret av Digital Grusväg är nu ute.

Detta nummer domineras av lite olika smaker av datorgenererad musik.

Posted by hakank at 07:39 EM Posted to Diverse | Comments (4)

september 04, 2003

Senaste KDnuggets

Senaste nyhetsbrevet från KDnuggets har kommit.

Ett axplock:

KDD Cup 2003 Winners. Se även KDD Cup 2003.
Bayesian filtering against spam? Se även Steven J. Vaughan-Nichols artikel Saving Private E-mail.

Posted by hakank at 08:13 EM Posted to Machine learning/data mining

Google Frequent Searchers

googles har tydligen något som heter Google Frequent Searchers.

Do you search with Google a hundred times a day? Do you reach for Google before the phonebook, the dictionary or the newspaper? Do you think, just maybe, you're a Google frequent searcher?

The counter tells you how many searches you've conducted since it began counting. The color bar is just a visual representation of that information, showing you how far you've progressed. If the number contains more than 3 digits (or your color bar marker is more red than blue), you truly are a Google frequent searcher.

Tyvärr visas inget i mina webbläsare (galeon, opera, mozilla samt netscape) under Linux RedHat så jag vet inte riktigt hur "google-spectrum-stressen" känns. En vän med ungefär samma konfiguration berättade att han sett det igår.

Intressant nog finns det exakt en sökträff när jag (i skrivande stund) gör ett googlesök på sökning på URL-en och bara sidan själv när jag söker på "Google Frequent Searchers".

Någon som sett något mer om detta?

Posted by hakank at 07:36 EM Posted to Sökmotorer

september 03, 2003

Senaste First Monday

Septembernumret av First Monday är här.

Några av artiklarna

Giving E-mail back to the users: Using digital signatures to solve the spam problem av Trevor Tompkins och Dan Handley
The current status and potential development of online news consumption: A structural approach av An Nguyen
An exploration of predatory behaviour in cyberspace: Towards a typology of cyberstalkers av Leroy McFarlane and Paul Bocij.

Posted by hakank at 08:37 FM Posted to Diverse

september 02, 2003

New York Times om genetisk poesi

I From Genetic Poetry to the Web's Favorite Color skriver New York Times bl.a. om Darwinian Poetry, ett försök att skapa poesi via genetiska algoritmer. (Kalle skrev lite om detta projekt för ett tag sedan.)

I artikeln nämns en sajt som också verkar lite skoj: speech accent archive.

Posted by hakank at 09:05 FM Posted to Artificiell intelligens

En optisk illusion har fått sin förklaring

En optisk illusion, vattenfallsillusionen, har fått sin förklaring enligt Fatigued neurons explain waterfall illusion.

It is an illusion that has bedazzled people since Aristotle described it 2000 years ago. If you look at a waterfall for a short time, then look at the bank beside it, the bank will appear to drift upwards. Now an experiment that monitors brain activity has explained how the "waterfall effect" arises.

Vilket, såvitt jag förstår, är samma effekt som att man tycker att bilden rör sig efter att ha tittat på eftertexterna till en film en längre stund.

Lite mer om optiska illusioner.

The waterfall illusion
Optical Illusions
google-kategorin: Arts > Performing Arts > Magic > Online Tricks

Sedan måste jag ju bara nämna de märkliga Lego-modellerna av några Escher-tavlor. Tack Mats för påminnelsen!

Posted by hakank at 08:46 FM Posted to Kognitiva illusioner | Comments (1)

Datorgenererad musik

I BBC-artikeln The Robot Composer, med underrubriken "Can computers write music?", berättas lite om datorgenererad musik. Notera att en del av länkarna i artikeln är fellänkade, däremot verkar textversionen av länkarna vara korrekta.

Som gammal jazzbassist är jag speciellt förtjust i GenJam.

Lite fler länkar om datorgenererad musik finns i
Yahoo-kateogorin Entertainment > Music > Computer Generated > Computer Generated Composition.

Posted by hakank at 08:10 FM Posted to Artificiell intelligens

september 01, 2003

Mina böcker och filmer på Amazon

Tack vare inspiration och en instruktiv instruktion från Peter Lindberg har jag idag lyckats publicera de böcker och filmer jag registrerat och betygsatt på Amazon.

Min About me-sida.

Mina Shared purchases. Merparten har jag dock inköpt på endera av två kända svenska e-boklådor alternativt någon svensk e-filmlåda.

Anledningen till att alla står som uppdaterade idag var att jag var tvungen (tror jag) att klicka för dem som "sharable" en-och-en.

Min Wish list. Tyvärr väldigt ofullständig just nu, men jag får väl skärpa mig. Länken är uppdaterad.

Förresten, jag fyller år den 12 januari. :-)

Posted by hakank at 09:00 EM Posted to Böcker | Comments (4)

Tillägg till "Data mining, machine learning och emergens"

Äsch, jag glömde ju bort att nämna följande bok, trots att jag lagt fram den och allt:

Stuart J. Russell, Peter Norvig: Artificial Intelligence: A Modern Approach
Innehåller "allt" inom ämnet artificiell intelligens. Förutom (machine) learning och olika sök-/optimeringsalgoritmer (med ett kort avsnitt om genetiska algoritmer) går författarna igenom tekniker för representation och bearbetning av kunskap, planering, teoremlösning etc.Allt mycket fascinerande! Det är en tjock bok som är en höjdare som översikt.

Se även bokens sajt.

Posted by hakank at 08:09 EM Posted to Machine learning/data mining

Data mining, machine learning och emergens

Sedan ett antal (4-5) år har jag varit intresserad av data mining och machine learning, och läst en hel del böcker om den mer statistiska approachen, artificiella neurala nätverk, genetiska algoritmer etc, men inte förrän på sistone upptäckt kopplingen till emergensteorin.

"Data mining" och "machine learning" betecknar olika saker men används ofta för samma sak, nämligen att utifrån en datamängd (eller system som genererar data) lista ut något om den process (etc) som genererat datan. Machine learning betecknar också forskning kring hur man skapar system som lär sig själva via input, t.ex. en bil som styr givet input till ett neuralt nätverk, backgammon-spelande system (via neurala nätverk/genetiska algoritmer), vilket är något som är tätare kopplat till emergensteorin än ren dataanalys.

En av de orsaker till att jag är fascinerad av data mining/machine learning (och statistisk analys) är just att man med hjälp av data kan skapa en "bild" av ett "system" för att se vad som döljer sig bakom, t.ex. lära ett begrepp med hjälp av exempel, lista ut köpvanor hos de som köper saker, se vilka attribut (faktorer) som är viktigast bland en stor mängd olika attribut etc etc.

Det verkar nästan magiskt att man kan göra sådant. Algoritmerna är relativt enkla så magin försvinner kanske lite grand när man läser mer i ämnet. Å andra sidan är jag fortfarande fascinerad när jag ser en duktig trollkonstnär även om jag vet hur denne gör sina tricks.

När jag nu har börjat läsa mer om komplexa adaptiva system utifrån emergensperspektivet har jag upptäckt viktiga länkar mellan neurala nätverk, genetiska algoritmer, och andra (själv)lärande system till emergensteorin.

Speciellt genetiska algoritmer skapades (i alla fall om man får tro Mitchell Waldrop i hans Complexity) för att undersöka teorin om hur sådana emergenta fenomen uppstår, liksom neurala nätverk skapades för att studera hur det mänskliga medvetandet fungerar. Andra tekniker, t.ex. Quinlans beslutsträd (se slutet på min anteckning JMLR Special Issue on Inductive Logic Programming) skapades bland annat för att förstå hur vi kan lära oss begrepp induktivt med hjälp av data, vilket kan ses som ett emergent fenomen eller åtminstone kopplat till detta.

Böckerna jag tidigare läst tar nämligen inte upp den emergenta sidan av forskningen utan behandlar i stort sett endast den tekniska delen, dvs teorin bakom (matematiken och/eller algoritmerna) eller hur man implementerar sådana system. Möjligen står det lite historiskt i inledningarna av böckerna, men alltså inget jag har "tänt till" på. Trist att jag inte upptäckt/insett detta tidigare!

Genetiska algoritmer har jag i princip sett endast som ett sätt att optimera lösningar, även om det har lockat lite med den biologiska kopplingen. Cellulära automater, som jag bland annat läste en del om när jag pluggade datalogi, sågs som teoretiska beräkningssystem, men inte som något emergent, även om jag tillbringade ett rätt stort antal timmar med Game of Life-simuleringar. Och Hofstadter skrev i sin Gödel Escher Bach-bok en hel del om emergenta fenomen.

Den första gången jag "nysåg" t.ex. genetiska algoritmer var i Duncan Watts bok Small Worlds, där han skrev om dem på ett sådant sätt att jag började bli intresserad igen, men eftersom jag inte ville avvika från min social network analysis/complex networks-väg så ignorerade jag denna "irrfärd".

Jag inser att jag - nu i min feberyra - möjligen överskattar kopplingarna. Men, hur som helst, data mining/machine learning är ett fascinerande område. (Man kanske inte ska blogga feberanfrätt i seriösare ämnen, liksom man inte bör blogga intoxikerad då...)

Böcker om data mining/machine learning
Här är några av de böcker jag läst om data mining/machine learning, beskrivet från den "tekniska sidan". Notera att dessa böcker alltså inte tar upp emergensfenomenet utan diskuterar en massa tekniker för att analysera datamängder eller lösa optimeringsproblem etc.

Tom Mitchell: Machine Learning
Är nog fortfarande den bästa introduktionsboken, även om den har några år
på nacken. Har ett kapitel om genetiska algoritmer som optimeringsmetod, liksom ett kapitel om neurala nätverk.

David J. Hand, Heikki Mannila, Padhraic Smyth: Principles of Data Mining
En inträngande genomgång om en massa olika tekniker att analysera data.

Richard O. Duda, Peter E. Hart, David G. Stork: Pattern Classification
En annan klassiker. Teknisk.

Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques.
Behandlar ämnet utifrån ett databasperspektiv.

Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.
Detta är en av mina biblar eftersom den beskriver mitt favorit-data mining-system (Weka). Den är inte lika teknisk som ovanstående böcker och behandlar inte allt som de gör. Däremot förklarar den de saker den förklarar på ett föredömligt sätt.

Michael J. A. Berry, Gordon Linoff:Data Mining Techniques For Marketing, Sales, and Customer Support
Lite gammal (1997) men behandlar data mining på ett konkret sätt, utifrån marknadsdata. Målgruppen är managementpersoner och kan läsas som en introduktion till data mining. Deras Mastering Data Mining: The Art and Science of Customer Relationship Management (från 2000) tyckte jag däremot inte alls lika bra om.

Se även mina bokrecensioner: Recension av Jesus Menas "Data Mining Your Website" och Recension av 'Building Data Mining Applications for CRM'.

Några lite mer lättsamma böcker:

Thomas A. Bass Predictors.
En underbar bok som berättar i en romanliknande form om några av hjältarna från både kaosforskningen och - visar det sig - emergensforskningen, nämligen Doyne Farmer och Norman Packard, som startar ett företag för att bli stenrika på börsen. De använder främst genetiska algoritmer och artificiella neurala nätverk för detta. Det står mycket lite om det tekniska men är en fascinerande resa.

Se även A few Prediction Company references.

David B. Fogel:
Blondie24
Självbiografi som berättar om hur författaren skapar ett Checkers-system med genetiska algoritmer och artificiella neurala nätverk. När jag nu tänker tillbaka på vad som står i boken är detta ett tydligt exempel på en "emergensapproach": författaren försöker att skapa en "riktigt" AI-system som utifrån nästan ingenting alls lär sig spelet och att spela riktigt bra. "Riktigt AI-system" i jämförelse med IBM:s schackmaskiner som "bara" är number crunching.

Själv har jag nu Prey av Michael Crichton som godnattlitteratur.
En vän till mig rekommenderade den och när han berättade att boken hade fyra sidors litteraturreferens om svärmintelligens, agent-baserad programmering/modellering samt Thomas Schellings 'Micromotives and Macrobehavior' var jag bara tvungen att köpa den. Speciellt långt har jag ännu inte kommit.

Posted by hakank at 07:26 EM Posted to Agentbaserad modellering | Böcker | Dynamiska system | Komplexitet/emergens | Machine learning/data mining

Alla Connections-artiklar kommer online

Connections, som är den officiella tidskriften för organisationen International Network for Social Network Analysis (INSNA), håller på att läggas ut elektroniskt. Många artiklar saknas fortfarande, men arbetet med inscanning av äldre nummer har tydligen påbörjats.

Det finns nu också ett index över samtliga publicerade artiklar.

Posted by hakank at 09:33 FM Posted to Social Network Analysis/Complex Networks

hakank.blogg

Anteckningar från en PopSci-junkie. Av Håkan Kjellerstrand (hakank@gmail.com).