« maj 2004 | Main | juli 2004 »

juni 30, 2004

Straffsparkar i fotboll och annan fotbollsmatematik

Apropå de många straffarna i fotbolls-EM.

Följande paper är en spelteoretisk modell av straffsparkar (ganska teknisk och har ännu inte luslästs):
P.A. Chiappori, S. Levitt, T. Groseclose: Testing Mixed Strategy Equilibria When Players Are Heterogeneous: The Case of Penalty Kicks in Soccer (PDF).
Abstract
This paper tests the predictions of game theory using penalty kicks in soccer. Penalty kicks are modelled as a variant on matching pennies in which both the kicker and the goalie choose one of three strategies: left, middle, or right. We develop a general model allowing for heterogeneity across players and demonstrate that some of the most basic predictions of such a model survive the aggregation necessary to test the model using real-world data, whereas others do not. We then present and test a set of assumptions su¢cient to allow hypothesis testing using available data. The model yields a number of predictions, many of which are non-intuitive (e.g. that kickers choose middle more frequently than goalies). Almost all of these predictions are substantiated in data from the French and Italian soccer leagues. We cannot reject the null hypothesis that players are behaving optimally given the opponent's play.

En av författarna till ovanstående paper, Steven Levitt, har skrivit andra skoj saker; tyvärr inte kostnadsfritt nedladdningsbara.

Ovanstående länkar: via Full Context


Lite mer efterforskningar ledde bl.a. till nedanstående om fotbollsmatematik

John Haigh, författare till boken Taking Chances: Winning With Probability, har skrivit några essäer om fotbollsmatematik.

Blast it like Beckham?. En spelteoretisk analys av straffsparkar, men ska nog ses som en introduktion till spelteori snarare än en vetenskaplig analys av straffsparkar.

On the ball innehåller däremot mer empiriska rön.

Om tiderna för målens läggande (som funderades kring i Optimering av fotbollstittande):

Data collected from professional soccer matches suggest strongly that the
times when goals are scored are fairly random, with two minor
modifications: more goals are scored, on average, in a given five-minute
period late in the game than earlier; and "goals beget goals" in the sense
that the more goals that have already been scored up to the present time,
the greater the average number of goals in the rest of the match. But
these two points are second order factors: by and large, the simple model
which assumes that goals come along at random at some average rate, and
irrespective of the score, fits the data quite well.

Om sannolikheten för ett lag att vinna matchen om det lägger första målet:

So in the Premiership, indeed most professional soccer, we expect a team
to win about 2/3 of the games in which it scores first, and draw about 1/5
of them. That offers the warm comfort that if your team scores first, it
should lose only about one time in seven. You can check the match outcomes
each week, and over a season, from information in the newspapers. Real
data do conform well to these proportions.


För övrigt är Plus Magazine en mycket intressant sajt för den som vill läsa denna typ av artiklar. Fler spelteoriartiklar från Plus Magazine finns här.


Några andra skrifter på samma tema:
Game Theory: Additional Topics, Shooting at the goalkeeper. Kort exempel.
Kicker/goalie = pitcher/batter
Professionals Play Minimax: Appendix (PDF),

Posted by hakank at 08:01 EM Posted to Statistik/data-analys

juni 28, 2004

Network Logic

Samlingsboken Network Logic - Who governs in an interconnected world?, utgiven av Demos, innehåller papers om sociala och andra nätverk, och presenteras på följande sätt:

From the Internet to Al Qaeda, the teetering electricity grid to old school ties, we live in a world of networks. A profoundly disruptive shift has occurred in our societies, making networks the most important organisational form of our time and reshaping the activities of families, governments and businesses.

Our public response to these changes has so far been partial and fragmented. Although social, political and technological networks hold our modern world together, we lack the language to apply them to solving our common problems.

But if we can learn more accurately to understand the patterns and impacts of networks, we can begin to tap their full potential for organisation and decision-making, and to make possible new forms of coordination and collective action.

In this collection of essays, Demos seeks to address that challenge. Drawing on some of the world's leading thinkers on networks across a range of disciplines, we seek to distil the most important lessons from the study of networks and address some of the critical questions that our 'network society' presents: from the distribution of power and inequality to the future of civic participation and the impact of new technologies.

Embracing this network logic will help us to change not just our tools of intervention, but our ways of seeing the world.

Ett urval:

Boken finns att ladda ner som helhet eller delar via ovan nämnda sida.

Posted by hakank at 07:02 FM Posted to Social Network Analysis/Complex Networks

juni 26, 2004

Reklam i bloggen - litet klargörande samt undersökning

I kommentaren till Google AdSense på svenska skriver Lars Olofsson:
Får du någon pröjs för Amazonloggan då? :-).

Det enkla svaret på detta är: Jag har ännu inte tjänat en spänn, men så har det ju inte gått så många dagar.

Lars smiley noterades, men man kan ändå se framför sig hans högra (eller är det det vänstra?) ögonbryn höjer sig kritiskt över en till synes dubbelmoral. Här är därför en förtydligande kommentar kring detta.

Kanske borde förklaras att avsaknaden av AdSense inte beror på principiella eller moraliska principer som är emot betald reklam, utan helt enkelt att jag vill ha kontroll över vilken - om någon - reklam som finns här; reklam via AdSense ger inte någon sådan kontroll. Och inte heller det är något strikt moralisk princip och ska inte ses som ett fördömande av dem som har reklam på sina bloggar. (Bloggspam fördömes däremot kraftigt och raderas obönhörligen.)

Man kan hoppas att det svaga vinstintresset inte kommer att påverka denna bloggs framtida utformande. Visst finns det en (möjligen dold) agenda för bloggen, men det är definitivt inte att tjäna länkpengar.

Jag har för mig att det i höstas fördes en svensk bloggdiskussion om reklam på bloggarna, möjligen i samband med att AdSense släpptes. Hittade dock inga animerade diskussioner via google.

Uppdatering
Henrik Torstensson har som vanligt stenkoll och räknar upp de ingående inläggen i kommentaren till denna anteckning. Han bloggar även själv om det i Google AdSense på svenska. Följ gärna hans råd: Innan alla argument om [reklam i bloggar] tröskas igenom, kanske förra sensommarens diskussion i ämnet bör ägnas några minuter.


Liten undersökning
Vad gäller Amazon har det ju skapats länkar dit sedan bloggen startades. Nyfikenheten drev fram en undersökning hur många länkningar eller omnämnanden som egentligen gjorts:

Av de hittils skriva 603 blogganteckningarna (på hakank.blogg) har det funnits minst en Amazonlänk i 128 anteckningar, dvs något mer än var femte anteckning. Totalt har 308 omnämnanden av Amazon gjorts, antingen som länk eller prat, inklusive text i kommentarerna.

Dessa värden kan jämföras med antal omnämnande av (ett urval av) andra sajter/varumärken/etc, både kommersiella och icke-kommersiella. Länkarna är inte nödvändigtvis de länkar som används tidigare. Inga bloggar visas här, men se nedan.

Amazon: 308
Google: 219
Orkut: 70
Nature: 43
Gmail: 32
First Monday: 32
Linux: 29
KDnuggets: 25
arXiv.org e-Print archive : 20
New York Times: 18
BBC: 18
Sveriges Radio: 16
Bokus: 15
New Scientist: 14
IMDB: 13
HP Labs: 12
Microsoft: 11
Aftonbladet: 8
Internetworld: 7
Nationalencyklopedin: 6
DN: 6
AdLibris: 3

Ovanstående kan ses som någon sorts blogglänkprofil som troligen säger någonting om inriktningen på bloggen. Det vore intressant att se om denna skiljer sig avsevärt från andra bloggars motsvarande profiler.

Ytterligare statistik: Det var 861 unika URLar fördelade på totalt 2122 länkar. Dessa inkluderar URLar i kommentarerna, men exkluderar URLarna till kommentatorernas egna hem(sida|blogg).


Vad gäller länkar till andra svenska bloggar(e), även här exkl. länkar till hembloggen i eventuella kommentarer:
Klocklös i tiden: 40
Peter Lindberg/Tesugen: 27
Bengt O. Karlsson (flera bloggar): 21
mymarkup.net: 17
Enkelriktat: 15
Blind höna: 12
Ettanolla::version noll: 8
Chadie NU: 7
steffanie.net: 7
Infontology: 7
Månhus beta: 7
Lars Olofsson: 6

Vilket kan jämföras med de 10 flitigaste kommenterarna i Ett år med blogg - första bloggelsedagen, som visar att i princip är samma personer inblandade.

Posted by hakank at 10:42 FM Posted to Blogging | Comments (9)

juni 25, 2004

Google AdSense på svenska

Google har tydligen börjat med AdSense för svenska sajter. Se här och där (för svensk text krävs nog att man kör den svenska språkinställningen på google).

Innevarande blogg(ar) kommer dock inte, inom den överskådlga framtiden, vara behäftade med slik reklam. Däremot skulle det redan nu inte tackas nej till en vänligt inställd mecenat. (NE förklarar mecenat på följande sätt: person som understöder konst eller vetenskap särsk. genom generösa gåvor. HIST.: sedan 1682; till namnet på den romerske statsmannen Gajus Mæcenas (död år 8 f.Kr.))

[Justering här är endast en test.]

Posted by hakank at 09:03 FM Posted to Sökmotorer | Comments (6)

Om syftenas beräkningar

A Calculus of Purpose (PLos Biology) diskuterar ändamålsförklaringar inom biologin.

Why is the sky blue? Any scientist will answer this question with a statement of mechanism: Atmospheric gas scatters some wavelengths of light more than others. To answer with a statement of purpose—e.g., to say the sky is blue in order to make people happy—would not cross the scientific mind. Yet in biology we often pose “why” questions in which it is purpose, not mechanism, that interests us. The question “Why does the eye have a lens?” most often calls for the answer that the lens is there to focus light rays, and only rarely for the answer that the lens is there because lens cells are induced by the retina from overlying ectoderm.
...
[O]ne can begin to discern several of the elements that, when present together, elevate investigations in computational biology to a level at which ordinary biologists take serious notice. Such elements include network topologies anchored in experimental data, fine-grained explorations of large parameter spaces, identification of “useful” network behaviors, and hypothesisdriven analyses of the mathematical or statistical bases for such behaviors. These elements can be seen as the foundations of a new calculus of purpose, enabling biologists to take on the much-neglected teleological side of molecular biology. “What purpose does all this complexity serve?” may soon go from a question few biologists dare to pose, to one on everyone's lips.

Posted by hakank at 08:45 FM Posted to Komplexitet/emergens

Jochen Fromm om Agent Oriented Software Engineering

Jochen Fromm beskriver i Agents, Roles and AOSE sina åsikter om vad agentorienterad systemutveckling kan och inte kan.

Does Agent Oriented Software Engineering (AOSE) make sense ? Yes, under certain conditions, but for a normal software developer and programmer familiar with object-oriented programming, the name is perhaps a bit misleading.
...
Agent Oriented Software Engineering (AOSE) makes no sense for closed standard software systems or if you use free, unlimited and unconstrained agents, pure agents without rules and roles. AOSE makes more sense for open applications in a complex unpredictable environment and if you are assigning "roles" to each agent.


Se även blogganteckningen Jochen Fromm: The Emergence of Complexity.

Posted by hakank at 08:11 FM Posted to Systemutveckling

Mona Lisas leende

New Scientist Noisy secret of Mona Lisa's smile:
For centuries, artists, historians and tourists have been fascinated by Mona Lisa's enigmatic smile. Now it seems that the power of Leonardo da Vinci's masterpiece comes in part from an unlikely source: random noise in our visual systems.
...
As would be expected, noise that lifted the edges of her mouth made Mona Lisa seem happier, and those that flattened her lips made her seem sadder. More surprising though, was how readily the visual noise changed people's perception of the Mona Lisa's expression.

I artikeln finns även en serie bilder där leendet har blivit manipulerat för att visa andra uttryck än det hemlighetsfulla.

En något annorlunda presentation av ovanstående finns i Daily Times-artikeln Snow, the secret of Mona Lisa’s smile.


De lyckliga själar som har Science Direct-konto kan läsa papret från Vision Research, Volume 44, Issue 13. Det heter "What makes Mona Lisa smile?" [NB: Eftersom sådant konto saknas har papret inte lästs. Papret har nu erhållits. Stort tack!]

Abstract
To study the ability of humans to read subtle changes in facial expression, we applied reverse correlation technique to reveal visual features that mediate understanding of emotion expressed by the face. Surprising findings were that (1) the noise added to a test face image had profound effect on the facial expression and (2) in almost every instance the new expression was meaningful. To quantify the effect, we asked naïve observers to rank the face of Mona Lisa superimposed with noise, based on their perception of her emotional state along the sad/happy dimension. Typically, a hundred trials (with 10 or more samples for each rank category) were sufficient to reveal areas altering the facial expression, which is about two orders of magnitude less than in the other reverse correlation studies. Moreover, the perception of smiling in the eyes was solely attributable to a configurational effect projecting from the mouth region.

Posted by hakank at 07:58 FM Posted to Statistik/data-analys | Comments (1)

juni 24, 2004

Gmail Hype Ending?

Från Blogoscoped:
I think the point arrived there are more people offering out Gmail than those wanting Gmail.
...
If Google wants to keep the hype going they better open Gmail to the public within the next days.

Posted by hakank at 07:24 FM Posted to Diverse | Comments (1)

juni 22, 2004

Constraints, Peter Lindberg och Shaggy Dog

Peter Lindberg skriver i Oulipo and Constrained Universes of Expression om constrained i olika former. Peter länkar till sina tidigare och mycket intressanta bloggningar i ämnet "Constrained Universes of Expression", vilka naturligtvis rekommenderas att läsas.

Han skriver även om den ganska nya bloggen MadInkBeard vars tema är "constrained" (tvungen eller tvingad är väl den bästa svenska motsvarigheten), såsom den fascinerande skriftformen "Constrained writing" som bl.a. författargruppen Oulipo excellerar i. Se lite mer om denna grupp i blogganteckningen OuLiPo. En översikt om constrained writing finns t.ex. på wikipedia.

Dock saknar jag min personliga favoritgenre, nämligen "shaggy dog", där man skriver en (normalt längre) historia som avslutas med en ordvits. Det finns flera olika betydelser av detta begrepp, men här innebär det att tvingadheten ligger i att man utgår från vitsen och skapar historien utifrån denna. En av de mest kända shaggy-dog-författarna var Myles na Gopaleen (pseudonym för Flann O'Brien), som i boken Best of Myles ger mängder av riktigt roliga exempel.

Några av mina egna shaggy dog-etyder finns att läsa här (sök efter "SHAGGY DOG OCH VITSAR", börjar på nummer 38).


Kan också passa på att nämna att i går var det exakt ett år sedan Peter och jag började e-brevväxla, ett faktum som också framkommer i Peters ovan nämnda mångfacetterade anteckning. Till dags dato har det totalt blivit cirka 378 mail - ungefär lika många av vardera skribent, något mer än ett om dagen alltså. Det har varit ömsom korta länkmail, ömsom väldigt långa essäer, ömsom varkendera och/eller ömsom både och. Oavsett vad, har det alltid varit skoj och lärorikt att läsa Peters mail. Hoppas att det varit lika roligt att skriva dem, Peter.

Posted by hakank at 11:21 EM Posted to Språk

Bloglines - igen

Johnny på stationsvakt skriver i Publika listan att han lagt ut sina Bloglines-prenumerationer publikt.

Tänkte inte vara sämre (men inte heller bättre) och göra detsamma. Tidigare har funnits viss tveksam kring detta, men det har gått över nu i och med att man kan välja att låta vissa foldrar vara o-publika. Så här är prenumerationslistan. Fortfarande finns dock tveksamhet att utnyttja den som en bloggrulle.

I Nackdelarna med Bloglines skriver Johnny om att det är för enkelt att prenumerera på nya flöden. Han har rätt, men det är en feature och inte en bugg.

För övrigt kan (åter?) nämnas en av de allra bästa finesserna med Bloglines är möjligheten att prenumerera på sökningar. Det är ett rackarns bra sätt att få koll på nya bloggar eller nyheter. Mina (officiella) sökningar ligger inte helt förvånande i foldern "searches".

En sista not: Myckenheten av svenska bloggar just nu beror på att jag använder Erik Stattins OPML-lista (länk finns på denna sida) för att importera så många som möjligt, för att i lugn och ro läsa dem. Viss omfoldring kommer säkert att göras.

Posted by hakank at 07:25 EM Posted to Blogging

juni 20, 2004

Wildcards i google - ett litet praktikfall

Av någon anledning (se Nedan) ville jag ha reda på ungefär följande: Vilka varianter finns av frasen hoppas att allting är bra med dig, där bra var det ord som hoppades att få synonymer till.

Efter lite testande blev det med följande sökfråga i google:
"hoppas att (allt OR allting) är * med *"

Både bra och dig i originalfrasen ovan ersattes med wildcards ("*"), och kan alltså stå för vilket ord som helst i fraskonstruktionen.

Några exempel på fraser som hittades:

Hoppas att allt är bra med dig
hoppas att allt är bra med er
hoppas att allt är okey med dig
Hoppas att allt är väl med dig
hoppas att allt är väl med han (sic!)
Hoppas att allt är ok med dig
hoppas att allt är väl med er
Hoppas att allt är bra med magen
Hoppas att allt är bra med valparna
...

Man kan också notera att eller-sökkonstruktionen (ord1 OR ord2) även fungerar i en frassökning, dvs inom citationstecken.

Det står inte så mycket om denna helords-wildcard på googles hjälpsidor, t.ex. här och det är därför denna blogganteckning skrevs.

I boken Google Hacks står det däremot mera. Dock endast i de första kapiteln, sedan är det mest beskrivningar av applikationer som utnyttjar Googles API.



(Nedan) bakgrunden till detta är - som det heter - en helt annan historia.

Posted by hakank at 08:52 EM Posted to Sökmotorer | Comments (4)

weblogs.se nere - en bra sak?

Naturligtvis saknar jag weblogs.se, liksom som flera andra att och hoppas att systemet ska återuppstå snart. Men det kan finnas något bra med denna typ av omruskningar i ens rutiner, speciellt om avbrottet blir långvarigt ("det kommer nog att ta ett tag" som Erik Stattin skriver i Living Without Weblogs.se).

Kanske weblogs.se har fungerat för bra för att intressanta förändringar och utmaningar ska ske i den svenska bloggorsfären? Kanske avbrottet leder till nya verktyg, nya idéer och nya möten?

Man tvingas nu att hitta nya vägar, och nya vägar leder till nya ställen att besöka. T.ex. har jag på de senaste dagarna hittat flera nya och intressanta bloggar som kommer att bevakas (huvudsakligen i Bloglines men även via Sweblogs.com).

I bloggantecknigen ovan länkar Erik till sin bevaknings-lista (kan importeras i Bloglines), och vad jag förstår kommer den att uppdateras regelbundet. Finns det andra sätt att blii informerad om nya bloggar?

Tyvärr kräver både Bloglines och Sweblogs att bloggarna har RSS-filer (eller motsvarande format), vilket alla bloggar inte har, såsom t.ex. Mats Andersson. Tänk på dem också!


Nu är weblogs.se onåbarhet självklart inte en stor katastrof, men för oss som använder systemet dagligen (kanske timligen eller minutligen) kan avbräcket kännas ordentligt.

Jochen Fromm skriver i The Emergence of Complexity att utveckling av nya emergenta fenomen ("system") sker genom en dynamik mellan skapande och katastrofer. (Bokens recenseras kort i Jochen Fromm: The Emergence of Complexity).

Så, låt oss nu skapa nya emergenta fenomen!

Posted by hakank at 04:55 EM Posted to Blogging | Komplexitet/emergens | Comments (6)

juni 19, 2004

weblogs.se

Steffanie frågar sysselsättningsbrist vad man ska göra så länge weblogs.se är onåbar.

Två Tre förslag:

Det ena är att befolka sin RSS-läsare (t.ex. Bloglines) med alla fina favoriter. Vilket nu är gjort.

Det andra är att fundera ut ett mer direkt substitut så länge. T.ex. så kan det ta upp till en timme innan Bloglines spindlar, och så länge vill man ju inte vänta.

Här följer ett fattigmansförslag:

Använd TrackBackfunktionen för detta! I varje inläggs som skrivs länkas till en därför avsedd blogganteckning, t.ex. just denna, varpå det jättedirekt kommer in i blogganteckningen. Sedan är det ju bara att bevaka denna anteckning som man bevakade weblogs.se . TrackBack-länken är denna.

Saknar bloggverktyget TrackBack-funktion kan man manuellt skriva en kommentar här.

Frågor? Kommentarer? Andra förslag?

(Ett problem är hur man ska få andra bloggare att läsa detta förslag Tänkte inte på det. :-)

Uppdatering 2004-06-19, kring 18-snåret
Annica påminner i en kommentar här nedan om Sweblogs.com som - i skrivande stund - visar de senaste uppdateringarna för 129 bloggar.

Posted by hakank at 10:38 FM Posted to Blogging | Comments (4)

Kontext i musiken

I Nature-artikeln Tunes create context like language skriver Philip Ball om forskning som studerat musikstycken med hjälp av tekniker som användas för t.ex. naturliga språk (Zipf's law). Finns det språklikande kontext i musiken?


Några citat från artikeln:
Ever felt as though a piece of music is speaking to you? You could be right: musical notes are strung together in the same patterns as words in a piece of literature, according to an Argentinian physicist.
...
Physicist Damian Zanette of the Balseiro Institute in Bariloche, Argentina, used this idea to test whether different types of music create a semantic context in a similar fashion.

Om skillnaden mellan tonal och icke-tonal musik:

Zanette says the finding implies that the reason many people find it unsatisfying to listen to atonal music is not simply because its harmonic and melodic structures are unfamiliar, but because the meaning or context of the piece is constantly changing.


Papret som refereras är
Damian H. Zanette: Zipf's law and the creation of musical context

Abstract:
This article discusses the extension of the notion of context from linguistics to the domain of music. In language, the statistical regularity known as Zipf's law -which concerns the frequency of usage of different words- has been quantitatively related to the process of text generation. This connection is established by Simon's model, on the basis of a few assumptions regarding the accompanying creation of context. Here, it is shown that the statistics of note usage in musical compositions are compatible with the predictions of Simon's model. This result, which gives objective support to the conceptual likeness of context in language and music, is obtained through automatic analysis of the digital versions of several compositions. As a by-product, a quantitative measure of context definiteness is introduced and used to compare tonal and atonal works.

Posted by hakank at 09:19 FM Posted to Komplexitet/emergens

Spam på Gmail - mycket enkelt men misslyckat spamtest

I Första spammet på Gmail diskuterades lite hur bra Gmails spamfilter är. Idag beslöts att göra ett enkelt och brutalt empirisk test av detta. Tyvärr gick det inte helt enligt planerna.

Ursprunglig design av experimentet
Tanken med detta första försök var att dunka upp samtliga spam som identifierats för det vanliga mailkontot ("hemmakontot") i tre olika omgångar. Varje omgång skulle avslutas med att rapportera mailen som spam (med "Report Spam").

Det skulle skickas 3829 spam tre omgångar à cirka 1200 per omgång, där ordningen skulle vara i samma ordning som de inkommit till hemmakontot (i.e. datumordning). Lejonparten av dessa mail hade identifierats som spam av SpamAssasin och hade SpamAssassins spam-headers intakta, vilket eventuellt gör det enklare att identifiera dem skulle Gmail bry sig om slika ting.

Testet var således endast på huruvida Gmail kunde identifiera spam såsom spam eller inte. Det omvända testades alltså inte, dvs huruvida Gmail kunde identifiera icke-spam såsom icke-spam. Ett fullständigt test ska naturligtvis testa båda varianterna.

Det beslöts också att avbryta så fort det blev något strul, antingen med Gmail elller med mailskickandet. Samt att rapportera resultatet ändå, såvida det inte var löljigt lite mail som hade skickats iväg (där "löjligt lite" inte definierades före experimentet).


Faktiskt försök
För själva uppdunkandet användes mailläsaren pine, där spammen enkelt märktes och sedan bouncades till gmailkontot.
.
Tyvärr blev det en timeout i mailskickandet redan efter 529 ivägskickade spam. Därefter avbröts försöket. Av dessa till Gmail inkomna mail identifierade Gmail 417 såsom spam och 112 som icke-spam, dvs en spamidentifiering på cirka 78% (417/529).


Sammanfattning
Det var alltså ett misslyckat försök som möjligen berodde på dålig design, dålig teknik och/eller helt enkelt otur.

Vad gäller resultatet kan man - om man är positivt lagd - säga att resultatet 78% korrekt identfierade spam är bättre än de 50-60% som nämndes i kommentarerna till ovan nämnda blogganteckning. Men det imponerar fortfarande inte.

Experimentet har trots allt bidragit till erfarenheter om hur man inte bör göra försök av denna typ. Möjligen görs testet om en annan regnig dag, i så fall med bättre design och teknik. Och tur.

Posted by hakank at 07:34 FM Posted to Diverse

juni 18, 2004

Ett år med blogg - första bloggelsedagen

Idag är det exakt ett år sedan hakank.blogg startade. Lite visste jag vad detta skulle innebära.

För vill jag tacka alla snälla läsare och bloggarvänner för alla intressanta, trevliga och framförallt uppmuntrande kommentarer som skrivits både här i bloggen, på andra bloggar och givits privat under det gågna året. Den svenska bloggosfären är en sfär man trivs i.

Men bloggning är inte bara att skriva utan även att läsa (och vice versa). Så även ett stort tack till alla ni som skriver så bra, underhållande och tankeväckande (och informationsrikt, men det är ett så tråkigt ord att använda i ett hyllningstal) på era bloggar. Naturligtvis finns det ett subset underbara människor som både skriver och läser. De tackas speciellt.

Anteckningen Fredagsfyran: Bloggning besvarar några frågor kring bloggningen, t.ex. vilka fördelar/nackdelan man upplever etc. Svaren står sig väl idag. Avslutningen kan upprepas: Och så länge fördelarna uppväger nackdelarna så mycket som de gör nu, fortsätter jag blogga.


När jag ser tillbaka på de anteckningar som gjorts (en fullständig lista finns här) kan man skymta en viss förskjutning av ämnen, stil och ansats. Om det är till det bättre eller sämre vet jag inte. Säkerligen kommer det att ske en och annan förskjutning under det kommande året också. I kommentaren till Det stora slaget om weblogs.se beskrivs bloggen som en "eclectic polyhedral octopus", och det kanske passar bra att inflika bilden här (källa: Wolfram Research):

Målet under nästa år blir att kunna uppvisa en blogg som motsvarar en av Eschers figurer. Tungt blir det...

Så lite statistik som endast gäller hakank.blogg. Länkbloggen Utan krusiduller är alltså inte inberäknad.

Antal blogganteckningar: 588
Antal kommentarer: 546
Vilket snittar cirka 0.93 kommentarer per blogganteckning.


10 flitigaste kommenterarna
Mats Andersson: 85
Bengt O.: 24
Niklas Johansson: 21
Lars Olofsson: 21
Erik: 17
Peter Löfgren: 17
David Pettersson: 15
jonas: 12
Peter Lindberg: 11
Chadie: 11

Själv skrev jag 189 kommentarer.

Den allra första kommentaren skrevs av Peter Lindberg.

Mest kända kommentatören är troligen Stuart Vyse i blogganteckningen Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition'.


Stort tack till er och till alla andra som gjort och gör livet roligare!

Posted by hakank at 08:49 EM Posted to Blogging | Comments (14)

Optimering av fotbollstittande, nya rön I

I Optimering av fotbollstittande efterfrågades statistik över mål i fotbollsmatcher för att kunna optimera sitt tittande. Originalanteckningen är nu uppdaterat med de nya rön som framkommit.

Posted by hakank at 07:29 EM Posted to Statistik/data-analys

juni 17, 2004

Första spammet på Gmail

För ganska exakt en timme sedan kom första spammet till mitt Gmail-konto. Det tog en hel vecka efter det publika publicerandet av mailadressen. Jag trodde att det skulle gå snabbare än så.

Intressant nog var det ett svenskt spam för något som jag redan har glömt..

Posted by hakank at 06:54 FM Posted to Diverse | Comments (6)

juni 16, 2004

Gmail-inbjudningar

OK, nu har kommit ännu fler Gmail-konton att dela ut.

Är det någon som känner mig (såväl vänner som bekanta - inklusive bloggkompisar och mailinglistekompisar) och som vill ha en invitation är det bara att maila mig privat till hakank@bonetmail.com eller hakank@gmail.com. Berätta gärna varför du vill Gmaila.

Se även den tidigare anteckningen Gmail.

Posted by hakank at 05:54 FM Posted to Diverse | Comments (14)

juni 15, 2004

Optimering av fotbollstittande

Såg till min glädje den andra halvleken av Sverige-Bulgarien-matchen i går kväll (och såg alltså 4 svenska mål!), trots att jag inte är så väldigt intresserad av fotboll.

Det fick mig att tänka på om man kunde optimera sitt fotbollstittande på något sätt. Målet är alltså att se så många mål som möjligt under kortast möjliga tid. I direktsändning. Förslaget att bara se repriserna eller sammandraget efter matchen är kreativt men missar poängen.

En à priorisk länstolsanalys: Man skulle kunna tänka sig att det kommer fler mål i andra halvlek än i första, och fler mål senare i en halvlek är tidigare. Å andra sidan tenderar väl slutet på andra halvlekar med 1-målsledningar att vara tråkiga då det ledande laget mesar och försöker att befästa sin position. Å tredje sidan försöker det förfördelade laget då pressa på för att det ska bli oavgjort. Etc.

Så, en öppen fråga: Finns det gjort någon statistisk analys över fördelningen av hur många fotbollsmål som görs under respektive spelminuter? Låt oss begränsa det till VM och/eller EM för enkelhetens skull (om det blir enklare).

Fråga kopplat till den nämnda optimeringen: Om man endast vill/kan/får titta på en match i två avsnitt om 15-minuter, vilka 15-minutersavsnitt ska man då välja för att det är störst chans att se många mål?


google-research
Det gjordes naturligtvis lite research kring detta. Varpå bl.a. följande hittades.

Using Soccer Goals to Motivate the Poisson Process (PDF), en skoj sak innehåller en del av det som efterfrågas, men fokuserar på tidintervallen mellan målen i stället för många mål som görs under en viss spelminut. (Det finns en viss relation mellan dessa två mätvärden, men jag skulle gärna vilja ha så "ren" data som möjligt.)

Tyvärr hittades inte den Excelfil som det talas om. Det hänvisas till data på sajten Fifa's World Cup som i och för sig verkar trevlig, men inte katten hittar jag någon relevant data.

I papret hänvisas även till en introduktion till Poissonfördelningar: Shark attacks and the Poisson approximation (PDF).


Annat som hittades när det letades:
A game theoretic view on soccer (PDF)
Daily Play at A Golf Course: Using Spreadsheet Simulation to Identify System Constraints.


Uppdatering 2004-06-18
Via källor - som vanligtvis är säkra, men just i detta speciella fall inte anser sig så väldigt säkra - rapporteras följande. Tack Wille och Jonas!

I onsdags var just detta uppe på tapeten i "hanssons historia" inför matchen Ryssland - Portugal-matchen. En av källorna berättade att denne har för sig att Hansson berättade ungefär följande om hittilsvarande mål i detta EM:

samt att detta EM så lång var extremt vad gällde sena mål.

Ja, det är så här långt vi kommit i denna undersökning. Tillsammans med andra kommentarer tyder det alltså på att det är - av rena måloptimeringskäl - bättre att se de sista minuterna i en match/halvlek än att inte göra det.


En annan sak. Som Chadie påpekar i sin kommentar är det inte bara målen som räknas. "Bra fotboll" är - för kännare i alla fall - mer än så. Låt mig då formulera om (eller snarare komplettera frågan).

Låt oss först anta att man är överens om vad "bra fotboll" innebär, dvs att alla begrepp är definierade. Frågan blir då: Om man vill se "bra fotboll" - under den överenskomna definitionen - och har en begränsad tid till detta (säg 2 * 15 minuter) - vilka matchminuter ska man slå på TV:n och titta?

I och för sig kommer jag att se hela Sverige-matchen ikväll (fredagen 2004-06-18), men som uppgifterna ovan antyder kanske det skulle räcka med de sista 15-20 minuterna i respektive halvlek. I alla fall för varannan match.

Posted by hakank at 07:31 EM Posted to Statistik/data-analys | Comments (6)

juni 14, 2004

Humorformel?

Mats Andersson passade påpassligt Aftonbladet-artikeln En upptäckt att skratta åt som handlar om några brittiska humorforskare sägandes ha kommit på en formel för humor. Intressant.

Se även news.telegraph.co.uk: Scientists are serious about having a laugh, där formeln formuleras sålunda (lite redigering gjordes allt):

The equation they have formulated,
x = (f * l + no ) / p,
takes into account the length of the joke's build-up, the comedic value of the punchline and the groan-inducing qualities of puns.
...
A comedic value is determined by multiplying the funniness of the punchline (f) by the length of the build-up (l). This is added to the amount someone falls over (n) to the power of o - the "Ouch" factor of physical pain or social embarrassment. The total is then divided by the number of puns [p], which reduce laughter.

Andra relevanta länkar:
BBC-artikeln The hidden comedy of science
Timandra Harkness and Dr. Helen Pilcher
Helen Pilcher: A Funny Thing Happened on the Way to the Lab (från 2002)
Timandra Harkness
Comedy Research Project

Tyvärr hittades inget akademiskt paper med mer strikta definitioner, om nu något sådant ens är skrivet.

Efter att ha läst artiklarna ovan känner jag en initial skepsis, speciellt eftersom formeln inte riktigt korrelerar med min intuition. T.ex. anser jag inte att lyssnaren själv ska behöva känna några pinsamheter, endast veta (inse, förstå) att det i det specifika sammanhanget kan uppfattas som pinsamheter eller elakheter. Sedan förstår jag inte hur de definierar ett skämt (joke). Det antyds att ett skämt kan ha flera ordvitsar, men i min bok är varje ordvits ett eget skämt. För ordvitsar saknas även en koefficient (metrik) för hur bra/dåligt kopplingen är mellan det språkliga och det verkliga (som antas beskrivas i skämtet). Till sist verkar parametern f ("funniness of the punchline") vara det som egentligen eftersöks.

Men å andra sidan är jag ingen professionell komiker...

Posted by hakank at 07:11 EM Posted to Humor

Det stora slaget om weblogs.se

andreas på ettanolla::version noll berättar med namnkunnig kännarmin i EM sucks om de bloggar som just nu ligger på weblogs.se:s Våra mest bevakade webbloggar (a.k.a. favorlitlistan a.k.a. 20-i-topp-listan), och deras chanser.

Sagt om hakank.blogg:
20. hakank.blogg - Håkan har varit med ett tag. Kännare tror att han inte kommer nöja sig med en 20:e plats. Mest troligt är att han kommer utmana “Det perfekta tomrummet” på ett parti “Jeopardy", vilket i mångt och mycket kommer likna kalla kriget.

Nämnde Gustav och jag kommer närmast att träffas på den skånska bloggarmiddagen. Kom gärna dit och se frågorna hagla som spön i nacken.


För övrigt tror jag att någon av följande ligger på plats 21 (av samma bevekelsegrunder som skrivits t.ex. i En spådom: The II):

Förvetet
Gärningsmannaprofilen
Life de Luxe
Malins blog
När jag ändå har ordet...

Uppdatering: ovanstående spådom baseras på aktuell data

Posted by hakank at 06:59 FM Posted to Blogging | Comments (5)

juni 13, 2004

SR Minnen

SR Minnen är en ganska ny radiokanal (startade i maj) och sänder gamla radioklassiker. Både via webben och DAB. En aningens mer info om programmet finns på sidan Om SR Minnen. (Djuplänk för RealPlayer för personligt bruk.)

Idag, söndag 13 juni 2004, sänds t.ex. första avsnittet av Dickie Dick Dickens, en mycket uppskattad favorit i barndomen, Torsten Ehrenmarks "Om fotboll" från 1978 samt Jacob Dahlin Galaxen med gästande Alla Pugatjova (1980),

Senare i kväll, kl. 19.10, är det Partipolitisk diskussion från 16 september 1948 med bl.a. Tage Erlander och Bertil Ohlin (23 minuter), en diskussion som blivit berömd (och det är väl därför det sänds i SR Minnen). Tydligen sänds programmet även måndag morgon 01.10, så om man hellre vill se på fotboll i kväll kan man göra det.


SR Minnen är alltså en radiokanal, men det skulle vara underbart att få tillgång till SR:s hela arkiv via nätet. Då kunde man t.ex. få höra alla "Hemma hos"-programmen (dvs med Kjell Alinge och Janne Forssell). Transkriptioner av några av deras mest kända skapelser finns här och lite ljudsnuttar finns här.

(SR Minnen: Via min mor.)

Posted by hakank at 03:18 EM Posted to Diverse | Comments (6)

Mer Borges

Peter Lindberg skriver i Finished Jorge Luis Borges's Brodie's Report att han nu börjat läsa Borges. Kul!

Som tidigare skrivits är Borges en av mina husgudar, och det är skoj att Peter börjar läsa honom. Eftersom Peter beställt Collected Fictions som innehåller alla noveller, föreslås att läsa boken i kronologisk ordning, dvs från pärm till pärm.

En annan bok som jag har, men tydligen inte nämnt tidigare (och inte heller läst allt ur), är samlingen av 150 essäer: The Total Library. Det är här Borges underbara litteraturkritik finns, som Peter också verkar vara intresserad av, av dennes blogganteckningen att döma.

Ett annat tips är Res Publica, nummer 45:1999 (från AdLibris, Bokus har den tydligen inte längre), ett temanummer om Borges som innehåller essäer om honom, bl. a. av Lasse Söderberg som översatt en del av Borges dikter och noveller till svenska, samt några tidigare inte översatta till svenska noveller.

Upptäckte precis att det finns en bok om Borges humor, med det passande namnet: Humor in Borges. Från en läsarrecension: """As an incidental bonus, "Humor in Borges" appens to provide an insightful study of Borges's affinities with Kafka. If you can't laugh at Borges, you can't understand Borges.""". [När jag åter-Amazonade denna bok hittades även Victor Borge's My Favorite Comedies in Music, en liten och väldigt rolig bok om musikhistorien skriven av Viktor Borge. Rekommenderas.]

Ett förslag är att starta en läsecirkel-wiki kring Borges skrifter. Peter, vad säger du (och eventuellt andra)?

Peter nämner också Herman Hesse och The Glass Bead Game (Glaspärlespelet i svensk översättning) som är nästan lika fascinerande att läsa som Borges. Den lästes för många år sedan under min Hesseperiod, och har länge tänkts läsas om. Kanske det är dags nu igen. (Om jag nu hittar boken. hmmm. blå bok i kartonnage ... så här stor, borde stå på den där hyllan, just där bakom ... utlånad? men vem ...)

Posted by hakank at 09:46 FM Posted to Böcker

juni 10, 2004

Gmail

För några veckor sedan blev jag med Gmail via en snäll person med fina kontakter (läs google). Mitt Gmailkonto är (inte helt förvånande) hakank@gmail.com.

I morse noterades att jag fått möjlighet att erbjuda Gmail-konton till några av mina vänner. Obs! Alla dessa konton är nu bortskänkta.

Det har ju varit riktigt hysteriskt den senaste tiden med de som tar till alla knep för att få tag på konton (t.ex. spam på Orkut och andra ofog). Det verkar nu som om google släppt en hel del nya konton, så det blir troligen lättare att få tag på dem. Wired skriver lite mer i artikeln Gmail Invitation Prices Crash. Bloggen Google blogoscoped har haft skoj tävlingar för att skänka bort Gmail-konton.

Lite tyckande om Gmail:
Visst, det är ju skoj, speciellt trådningen och sådant, men tyvärr kan man ännu inte poppa mailen vilket är en klar nackdel. Se t.ex. Does Gmail support automatic forwarding and POP3 access? där svaret (i läsande stund) är: Not at the moment, but Google believes in helping people access information whenever and however they want to do so. In the future you will be able to access Gmail messages from non-Gmail accounts for free or at a nominal fee..

Än så länge har jag inte blivit tvingad att använda filterfunktionen och andra avancerade saker, men det lär väl behövas nu när mailadressen gått publik (som ett led i ett litet experiment).

Posted by hakank at 08:12 EM Posted to Diverse | Comments (4)

RSS-läsare

PC-World skriver om RSS-läsare i News on Demand. FeedDemon och Bloglines (min favorit) får dela förstaplatsen.

(Via wingedpig.com, skriven av Bloglines skapare Marc Fletcher.)

Posted by hakank at 07:21 FM Posted to Blogging

juni 09, 2004

Jämförelser mellan agila programspråk (och andra)

Scriptometer innehåller en intressant jämförelse mellan (främst) olika skriptspråk såsom Perl, Python, Ruby och Icon. [Dessa språk kallas även för Very High Level Language (VHLL), scripting languages, script-oriented languages, och numera tydligen också "agila språk", se t.ex "Python is an Agile programming language".]

Här är några andra programspråkjämförelser:
Lutz Prechelt: An empirical comparison of C, C++, Java, Perl, Python, Rexx, and Tcl for a search/string-processing program

The Great Computer Language Shootout (inte uppdaterad på flera år)
Hittade senare: The Great Computer Language Shootout (ny uppdaterad version av föregående)
PLEAC Programming Language Examples Alike Cookbook, där man försöker att skapa kod motsvarande The Perl Cookbook för en massa andra programspråk.
Cameron Laird's personal notes on language comparisons

Se även Pixel's language Study där Scriptometersidan finns.

Posted by hakank at 08:25 EM Posted to Systemutveckling | Comments (2)

How an idea becomes a C# language feature?

How an idea becomes a C# language feature?.

(Via Lambda the Ultimate.)

Posted by hakank at 07:41 EM Posted to Systemutveckling | Comments (2)

Forskning i frisparkar (fotboll)

Ny Teknik-artikeln Hur skruva den som Beckham? berättar om ett team som forskar i hur man bäst lägger frisparkar i fotboll och har nu patenterat en metod för detta.

Från pressreleasen Loughborough innovators capture football’s magic free kick formula:
To kick the perfect free kick, the ball must travel with sufficient speed and elevation to clear any defensive wall, whilst spinning fast enough to swerve away from the goalkeeper and into the goal. Until now it has not been possible to simultaneously record all of this vital information. But thanks to unique patented technology developed at Loughborough, footballers will know within seconds the minute detail of the ball’s flight characteristics.

Se även
Forskningsledaren Roy Jones
Loughborough University, Sports Technology Research Group, Current Research

Det enda jag hittade om patentet är detta.

Posted by hakank at 07:33 EM Posted to Diverse | Comments (2)

Sydsvensk bloggarmiddag!

Daniel på minmening har gjort slag i saker och har föreslår datum för en skånsk bloggarmiddag. Trevligt!

Se mer detaljer om planerat datum och plats på Bloggarmiddag i Lund (uppdaterad länk).

Själv tänker jag naturligtvis komma.

Posted by hakank at 07:09 EM Posted to Blogging

Mer om Persi Diaconis

I Stanford Report-artikeln Lifelong debunker takes on arbiter of neutral choices skrivs lite mer om Persi Diaconis forskning och bakgrund.

Se även t.ex. Persi Diaconis videoföreläsning "On Coincidences" (1998).


Posted by hakank at 07:01 FM Posted to Husgudar | Matematik | Skepticism, parapsykologi etc

juni 08, 2004

Sommarboksrekommendationslista

En vän frågade om jag kunde rekommendera några bocker nu inför sommaren. Kravet var "allt mellan Thomas Schelling och Dan Brown är av intresse, både skönlitteratur med mervärde och facklitteratur som jag kan förstå". Det sistnamnda - förståelsekravet - har jag helt enkelt omtolkat till att böckerna inte ska kräva några speciella kunskaper (och följs nedan med några undantag).

För att göra det enkelt för mig är nedanstående helt enkelt en lista från mina recensioner eller omnämnanden, dvs det som skrivts det senaste året (återigen med några undantag).

Det är möjligen värt att notera att jag faktiskt läst fler böcker än de som bloggats, speciellt skönlitteratur, men mestadels har det gågna året varit ett härligt eklektiskt år av insnöande inom olika fackområden.

Skönlitteratur
Recension: Michael Crichton 'Prey'

Da Vinci-koden (The Da Vinci Code)

Dan Brown: The Digital Fortress

OuLiPo

Jorge Luis Borges noveller har bloggats några gånger, t.ex. Husgudar - Jorge Luis Borges och Kategorierna och Borges.


Facklitteratur
Peter Gärdenfors "Nar Homo blev Sapiens"
Nämns i Kategorisk perception.

Thomas Schelling: "Micromotives and Macrobehavior" nämns bl.a. i Matematiska och statistiska "självklarheter"

Malcolm Gladwell "The Tipping Point"

Massimo Piattelli-Palmarini 'Inevitable Illusions'

Stuart Vyse 'Believing in Magic - The Psychology of Superstition'

Thomas Gilovich: How We Know What Isn't So (Amazon) inom ungefär samma ämne som Vyses bok. Väldigt rekommenderad bok.

Joshua Epstein, Robert Axtell: Growing Artificial Societies

I Data mining, machine learning och emergens nämns två trevliga och lättsmälta böcker om AI/machine learning etc: Thomas A. Bass: "Predictors" och David B. Fogel: "Blondie24"

Soumen Chakrabarti: Mining the Web, som jag feltaktigt trodde att jag bloggat om. Det är en innehållsrik bok om state of the art inom sökmotorforskning och liknande områden. Några kapitel står ut t.ex. hur man optimerar en sökspindel eller hur prestigemetriker såsom googles PageRank beräknas. Några kapitel innehåller dock mycket tekniska saker (matematik) och kan hoppas över eller skummas skulle man så önska.

Ovanstående bok ska inte förväxlas med en annan ganska trevlig, men inte så mycket sommar-, bok: Gordon Linoff & Michael Berry: 'Mining the Web'. När vi ändå är inne på de mer tyngre böckerna är det lika bra att dänga till med Recension av Jiawei Han & Micheline Kamber: 'Data Mining - Concepts and Techniques.

Vad gäller (populär- och inte-så-populär-) böcker om social nätverksanalys och komplexa nätverk hänvisas till recensionerna i Social Network Analysis och Complex Networks - En liten introduktion.


Ja, det var några av de böcker som lästs det senaste året, oftadels med mycket stor behållning. Har jag glömt någon?

För en mer fullständig lista över de utsocknes böcker som bloggats om, hänvisas till en manuell sökning med bloggens sökfunktion, t.ex. på frasen amazon.com. Man tycker att det borde räcka med att peka på en google-sökning, men den ger inte alla relevanta sökresultat.

Det kanske kommer en motsvarande vinterlista framgent, när dagarna blir kortare än kvällarna.

Posted by hakank at 08:32 EM Posted to Böcker

First Monday

Senaste First Monday innehåller som vanligt flera artiklar som verkar vara intressanta, t.ex. följande:

David Huffaker: The educated blogger: Using Weblogs to promote literacy in the classroom
Abstract: This paper explores the role of weblogs or "blogs" in classroom settings. Blogs, which resemble personal journals or diaries and provide an online venue where self–expression and creativity is encouraged and online communities are built, provide an excellent opportunity for educators to advance literacy through storytelling and dialogue. This paper explores the importance of literacy and storytelling in learning, and then juxtaposes these concepts with the features of blogs. The paper also reviews examples of blogs in practice.

Ilkka Tuomi: Evolution of the Linux Credits file: Methodological challenges and reference data for Open Source research
Abstract: This paper presents time–series data that can be extracted from the Linux Credits files and discusses methodological challenges of automatic extraction of research data from open source files. The extracted data is used to describe the geographical expansion of the core Linux developer community. The paper also comments on attempts to use the Linux Credits data to derive policy recommendations for open source software.

Ronald Rousseau, Mike Thelwall: Escher Staircases on the World Wide Web

Brian Martin, Brian Yecies: Disney through the Web looking glass

Posted by hakank at 07:04 EM Posted to Diverse

How Org Charts Lie

How Org Charts Lie är ett utdrag från boken The Hidden Power of Social Networks: Understanding How Work Really Gets Done in Organizations av Rob Cross och Andrew Parker.

The results of this organization's social network analysis are fairly typical. Even in small, contained groups, executives are often surprised by patterns of collaboration that are quite different from their beliefs and from the formal organization chart. Getting an accurate view of a network helps with managerial decision making and informs targeted efforts to promote effective collaboration. Rather than leave the inner workings of a network to chance, executives can leverage the insights of a social network analysis to address critical disconnects or rigidities in networks and create a sense-and-respond capability deep within the organization.

Se även
Organizational Network Analysis (som länkades till för någon månad sedan, dock under en något annorlunda titel).

Posted by hakank at 06:49 EM Posted to Social Network Analysis/Complex Networks

juni 07, 2004

Axiom (Computer Algebra System)

Axiom är ett system för datoralgebra (Computer Algebra Systems), som tidigare varit kommersiellt, men nu har släppts ganska fritt (läs licenserna noga).

Axiom is a general purpose Computer Algebra system. It is useful for research and development of mathematical algorithms. It defines a strongly typed, mathematically correct type hierarchy. It has a programming language and a built-in compiler.

Axiom has been in development since 1971. At that time, it was called Scratchpad. Scratchpad was a large, general purpose computer algebra system that was originally developed by IBM under the direction of Richard Jenks. The project started in 1971 and evolved slowly. Barry Trager was key to the technical direction of the project. Scratchpad developed over a 20 year stretch and was basically considered as a research platform for developing new ideas in computational mathematics. In the 1990s, as IBM's fortunes slid, the Scratchpad project was renamed to Axiom, sold to the Numerical Algorithms Group (NAG) in England and became a commercial system. As part of the Scratchpad project at IBM in Yorktown Tim Daly worked on all aspects of the system and eventually helped transfer the product to NAG. For a variety of reasons it never became a financial success and NAG withdrew it from the market in October, 2001.

NAG agreed to release Axiom as free software. The basic motivation was that Axiom represents something different from other programs in a lot of ways. Primarily because of its foundation in mathematics the Axiom system will potentially be useful 30 years from now. In its current state it represents about 30 years and 300 man-years of research work. To strive to keep such a large collection of knowledge alive seems a worthwhile goal.


Det finns även binär version av Axiom för Linux att ladda ner från denna sida. Den binära versionen funkade inte inte hos mig, så jag hämtade den senaste källkoden från CVS:en och kompilerade koden. Det tog cirka 6 timmar här hemma, och blev totalt över 500Mb. Men det funkar.

Axiom påminner rätt mycket om MuPAD, vilket också bör kollas in av den som känner sig lockad av kostnadslösa datoralgebrasystem. Men det är svårt att konkurrera med Maple och Mathematica.

Specifika nyhetsgrupper för Axiom:
axiom-developer
axiom-mail
axiom-math

Det finns också en bok (PDF, cirka 3Mb) på över 1100 sidor som beskriver systemet. Motsvarade DVI-fil skapas automatiskt vid kompileringen.

(Via Lambda The Ultimate.)

Posted by hakank at 08:22 EM Posted to Matematik

Dan Brown: The Digital Fortress

Först lästes The Da Vinci Code (se Da Vinci-koden (The Da Vinci Code)). Nu har lästs The Digital Fortress. Som vanligt vill jag inte avslöja några detaljer om boken; det finns tillräckligt där ute för den som känner sig nyfiken.

Digital Fortress är en spännande och underhållande pop sci thriller. [För att nu mynta ett begrepp. Det är alltså en bok som dels underhåller och dels försöker att förklara någon svårgripbar del av vår värld. Prey av Michael Crichton är nog paradigmatisk för denna genre, med flera sidors didaktisk upprymdhet mitt emellan krigen mot odjuren. Se vidare Recension: Michael Crichton 'Prey' samt Didaktiska teknikromaner för ett liknande begrepp.]

I Da Vinci-koden var det religion, konst och krypto som var de vetenskapliga teman. I Digital Fortress är det krypto, datorer och NSA (National Security Agency, den amerikanska organisationen för signalunderrättelsetjänst, tillkom 1952. NSA:s uppgifter är att uppfånga, analysera och vid behov dekryptera signaler som sänds via tråd och radio liksom med andra elektromagnetiska medel, t.ex. radar och radiolänk, och som är av betydelse för USA:s säkerhet. som NE så fint uttrycker det).

Att boken handlar om krypto är inte helt oväntat för dem som läst Da Vinci-koden. Däremot finns det inte alls lika mycket explicita gåtor att lösa som i Da Vinci-koden, vilket jag hade fått för mig och tycker var lite synd. Men i stället är det gåtor med ledtrådar som inte uttryckligen pekas ut som ledtrådar, precis som i en bra deckare. Här finns överraskande vändningar, och tyvärr även en del alltför övertydliga ledtrådar. Kanske för att vi ska känna oss duktiga när vi kommer på dem direkt?

Det finns en del termer från krypto-/datavärlden som används, några korrekt, andra dubiöst använda, återigen andra helt ur egen fatabur. Ett tips är att googla de termer man inte känner till, eftersom man alltid lär sig skoj saker på den vägen. (Egentligen skulle jag vilja göra ännu mer reklam för NE.se här, men kom just på att jag inte använt den sajten alls under bokläsningen.)

Stilistiska varningar. Några av de första kapiteln innehåller "the settings" där termer och sådant ska presenteras. Tyvärr görs det i dialogform mellan två professionella kryptografer och som inte alls känns trovärdig. Det ligger nära till hands att ana att det är för underlätta Hollywoodisering av boken. En bättre variant vore något liknande Mario Puzos småtorra reflexioner och kommentarer i slutet av en dialog eller händelse, och som upphöjdes till konst i Gudfadern.

När Brown väl slutar med detta stilgrepp gör han det i så hög grad att man lämnar en av huvudpersonerna i sticket mitt i en kris för att göra en historisk förklaring av datatermen "bug"! Troligen är detta typiskt för genren: jämför med mitt röj om liknande saker i ovan nämnda recension av "Prey". Efter hand blir boken tack och lov bättre och mindre störande, vilket kanske helt enkelt beror på att det lite mer handling som fångade intresset. Man känner även igen andra manér från Da Vinci-koden, t.ex. den där namnlösa personen som troligen kommer att göra något ondskefullt.

Trots det icke-Nobelprisartade språket och manéren är det en bok att rekommendera för den som vill läsa en bra pop sci-thriller med kryptografi som tema.

Allra sist i boken finns ett krypto. Det bör man försöka lösa...


Några mer eller mindre relevanta länkar:
Bruce Schneier som skrivit den fantastiskt trevliga Applied Cryptography (Amazon) liksom andra böcker.
Schneiers nyhetsblad Crypto-Gram. Finns även som RSS-flöde.

Posted by hakank at 08:03 EM Posted to Böcker | Comments (2)

Lagomduktig

Lagomduktig är en blogg som jag kommer att följa med intresse. Månne man lär sig en hel del där.

Så här presenterar Billy McCormac sitt sök: Lagomduktig documents my quest to unravel the mysteries of translating the Swedish language.

Via Göran H på nästan som jag....

Posted by hakank at 07:34 EM Posted to Blogging | Språk

juni 04, 2004

SNA för R

Carter Butts har kommit med en ny version av SNA-paketet för R. Se vidare Carter's Archive of S Routines for the R Statistical Computing Environment. Paketet är nu uppe i version 0.44-1.

Se även CRAN-sidan för paketet.

Posted by hakank at 09:19 EM Posted to Social Network Analysis/Complex Networks

Bibliometrisk analys av memetiken. Och en Mel Brooks-analys

I Full Spread Ahead: A study in memetics literatures gör Justin Robinson en bibliometrisk analys av memetiken.

Dess konklusion är:
Memetics is vast field, still in its infancy, with numerous yet uncharted paths of inquiry. There is a need to define the field more clearly, find ways of operationalizing concepts, and conduct experiments to gain more scientific, useful knowledge about memes (Heylighen, 1999). At the same time, memetics is rich with promise, and its potential within an enormous number of investigations and disciplines is clearly revealed through this study. Memetics, it appears, is here to stay, and as a meme itself, is powerfully equipped to continue to influence our understanding of the world around us.


Av helt andra skäl kan samme Robinsons CIRQUE DU ROCK RIDGE: order and chaos in Mel Brooks' Blazing Saddles vara något att läsa:
Mel Brooks’ Blazing Saddles (1974) is a powerful parody of the western genre that uses humor to address real and incisive issues, many of which remain culturally salient today, nearly thirty years after it was first produced. In a variety of ways, the film is about the challenges human beings face in terms of our need to get along with one another in a world that alienates us, not only from others, but also from our own feelings and motives. In other words, Blazing Saddles deals largely with the concept of identity, speaking to the manner in which our (assumed, or constructed) personas can lead to fragmentation, estranging us from those around us, and—to the extent that they constrain our self-expression—limiting the degree to which our experience of life can truly be thought authentic.

Posted by hakank at 08:52 EM Posted to Memetik

Röstning och matematik

Som gammal statsvetare med intresse för matematik blev jag intresserad av Ny Teknik-artikeln EU rättvisare med kvadratrötter (publicerad för några dagar sedan): EUs röstregler är både irrationella och orättvisa, menar två polska fysiker. Men rättvisan kan återställas med hjälp av kvadratrötter, föreslår de.
...
Genom att ha ett röstetal som är proportionell mot kvadratroten ur antalet medborgare i landet får alla européer lika mycket att säga till om, oberoende av om de bor i Tyskland eller Malta.

Forskarnas namn är med större sannolikhet Karol Zyczkowski samt Wojciech Slomczynski snarare än de som står i artikeln. Efter lite letande hittades ett paper (PDF) av dessa författare som verkar vara relevant:

Voting in the European Union : The square root system of Penrose system and critical point
Abstract: The notion of the voting power is illustrated by examples of the systems of voting in the European Council according to the Treaty of Nice and the more recent proposition of the European Convent. We show that both systems are not representative, in a sense that citizens of different countries have not the same influence for the decision taken by the Council. We present a compromise solution based on the law of Penrose, which states that the weights for each country should be proportional to the square root of its population. Analysing the behaviour of the voting power as a function of the quota we discover a critical point, which allows us to propose the value of the quota to be 62%. The system proposed is simple (only one criterion), representative, transparent, effective and objective: it is based on a statistical approach and does not favour nor handicap any European country.

Möjligen kan följande av samma författare också vara intressant:
Rules Governing Voting in the EU Council.

Posted by hakank at 08:17 EM Posted to Matematik

juni 01, 2004

larsolofsson.se: Ännu en blogg med Netch-anor

Lars Olofsson är en annan Netch-kollega som nu har börjat blogga. Bloggen hans heter larsolofsson.se, och den pingar naturligtvis weblogs.se. Glöm inte att sätta den på bevakning, för det kommer att bli intressant!

Programförklaringen är: En webblogg om programvaru­teknik, system­utveckling, dator­säkerhet, Microsoft .NET och relaterad teknik. Jag blandar friskt mellan mina åsikter, nyheter, allmänt teknikskvaller och det nyfikenheten har lockat in mig på för tillfället. Fair warning: Geek at the keyboard.

Lars var en av de första Windows-utvecklarna på Netch (vi andra var då Unix-anhängare) och som satte sig in i .NET-komplexet när det kom. Hans blogg avspeglar bl.a. detta intresse.

Men han har intelligenta och skarpa åsikter om mycket annat. Ofta är det oväntade inlägg och kommentarer som får hjärnan att skrynkla sig lite extra.

Många diskussioner har vi haft (och har fortfarande), gärna kring filmer, eller smärre religionskrig om systemutveckling, hur man optimerar en organisation, eller vilka system som kan kallas "sexiga". Eller vad livet egentligen går ut på; om det nu gör det. Han är också betydligt mer deviceintresserad/-kunnig än undertecknad, vilket inte helt sällan har utnyttjats.

Diskutera gärna med Lars. Det är väl värt både nöjet och informationsutbytet.

Några exempel på Lars hittills skrivna blogganteckningar:
Virtuellt minne i Windows XP
Fler kockar ger bättre soppa
Microsoft snålar inte på säkerheten.


Så, välkommen till bloggosfären, Lars!

Posted by hakank at 09:41 EM Posted to Blogging | Comments (2)

google som bevis

Apropå Erik Stattins serie av "google-journalistik"-anteckningar. Se t.ex. Google-journalistik 4, och dess ingående länkar till tidigare anteckningar; läs gärna även kommentarerna.

[Det följande har utgått från en anteckning skriven kring den 6:e februari som av någon anledning inte publicerades då. Början är sålunda inte riktigt kopplad till Eriks anteckning och antalet sökrträffar stämmer möjligen inte riktigt med dagsvärdet.]

Vid läsning av följande avsnitt i Clay Shirkys mycket intressanta "post mortem"-analys av Deankampanjen Exiting Deanspace påbörjades en fundering kring bevisvärdet av sökmotorsökningar. Så här står det (min emfas):

"""Howard Dean had the best-funded, best-publicized bid to be the Democratic nominee; he was so widely understood to be in the lead that the inevitability of his victory was a broad topic of discussion. (Google "Howard Dean"+inevitable if you need independent confirmation.) Even the people disputing the posited inevitability burnished the idea; no one bother debunking the idea of, say, Kucinich's inevitability."""

Det är kanske petimäteraktigt (7 förekomster på google) att göra en anmärkning på en kommentar i en inskjuten parentes, men detta sätt att påvisa samband mellan två begrepp har dykt upp flera gånger och verkar vara en trend (se nedan för en kommentar om detta). Tyvärr får Clay Shirky orättvist klä skott för detta missbruk; det är absolut inget personligt mot denne utmärkta krönikör.

Några frågor som väcktes: Vad innebär denna typ av förekomstreferens? På vilket sätt stödjer egentligen google-sökningar en viss tes?

En google-sökning på "Howard Dean" inevitable ger i skrivande stund [dvs i februari] cirka 27 700 träffar. Men vad visar detta egentligen? Det enda som visas är hur många dokument som samtidigt innehåller de två termerna "Howard Dean" och "inevitable", men det säger ingenting om relationen mellan termer. De kan stå var som helst i texten, t.ex. det ena först och det andra sist. Det finns cirka 2 040 000 sidor där "Howard Dean" nämns, och cirka 1 780 000 sidor med ordet "inevitable". Det finns sålunda en rätt stor chans att båda orden slumpmässigt skulle finns med i en och samma text utan att man ska sluta sig till ett speciellt samband.

Nu ska man nog se Shirkys hänvisning så att läsaren själv ska leta efter sambanden i dessa dokument och inte se den höga siffran 27 600 som ett bevis i sig. Troligen har Shirky rätt i att många personer har sett Dean som en "inevitable winner". Det är dock inte detta faktum som kritiseras här, utan vilken typ av stöd en googlesökning ger.

Här är några googleextrakt från de högst rankade sidorna för den nämnda sökningen [återigen från februari]. Inom parentes visas om det är en relevant referens (+) eller inte (-):

* "Dean becoming inevitable winner of NH Primary." (+)
* "Howard Dean is a dove on war issues, but realizes that sometimes war is inevitable. " (-)
* "Is a Dean Nomination Inevitable?" (+)
* "Howard Dean is right to insist that southwestern Vermont must be willing to ... That process of evaluation produces the inevitable debates that accompany most ... " (-)
* "Suddenly the inevitable doesn't look so inevitable. Howard Dean is still the front-runner this morning, but Iowa Democrats may be about to prove once more that ..." (+)
* "heralded his arrival pronounced him dead, made frequent and inevitable comparisons to ... itself -- all of these shiny new things had failed Howard Dean and failed ... " (-)
*"Inevitable Winner(s). In one of those wonderful blog-induced feedback nets, my buddy Natalie read my recent post about Molly Ivins' endorsement of Howard Dean, ... " (+)
...

En del av dessa sökträffar handlar mycket riktigt om Deans "ofrånkomliga seger", medan andra gör det inte. (Det skulle naturligtvis vara mer vetenskapligt att gå igenom en stor mängd sidor och redovisa exakt hur många som är si respektive hur många som är så.)

Om man söker på "Howard Dean" -inevitable, dvs sidor där termen "Howard Dean" förekommer men inte termen "inevitability", får man cirka 2.040.000 träffar vilket inte heller visar någonting. Att detta antal råkar sammanfalla med antalet sidor där "Howard Dean" nämns ska ses som att precisionen i det presenterade antalet är får låg.

Försöker man göra sökningen något mer stringent, t.ex. Howard Dean"+"inevitable winner" kommer 54 träffar upp, och dess "motsats" "Howard Dean"+"inevitable loser" får 1 träff. Detta verkar mer lovande men 54 träffar är inte speciellt mycket med tanke på så mycket som skrivit om Howard Dean och kampanjen. (Det kan dock finnas mer relevanta sökord som ger högre antal träffar.)

Några kommentarer: Även om man inte tror att Dean var en "inevitable winner" så betyder det inte att man måste skriva att han var en "inevitable loser", så en naiv google-sökningar verkar inte speciellt bra för att söka efter motsatser. Man kan också misstänka att antalet träffar på termen "inevitable winner" eller motsvarande ord kommer att öka eftersom kommentarerna hos bland annat de ordrika bloggarna kommer att använda termen, speciellt eftersom Clay Shirky är en betydelsefull bloggare.


Ett annat google-bevis påträffades en stund senare [återigen i februari] på codemode.org:

Google-sökning: "rasar mot" "Resultat 1 - 10 av ungefär 12,300". Det rasas mot mycket på internet..

Om man för jämförelsens skull gör sökningen på googles "sidor på svenska" i stället, vilket ger cirka 11 500 träffar. En sökning på ordet rasar ger 38 900 träffar. Dvs cirka 30% av sidorna som innehåller "rasar" innehåller uttrycket "rasar mot". Hur mycket är egentligen "mycket"?

Alla sökmotorförekomstreferenser är naturligtvis inte av ondo. I P1:s program Folkminnen och Vetenskapsradion - Språket används ibland resultat från sökmotorerna för att belägga förekomsten hos ett ord eller hur ett uttryck används, men det är då frågan om ett enda ord eller ett sammansatt uttryck (sökning inom citationstecken, t.ex. "Howard Dean"). Ofta är det för att undersöka om det överhuvudtaget finns någon förekomst i modern svenska. Jämför även med Jonas Söderströms intressanta Skickliggöra där han och andra spårar ett ord och dess användande.

Men även om det är frågan om ett enda ord, är det svårt att veta hur många förekomster som är många eller få och som faktiskt stödjer en eller annan tes om något mer än att ordet faktiskt finns på google.

Det kan vara intressant och relevant att göra jämförande analyser, antingen mellan olika ord vid en viss tidpunkt, ett och samma ords utvecklings över tiden eller en kombination av dessa. För några exempel se Veckodagsnamn på google, Veckodagsnamn på google - återkomsten, Talfördelning på google - varför är det så ont om 52?, What's Your Google Number. Den exakta vetenskapliga nyttan med dessa undersökningar är för övrigt inte heller klar.

Man kan kanske jämföra med Diaconis teori om coincidences, se t.ex. Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'. Teorin förklarar bland annat varför vi tycker oss se samband där det egentligen endast är en fråga om en naturlig och slumpmässig företeelse. Detta har två relevanser för den aktuella diskussionen: För det första att någon tycker sig se samband på formen "begreppet X används mycket nu, se bara hur många träffar som finns på google". För det andra kan och bör man ifrågasätta påståendet i den här anteckningen att sådana påståenden om samband förekommer ofta eller är många.

Det borde finnas - eller annars skapas - en mer formell statistisk modell kring bevisvärdet av sökmotorsökningar.


Language Log finns kommentarer kring google som språkkorpus. Se t.ex. Google-sampling: avoiding pseudo-text in cyberspace.Jag har även sett ganska avancerade google-jämförelser, men hittar inte dessa just nu.

Se även Lies, Damned Lies, and Google (funnen via kommentarerna till Eriks ovan nämnda blogganteckning).

Posted by hakank at 08:00 EM Posted to Sökmotorer