« november 2003 | Main | januari 2004 »

december 30, 2003

Mooter sökmotor

Mooter är en sökmotor som klustrar sökresultatet, liksom t.ex. Kartoo.

Jag är dock inte så säker på att det är så smart att endast visa klustren som första sökresultat. En kombination såsom hos iBoogie är nog bättre (och Kartoo har en intressant variant). Bästa presentationssättet beror naturligtvis på vad man är ute efter i sin sökning och hur lätt man har för att göra egna "raffineringar" (refinements), vilket beror på sådant som hur väl man känner till ämnet etc.

Via ResearchBuzz som igår skrev om sökmotorn Ay-Up.

Posted by hakank at 06:21 EM Posted to Sökmotorer | Comments (4)

december 29, 2003

Jan Hartman: Vetenskapligt tänkande - Från kunskapsteori till metodteori

Jag har till min glädje noterat att Peter Lindberg har börja läsa filosofiska och vetenskapsteoriska böcker.

En bok som jag rekommenderar honom, och alla andra intresserade, är Vetenskapligt tänkande - Från kunskapsteori till metodteori andra upplagan skriven av Jan Hartman. Den andra upplagan (Studentlitteratur, 2003, ISBN: 9144033060) kom ut för några veckor sedan.

[Notera att Studentlitteratur för närvarande har fel förnamn i sin databas, vilket tyvärr har propagerats till andra boklådedatabaser. Det ska vara Jan och inget annat. Förhoppningsvis kommer även innehållsförteckningen och beskrivningen att läggas in i Studentlitteraturs databas inom kort.]

Här är (i princip) baksidestexten för boken:

Det vetenskapliga arbetet och dess resultat blir alltmer betydelsefulla i det moderna samhället. Kraven som ställs på vetenskapliga undersökningar blir därmed högre. De som gör vetenskapliga undersökningar måste därför ha en större insikt i det vetenskapliga tänkande som ligger till grund för deras arbete. Denna bok visar på vilka kunskapsteoretiska och metafysiska grunder det vetenskapliga tänkandet vilar. Med utgångspunkt i klassisk normativ kunskapsteori, som behandlar vardaglig kunskap, diskuteras olika uppfattningar om hur man skall bedriva vetenskap, och vilka anspråk vetenskapen kan ha på sanning och rationalitet inom de positivistiska och hermeneutiska vetenskaperna. Vidare diskuteras kvantitativ och kvalitativ metodteori, med avsikt att visa hur dessa metoder kan förstås med hänvisning till vetenskapsteorin.

I denna andra upplaga har avsnitten om hermeneutik och kvalitativa metoder fått större utrymme, liksom avsnitt som behandlar olika konstruktionistiska ansatser inom forskning. Boken har dessutom kompletterats med ett namn- och sakregister.

Boken vänder sig främst till studerande inom samhälls- och beteendevetenskapliga ämnen, men även till de som studerar hälso- och naturvetenskapliga ämnen. Den kan både användas på grundnivån vid universitet och högskola, och som fördjupning vid forskarutbildningar. Den kan även läsas av de som är intresserade av filosofisk kunskaps- och vetenskapsteori.

Jan Hartman är filosofie doktor i teoretisk filosofi och universitetslektor vid filosofiska institutionen, Lunds universitet. Han har mångårig erfarenhet av undervisning i teoretisk filosofi, samt i vetenskapsteori och metodteori vid hälsovetenskapliga utbildningar. Han har tidigare skrivit Physical Persons (1999), vilken försvarar en materialistisk uppfattning om människans natur, och Grundad teori (2001) vilket är en presentation av en av de senaste metoderna inom samhälls- och beteendevetenskaperna.

Boken används också som kurslitteratur på en hel del kurser.

Min personliga åsikt om boken är att den mycket klart och inspirerande redogör för de olika teorier som finns kring relevanta problem inom filosofi, vetenskapsteori och metodteori. Det är intressant att läsa en filosofs syn på hur vetenskap ska bedrivas, liksom praktiska råd hur man utför en undersökning.

Jan skriver mer om en av de kvalitativa metoderna, grundad teori, i sin bok Grundad teori - Teorigenerering på empirisk grund (Studentlitteratur 2001). Det är en fascinerande bok om en intressant metod. Baksidestexten på denna bok är:

Grundad teori är en metod för kvalitativa undersökningar inom samhälls- och beteendevetenskaperna. Den utvecklades på 1960-talet och har blivit allt mer spridd. Det är en induktiv metod, baserad på idén att man växelvis samlar in och analyserar data. På detta sätt kan teorier som är helt grundade i data genereras.

Metodens komplexitet, och olika tolkningar av den, har emellertid lett till att det specifika med den ofta har missförståtts. Bokens syfte är att klargöra vad grundad teori är, när metoden är lämplig att använda och hur man genomför en undersökning med den.

Boken vänder sig till studenter och forskare som vill förstå grundad teori och överväger att göra kvalitativa undersökningar med metoden. Inga förkunskaper om vetenskapsteori eller metodlära förutsätts.

Jag bör nog tillägga att Jan är en av mina goda vänner sedan vi läste filosofi tillsammans i början av 80-talet.

Posted by hakank at 06:55 EM Posted to Filosofi

Senaste Complexity Digest

Senaste Complexity Digest innehåller bland annat (länkar till) följande:

Stephan P. Swinnen and Nicole Wenderoth: Two hands, one brain: cognitive neuroscience of bimanual skill
Dan Sperber and Lawrence A. Hirschfeld: The cognitive foundations of cultural stability and diversity
Andrea Rinaldi: The costs of specialization
Erica Klarreich: Bookish Math

Posted by hakank at 08:44 FM Posted to Diverse

december 28, 2003

OuLiPo

Det tolfte och trettonde numret av Pequod (se även www.pequod.se) handlar (handlade) om och av den fascinerande litteraturgruppen OuLiPo, som inkluderade författare med namn såsom George Perec, Raymond Roussel, Raymond Queneau, Harry Mathews et cetera etc.

Förutom den lätt (läs svårt) absurda tendensen i skriverierna och dess generativa principer (vilka jag erkänner en definitiv influens av) tycker jag speciellt om de myckna kopplingarna till matematik. T.ex. skrev matematikern Claude Berge en kriminalhistoria där problemet löses med hjälp av grafteori (se Mathematical Fiction: Who Killed the Duke of Densmore? för lite mer info.)

Några av artiklarna i PEQUOD:
Livet är en häst: presentation av gruppen
Teaterträdet - Kombinationskomedi av Paul Fournel (i samarbete med Jean-Pierre Enard).

Några trevliga böcker som innehåller OuLiPo-gruppens alster liksom historik är
Oulipo: A Primer of Potential Literature
Oulipo Compendium (samt www.oulipocompendium.com/)
Oulipo Laboratory: Texts from the Bibliotheque Oulipienne

[Samtliga dessa står inte av en händelse på samma bokhylla bokhyllehylla som mina böcker av Jorge Luis Borges, ordlighetsböckerna, biografin över tidskriften MAD:s grundare Mad World of William M. Gaines samt, men detta är en händelse, ett gäng Kafka-böcker. For easy reference på vägen till köket.]

Mer info:
Oulipo
Mathematics and Literature: Cross Fertilization (PDF)
Harry Mathews
Paul Harris Oulipo-sida

googlesökning på oulipo. Mycket är på franska så 1 fulländade 2 skickliga, talangfulla av och i detta språk har en klar fördel framför oss andra.

Posted by hakank at 08:45 EM Posted to Böcker | Humor | Husgudar | Matematik | Språk | Comments (2)

december 27, 2003

Bloggidentifiering (Blog Identification)

Inpirerad av idéerna i Automatisk identifikation av språk (språkidentifiering), Automatisk bloggning? (Blog Markov) samt Markov av svenska bloggar har jag nu skapat ett program för att automatiskt identifera bloggar: Blog Identification.

Inparameter till programmet är en URL, t.ex. till en blogg. Sedan jämförs texten (se nedan) med olika bloggar, som jag synnerligen subjektivt valt ut bland några av mina dagligen besökta bloggar samt de flesta av bloggarna som finns med i Internetworld-artiklarna Världens bästa bloggar samt Bästa svenska bloggarna. (Tyvärr kommer min dator inte åt vissa bloggar, t.ex. Rymdimperiet, så jag har inte lyckats skapa en "profil" för dessa bloggar. Sorry.)

Programmet använder en n-gram metrik för att avgöra hur nära en text är de andra texterna, och använder metoden (nästan rakt av) som finns beskrivet i papret N-Gram Based Text Categorization skrivet av William B. Cavnar och John M. Trenkle. Metoden bygger på att man skapar en "profil" av de 300 mest frekventa n-grammen som sedan jämförs med en ny profil skapas från den webbsida som ska identifieras.

För att testa programmet körde jag alla bloggar som input till programmet för att se hur bra de kunde identifieras. Tanken är att en blogg ska vara sig själv närmast. Som man ser i sammanställningen lyckas det rätt bra. Idealet vore att avståndet för en sådan "självtest" är 0 (noll) men av olika skäl når man inte riktigt detta när det webbaserade programmet körs. Efterhand bloggarnas innehåll förändras kommer också resultatet att förändras, och jag vet inte riktigt hur ofta jag kommer att skapa nya profiler att jämföra med.

I slutet av sammanställningen finns en summering av placeringarna i testet. Den som fick lägst totalsumma (i körningen förmiddag 27 December 2003). Det är lite problematiskt att jämföra på detta sätt eftersom språk, ämne, HTML-layout etc påverkar resultatet. Jag vet inte riktigt vilka slutsatser man ska dra av att bajs.se har lägst totalpoäng och The church Of Me har högst.

Det finns några idéer till varianter och utvidgningar som jag nog kommer att testa inom den närmsta framtiden.

METOD
För intresserade beskrivs den metod som används, vilket i princip är en summering av ovan nämnda paper.

Skapa profil

här kan en profil se ut för hakank.blogg, fast här sparas frekvensen i stället för ranknumret (eftersom ranken helt enkelt är positionen i filen). Möjligen kommer frekvensen att användas i senare versioner av distansmetrik.

Blogg identifiering


n-gram distans/likhet
Givet: målprofil (MP) och den profil (P) som ska jämföras

Posted by hakank at 12:11 EM Posted to Blogging | Machine learning/data mining | Program | Comments (3)

december 26, 2003

Scream!

Yes! Nu har jag fått Bostreams Scream (eller snarare en ersatz-version några månader, se nedan).

Eftersom jag inte riktigt visste när bytet av IP-nummer och allt skulle ske, låg sajten (och bloggen) nere en stund under eftermiddagen och kvällen. Men nu är den alltså uppe igen. Skoj!

Tyvärr verkar det just nu vara något strul med mailen, men "teknikerna håller på att försöka avhjälpa felet".

De teoretiska värdena för min internettjänst är 8Mbps upp/ned fram till februari då det kommer att bli 13 Mpbs (u/n). Jag gjorde några tester med TPTEST som visade följande resultat från två olika testservrar:


Best TCP Send Rate: 818.78 kbit/s
Best TCP Recv Rate: 6.99 Mbit/s
Best UDP Send Rate: 840.68 kbit/s
Best UDP Recv Rate: 5.52 Mbit/s


Best TCP Send Rate: 828.75 kbit/s
Best TCP Recv Rate: 6.99 Mbit/s
Best UDP Send Rate: 840.72 kbit/s
Best UDP Recv Rate: 5.25 Mbit/s

Jag hoppas att ni, mina kära läsare, får lite bättre performance än tidigare och att det nu går ganska blixsnabbt att ladda ner sidan (modulo tiden det tar för webbläsaren att parsra och hålla på). Märker ni någon skillnad?

Så nu kan jag fortsätta med mitt spännande och "revolutionerande" projekt som förhoppningsvis kommer att förevisas inom kort. Det har något med något att göra. :-)

Posted by hakank at 11:10 EM Posted to Diverse

december 24, 2003

God Jul! Och ett litet julpyssel

God Jul alla!

Här är några ord som kan skapas av bokstäverna i "god jul":

du, duo, glo, go, god, gud, gul, guld, jo, jod, judo, jul, ljud, ljug, lo, lod, loj, oj, oljud, uj

vilket ju kan passa bra till julgröten.

Julpyssel
Stora virtuella guldstjärnor utgår till den som kan skapa en fullständig (och på något sätt förståelig) mening av samtliga och endast orden i ovanstående lista. För att dessa guldstjärnor ska lysa ordentligt tarvas ett sammanhang där meningen skulle kunna vara "naturlig". Ogillas görs dock förslag som använder citering såsom:

Ljud/oljud: "duo, glo, go, god, gud, gul, guld, jo, jod, judo, jul, ljud, ljug, lo, lod, loj, oj, oljud". Uj!

Däremot gillas kreativ grammatik och inlagd sill.


Om vi tillåter bokstäverna i "god jul" att förekomma flera gånger blir det en något större lista:
dogg, dojo, dold, du, dugg, duo, glo, glugg, go, god, gid, gul, guld, guldgul, gull, jo, jod, jojo, ju, judo, jul, ljud, ljug, lo, lod, logg, loj, ludd, lugg, lull, lullul, loj, ojoj, oljud, udd, uddljud, uj, ull.

(Noteras kan det märkliga sammanträffande att både dojo och judo finns med.)

Det program som användes för att skapa dessa listor är Combograms.

Posted by hakank at 10:19 FM Posted to Språk | Comments (3)

december 22, 2003

Markov av svenska bloggar

Efter Bengt O. Karlssons förslag i kommentarerna till Automatisk bloggning? (Blog Markov) har jag nu hackat ihop ett litet wrapperprogram för att markovifiera de bloggar som finns på weblogs.se:s Webbloggsindex, och är väl alla de bloggar som någonsin pingat weblogs.se?

Programmet Web Markov weblogs.se läser in ovanstående sida, mixtrar och joxar lite, samt länkar alla blogg-sidorna till Markov-programmet.

Det är inte snyggt men det är fult. :-)


Om systemansvarig på weblogs.se eller annan anser att programmet på något sätt är otillbörligt ber jag om en fin liten vink om detta.

Uppdatering
Sagde Bengt har nu en kul julgåta att knäcka där han använder texter skapade via sagda program. Se vidare Vilka bloggar är det som markoviserats så här?. Han förklarar lite mer i sin anteckning rubricerad Några nötter att knäcka daterad 2003-12-22, men bokmärkeslänken är till nämnda julnöttersida.

På en icke förekommen anledning kanske jag även bör nämna att Markov-programmen är slumpmässiga, vilket innebär att det är ganska osannolikt att exakt samma text skapas flera gånger. Jag tar inget som helst ansvar för ett eventuellt uppkommmet Markov-beroende.

Posted by hakank at 10:13 FM Posted to Blogging | Program | Språk | Comments (1)

december 21, 2003

Automatisk bloggning? (Blog Markov)

Om ni undrat hur jag skapat mina tidigare blogganteckningar kan jag nu avslöja att det gjorts med hjälp av programmet Blog Markov.

Nej, det stämmer inte riktigt.

Däremot blev jag - efter att ha skrivit anteckningen Automatisk identifikation av språk (språkidentifiering) där några Markov-generatorer nämns - lite nyfiken hur en sådan genererad text skulle bli. Jag tycker att det fångar stilen rätt bra. (Någon kommer förmodligen att säga att de inte märker någon skillnad; det bjuder jag på. :-)

Programmet använder alltså anteckningarna från min blogg med vissa filteringar.. T.ex. har allt inom < ... >-taggarna tagits bort, eftersom det ofta är text på engelska vilket stör språkligheten för mycket.

Testa gärna själv. Ändra parametern n för att ge mer eller mindre trogen text, n=10 ger mycket trogen och n=5 är ganska trogen text.

Posted by hakank at 09:21 EM Posted to Program | Comments (3)

Scale-free sonata

a short description of the influence of scale-free networks in the 1 sonata, for piano (PDF) av Michael Edward Edgerton.

Se även Study of Self-Organized Networks at Notre Dame, dvs Barabasi & Co. Guide to our network papers innehåller ett diagram över de olika papers som gruppen har producerat.

(Via Complexity Digest. Notera att veckans nummer i skrivande stund inte är upplagt. Den brukar komma upp på måndagar.)

Posted by hakank at 06:43 EM Posted to Komplexitet/emergens

december 19, 2003

Internetworldartiklarna om bloggning

Nu finns de berömda Internetworld-artiklarna om bloggning på webben:
Världens bästa bloggar
Bästa svenska bloggarna (notera vem som är med på ett hörn:-)
10 tips för en bättre blogg

Glöm inte att det finns många andra bra svenska bloggar via weblog.se och www.sweblogs.com.

Posted by hakank at 01:44 EM Posted to Blogging | Comments (2)

Automatisk identifikation av språk (språkidentifiering)

Mats Andersson frågar hur man identifierar ett visst språk.

Tyvärr fungerar det inte så bra att bara titta på fördelningen av enskilda bokstäver (som Mats antyder som en lösning), utan man arbetar ofta med n-gram, dvs "löpande" n-boktavsdelar av texten. (Exempel: 2-gram (bigram) på ordet "mats" är "ma", "at", "ts".) Efter att ha analyserat en stor mängd dokument på olika språk arbetar man vidare med tekniker som beskrivs via nedanstående länkar.
[F.ö. är det n-gram jag använder i mina markov-program för att generera ord eller texter, t.ex. New Markov words II, skapa svenska ordstäv, Bob Hund texter, etc. Om det nu förklarar något. :-)]

Exempel:
Gå till Unknown Language Identification och skriv in en text, t.ex. den där Mats skriver sin fråga. Förklaringen av hur programmet fungerar finns på The Acquaintance Algorithm.

Här är några andra länkar om automatisk språkigenkänning (språkidentifiering, language identification):
TextCat, som också har kod skriven i Perl.
Det finns en bibliografi t.ex. på Automatic Language Identification Bibliography. Tyvärr är rätt många länkar obsoleta.

En massa andra språkidentifieringsredskap finns på Language Identification Tools. Där finns även pekare och referenser.
Fagan Finder har samlat en hel del av dessa som man kan testa, men det funkar tydligen inte nu. Däremot fungerar många av de sajter som finns på sidan, så klicka vidare.

Mer finns via google: "language identification".


Ett annat skoj område är automatisk textsammanfattning (text summarization). Se t.ex.
SweSum - Automatisk Textsammanfattare av
Vad är automatisk textsammanfattning?
Textsammanfattning
The Text Summarization Project
Text Summarization

Se även den alltid inspirerande Viggos språktekniksida (Viggo Kann)

Posted by hakank at 01:33 EM Posted to Språk | Statistik/data-analys

december 18, 2003

Ny bok: Organizational Data Mining

Organizational Data Mining: Leveraging Enterprise Data Resources for Optimal Performance redigerad av Hamid Nemati och Christopher D. Barko. (Amazon)

Mer info:
Table of Contents
Preface
Excerpt (PDF)


(via KDnuggets.)

Posted by hakank at 12:12 EM Posted to Machine learning/data mining

BBC: The Emerging Mind

BBC:s Reith 2003 föreläsningsserie The Emerging Mind innehåller följande föreläsningar:

Phantoms in the Brain
Synapses and the Self
The Artful Brain
Purple Numbers and Sharp Cheese (om Synesthaesia)
Neuroscience - the New Philosophy

Till höger på respektive sida finns bl.a. transkriptioner av föreläsningen.

Se även
Mind Games
Lecturer, om föreläsaren Vilayanur S Ramachandran
V.S. Ramachandran's Illusions
Publications

(Via Kuro5hin)

Posted by hakank at 09:06 FM Posted to Diverse

december 17, 2003

Memer, metaforer och bloggning

I social networking overload skriver danah boyd bl.a. nedanstående apropå en artikel om corporate social networking (ytterligare en variant av social network-tanken).

With every meme that emerges in the tech world, i'm amazed at how much gets attached simultaneously to one concept or phrase. Identity, blogging, social networks... My auto-reaction is to constantly and continuously unpack what people _mean_ when they use these terms. This has become quite challenging lately because the reason people collide them in their heads is to make metaphors work. I never realized how important these metaphors are to people's ability to construct technology.

zephoria fortsätter om bloggning:
Blogging has come to represent people who blog, people who journal, people are embedded in the blogging culture (and lately, i've watched it get further extended to discuss anyone who updates a site regularly). [One thing that continues to amaze me as i meet self-described 'bloggers' is how often they don't realize that most people's goals in blogging are vastly different than their own...]

Posted by hakank at 12:49 EM Posted to Blogging | Memetik

Mer forskning om bloggning

I Ready for lift off skriver Elmine Wijnia om sin kommande forskning (master thesis) om bloggning:

[N]ow I'm facing the beginning of my masters thesis and I'm going to investigate the phenomenon of weblogging. Since there is little scientific publications on weblogging I have to find other ways of getting enough input for my thesis. And that's why I'm starting an English weblog. To try and get input from bloggers themselves!

What my thesis is going to be about? I haven't got my research questions formulated yet, but I do know one part is to describe the weblog as a communicationtool and compare the weblog to other types of communicationtools used on the internet, such as chatboxes, fora etc. The other part of my thesis will consist of a philosophical investigation of the weblog. A Dutch philosopher (Jos de Mul) has written about personal homepages as a tool in the construction of personal identity in the postmodern world. That's a very interesting subject. An other thing that I noticed about blogging is that the communicational culture amongst them has some resemblance with the ideal speech idea of Habermas. In short that is: respect for the opinions of the other, no differences in power between the persons joining the conversation and transparancy. It is worthwhile to investigate whether my ideas about this are true in some way.

(Via Mathemagenic)

Posted by hakank at 12:25 EM Posted to Blogging

Six Degrees of Immunization

Scientific Americal-artikeln 'Six Degrees of Immunization' Strategy Proposed berättar om en strategi för att vaccinera "superspridare" (super-spreaders) av virus.

Reuven Cohen of Bar-Ilan University in Israel and his colleagues note that random immunization programs require a large fraction of the population, typically 80 to 90 percent, be protected in order to stop the spread of disease. Alternatively, if enough information about the network and its connections is known, targeted immunization of the most highly connected individuals--so-called super-spreaders who have the potential to infect a high number of people--can be effective. Unfortunately, such information is difficult to acquire. The researchers instead propose a tactic known as acquaintance immunization. In it, a percentage of the population is selected at random and asked to identify a friend. Those friends, in turn, are vaccinated. According to the team's calculations, because super-spreaders know so many people, there is a high probability that they will be named at least once. As a result, immunization of a much smaller fraction of the population can successfully halt disease transmission. In addition, the authors note that their approach "can be used even before the epidemic starts spreading, since it does not require any knowledge of the chain of infection."
...
Cohen and his colleagues note that the technique is relevant to other types of networks, including terrorist ones.

Andra artiklar om detta:
Vaccinate Thy Neighbor
Uppdatering: Nature: Hub caps could cut vaccine costs

Papret som refereras är:
R. Cohen, D. ben-Avraham and S. Havlin
Efficient immunization strategies for computer networks and populations (PDF), Phys. Rev. Lett. 91, 247901 (2003)

Fler intressanta papers finns på Reuven Cohen publications-sida. Se även Media coverage.

Posted by hakank at 09:02 FM Posted to Social Network Analysis/Complex Networks

december 16, 2003

Mathematics could stabilize peace treaties

Mathematics could stabilize peace treaties (Nature):

A political scientist at the Santa Fe Institute in New Mexico has devised a mathematical method that could help civil-war negotiators to find the most stable peace treaties1.
...
Elisabeth Wood calculates that a settlement will be stronger and more likely to last if it finds the ideal way to apportion the stakes. For example, if two warring factions each want control of some part of a disputed region, negotiators need to divide the territory in a way that comes closest to satisfying them both.

Artikeln avslutas:

"I suspect the model is too abstract to be of much practical use," admits Wood, who now intends to test how it might apply to real civil conflicts.

Papret som refereras är Modeling Robust Settlements to Civil War: Indivisible Stakes and Distributional Compromises

Abstract:
Why do some civil war settlements prove robust, while others fail? I show how a settlement’s robustness, defined in terms of the risk factor of the mutual-compromise equilibrium, depends on the nature of the stakes of the conflict and the distributional terms of the settlement. I identify the distributional terms of the optimal settlement, namely, that most robust to exogenous shocks to the actors’ confidence that the other will continue to compromise. I introduce a measure of the degree of the perceived indivisibility of the stakes, an increase in which not only decreases the range of feasible distributional settlements, but decreases their robustness as well. I explore how intra-party heterogeneity and uncertainty regarding ex-post outcomes lessen the range and robustness of settlements. In the conclusion, I compile the predictions of the model and briefly consider the policy implications.

Posted by hakank at 08:16 FM Posted to Matematik

Recension av Gordon Linoff & Michael Berry: 'Mining the Web'

Bokens fulla titel är Mining the Web: Transforming Customer Data, skriven av Gordon Linoff och Michael Berry.

(Varning för förväxling: Detta är inte samma bok som Soumen Chakrabarti's Mining the Web: Analysis of Hypertext and Semi Structured Data. Denna bok kommer jag förhoppningsvis att recensera inom en snar framtid.)

Linoff och Berrys bok kom ut i slutet av 2001 då en hel del av IT-hysterin hade lagt sig. Attacken i New York den 11 september 2001 nämns i förordet som något som precis hänt, och Enron-skandalen kommenteras i ett avsnitt ("när boken skulle tryckas ...") där Enron ges som ett exempel på en bra affärsidé. Så man kan anta att författarnas bild av e-commerce, den nya ekonomin, one-to-one-marketing etc, förändrades en hel del under skrivandet av boken. Några av de mer affärsinriktade böcker och artiklar som skrevs om den nya ekonomin kring år 2000 är nästan pinsamma att läsa nu när man vet hur det gick. Denna bok lider dock mycket lite av detta, utan ger som värst ett intryck att författarna beskriver ett ämne som de uppriktigt tror på och vill göra mer känt. Naturligtvis är det ett sätt för dem att även indirekt tjäna mer pengar eftersom de själv arbetar som data mining-analyser, med inriktning att att analysera och förbättra ett företags relationer till sina kunder.

Jag köpte denna bok strax efter den kom ut, men den har stått i stort sett oläst i bokhyllan sedan dess. Häromdagen bläddrade jag i den för att leta reda på en uppgift men hittade - i stället - kapitel 8 "Knowing when to Worry: Hazard Functions and Survival Analysis in Marketing". Survival analysis har jag tidigare kikat på i samband med statistisk analys, och blev nyfiken hur det används i samband med marketing. Det var ett intressant kapitel, så jag beslöt att läsa hela boken från pärm till pärm.

Eftersom jag urspungligen köpte boken för titelns "mining" blev jag lite besviken på att det var ganska lite direkt om data mining (se dock nedan), men blev å andra sidan mycket positivt överraskad av de intressanta diskussionerna om olika typer av affärsmodeller som finns eller kan komma att finnas på webben. Det görs även jämförelser mellan de olika modellerna och dess respektive styrkor och svagheter. Även icke-e-affärsmodeller förklaras, t.ex. traditionella snail-postorderföretag. Man går även igenom sådant som att sälja produkter som måste förpackas och sedan distribueras med bil (UPS nämns som exempel), annonsering på webben (t.ex. doubleclick.com) och hur modellerna för sådana verksamheter kan se ut.

En bra sak är att man oftast lugnt och sansat går igenom de olika aktörerna och diskuterar dels deras roller och dels var de har att tjäna på att vara med i spelet. I avsnittet om marknadsplatser delas olika system in i olika segment som analyseras var för sig. Det finns ett ganska långt avsnitt om eBay och varför de lyckats och varför en icke namn-given konkurrent misslyckades. De företag/sajter som tas upp är för det mesta mycket kända, även om det i mer avgränsade domäner förekommer namn som var okända för mig.

Det var skoj att läsa författarnas diskussion och kritik av Napster och liknande modeller, där de också skisserar en mer kommersiellt gångbar lösning. Hela detta kapitel, som ramades in av hur man ska sälja "produktlöst" på nätet (t.ex. musik eller virtuella tjänster), var enligt min mening ett av de mest intressanta.

De avslutande kapitlen är mer tekniska än de föregående, t.ex. det ovan nämnda kapitlet där man använder survival analysis för att lista ut hur trogna (eller otrogna) kunderna är. Andra kapitel diskuterar "cohort analysis" och kalkylering av kundvärde. Det finns t.o.m. lite SQL-kod i några av dessa avsnitt. I boken blandas alltså både översiktliga diskussionen och tekniska detaljer. I ett av de första kapitlen beskrivs hur cookies fungerar för att man ska använda dessa för avancerad annonsering eller up/down/cross-sell.

Författarna har gjort en hel del data mining-analyser och delar med sig av sin erfarenheter med en massa tips och varningar genom hela boken. Det sista kapitlet innehåller en fallstudie där man bland annat nämner en del fallgropar i sådana projekt. Det är alltså inte bara en dans på rosor, utan även törnen i form av t.ex. dålig data eller "politik" i organisationerna.

Beskrivningarna av själva data mining-teknikerna är lite lustigt insprängda i texten om affärsmodellerna, och det kan ge ett lite rörigt intryck. Trots detta tycker jag att boken lyckas göra kopplingarna mellan marknad och teknik på ett mestadels bra sätt. Det är en stor fördel att även läsa om en teknik sett i ett mer realistiskt sammanhang än bara algoritmerna rakt upp och ned (som i många av de mer tekniskt inklinerade böckerna om data mining). Några höjdpunkter här är deras genomgång av rekommendationssystem samt hur man skapar olika kundsegment med hjälp av klustringstekniker. I samband med detta kan nämnas att det är mycket få matematiska formler i boken, och det blir tyvärr lite konstigt när de förklarar statistiska begrepp som standardavvikelse med en "pratfversion".

För en bättre och mer systematisk genomgång av teknikerna, men fortfarande med ett marknadsperspektiv, skulle jag dock hellre vilja rekommendera författarnas tidigare bok Data Mining Techniques: For Marketing, Sales, and Customer Support (från 1997 så den är lite gammal med definitivt läsbar). Där är förklaras mer i detalj hur man bör bedriva data mining-projekt. De har också skrivit Mastering Data Mining: The Art and Science of Customer Relationship Management. Även den beskriver tekniker och metoder, men dess främsta fördel är de många fallstudierna.

"Mining the Web" innehåller mycket intressant information men tyvärr ges alldeles för få referenser till andra böcker och artiklar, och det finns naturligtvis ingen litteraturlista. Jag hittade sammanlagt 4 böcker som refererades i boken, varav två var till författarnas egna böcker som nämndes ovan. De övriga två böckerna var Dorian Pyles utmärkta Data Preparation for Data Mining vilken rekommenderas, samt The Loyality Effect: The Hidden Force Behind Growth, Profits, and Lasting Value (som jag har, men inte läst). På författarnas sajt Data Miners finns det en sida med Suggested books.


Slutord:
För mig var den stora behållningen av denna bok den utförliga genomgången av olika typer av affärsmodeller där man kan utnyttja webbens speciella förutsättningar. Både existerande system och funderingar kring framtida system diskuteras. Beskrivningarna av data mining-teknikerna gav mig inte så något nytt, mer än möjligen att se dem i konkreta affärssammanhang och med mer "kött på benen". Det antyds att målgruppen för boken är blivande databrytare (data miners) men jag anser att det är alldeles för lite hands on-information för att denna bok ensam ska räcka till för detta.


Se även referenserna i slutet på Recension av Jiawei Han & Micheline Kamber: 'Data Mining - Concepts and Techniques'.

Posted by hakank at 01:56 FM Posted to Machine learning/data mining

december 15, 2003

NetLogo version 2.0 samt lite Dennett

NetLogo version 2.0 kom ut häromdagen. Jag har skrivit om detta trevliga system för agent-baserad modellering tidigare. Se t.ex. Agent-baserad modellering - simuleringar av emergenta fenomen och Länkdump efter restaurangbesök.

Några nyheter (förutom en del ändringar i språket): man stödjer nu även Mac OS X, Java Swing används i stället för AWT och det går överhuvudtaget snabbare nu. Systemet kräver minst Java version 1.4.1, version 1.4.2 rekommenderas.
Systemet kan laddas ned via Download-sidan.

En stor fördel med systemet är att det följer med cirka 150 modeller som man kan studera (eller "leka med") även om man inte själv programmerar/modellerar.

På sajten finns det även modeller skrivna av andra men de följer inte med i paketet: NetLogo User Community Model, där det brukar komma en handfull nya modeller i månaden. En av de senaste var Artificial Financial Market. Klicka på "Run [modellnamn] in your browser" för att köra en modell via webben, eller ladda ner .nlogo-filen och kör lokalt.

När den nya versionen kom nyupptäckte jag några modeller kallade "Genetic Drift" som utgår från det Daniel Dennett skriver i sin bok Darwin's Dangerous Idea. Modellerna är GenDrift P global, GenDrift P local, GenDrift T interact samt GenDrift T

Början på beskrivningen av den förstnämnda modellen (GenDrift P global) är: This model is an example of random selection. It shows that patches that randomly exchange colors converge on a single color. The idea, explained in more detail in Dennett's "Darwin's Dangerous Idea", is that trait drifts can occur without any particular purpose or 'selecting pressure'.

Jag har inte läst Dennetts bok, men blev nu intresserad.


Några andra länkar:
NetLogo Users (yahoo!-forum)
NetLogo Learning Lab (hos Modeling Complexity)

Posted by hakank at 07:27 EM Posted to Agentbaserad modellering

Senaste Complexity Digest

Lite från veckans Complexity Digest. Dokumenten är officiellt tillgängliga, dock inte nödvändigtvis de som Complexity Digest länkar till.

P. Laureti, P. Ruch, J. Wakeling, Y.-C. Zhang:
The Interactive Minority Game: A Web-Based Investigation Of Human Market Interactions.

Abstract:
The unprecedented access offered by the World Wide Web brings with it the potential to gather huge amounts of data on human activities. Here we exploit this by using a toy model of financial markets, the Minority Game (MG), to investigate human speculative trading behaviour and information capacity. Hundreds of individuals have played a total of tens of thousands of game turns against computer-controlled agents in the Web-based 'Interactive Minority Game'. The analytical understanding of the MG permits fine-tuning of the market situations encountered, allowing for investigation of human behaviour in a variety of controlled environments. In particular, our results indicate a transition in players' decision-making, as the markets become more difficult, between deductive behaviour making use of short-term trends in the market, and highly repetitive behaviour that ignores entirely the market history, yet outperforms random decision-making.

Keywords: Decision theory and game theory; Economics and financial markets; Information theory


Automated analysis of bee behavior may yield better robots
A new computer vision system for automated analysis of animal movement - honey bee activities, in particular - is expected to accelerate animal behavior research, which also has implications for biologically inspired design of robots and computers.

Purdue's self-assembled 'nanorings' could boost computer memory
Recent nanotechnology research at Purdue University could pave the way toward faster computer memories and higher density magnetic data storage, all with an affordable price tag.

Se även Webcast Announcements.

Posted by hakank at 06:10 EM Posted to Komplexitet/emergens

december 14, 2003

Redan de gamla grekerna höll på med kombinatorik

I New York Times-artikeln In Archimedes' Puzzle, a New Eureka Moment berättas om en gammal matematisk gåta (Stomachion) skapad av Arkimedes, som nu fått sin lösning. Eller snarare, man har nu kommit på vilket problem det egentligen var. Det som överraskar historikerna är att man redan på den tiden höll på med kombinatoriska problem.

Twenty-two hundred years ago, the great Greek mathematician Archimedes wrote a treatise called the Stomachion. Unlike his other writings, it soon fell into obscurity. Little of it survived, and no one knew what to make of it.
...
The Stomachion, concludes the historian, Dr. Reviel Netz, was far ahead of its time: a treatise on combinatorics, a field that did not come into its own until the rise of computer science.
...
In fact, he has concluded, the prevailing wisdom was based on a misinterpretation. Archimedes was not trying to piece together strips of paper into different shapes; he was trying to see how many ways the 14 irregular strips could be put together to make a square.

The answer — 17,152 — required a careful and systematic counting of all possibilities. "It was hard," said Dr. Persi Diaconis, a Stanford statistician who worked on it along with a colleague, Dr. Susan Holmes, who is also his wife, and a second husband-and-wife team of combinatorial mathematicians, Dr. Ronald Graham and Dr. Fan Chung from the University of California, San Diego.

Independently, a computer scientist, Dr. William H. Cutler at Chicago Rawhide, a manufacturer of oil seals in Elgin, Ill., wrote a program that confirmed that the mathematicians' answer was correct.
...
The diagram involved 14 pieces, and the word "multitude" seemed to be associated with it. Mr. Heiberg and those who followed him thought this meant that you could get many figures by rearranging the pieces.

"This is part of the reason people didn't see what it was about," Dr. Netz said. But the old interpretation seemed trivial, hardly worth Archimedes' time.

As he examined the manuscript pages, piecing together their text, he realized that what Archimedes was really asking seemed to be, "How many ways can you put the pieces together to make a square?" That question, Dr. Netz said, "has mathematical meaning."

"People assumed there wasn't any combinatorics in antiquity," he went on. "So it didn't trigger the observation when Archimedes says there are many arrangements and he will calculate them. But that's what Archimedes did; his introductions are always to the point."

But did Archimedes solve the problem? "I am sure he solved it or he would not have stated it," Dr. Netz said. "I do not know if he solved it correctly."

As for the name, derived from the Greek word for stomach, mathematicians are uncertain. But Dr. Diaconis has a hunch.

"It comes from `stomach turner,' " he said. "If you get involved with it, that's what happens."


Se även Mathworlds förklaringar:
Stomachion
Combinatorics

Posted by hakank at 08:28 FM Posted to Matematik

december 13, 2003

Online-böcker: ZDNet: TechUpdate

ZDNet: TechUpdate: Online books är en Online Books Reference Library. (Notera att URL:en inte tillhör zdnet.com, utan books24x7.com.)

Här är några findings.

Man får, efter en fri registrering, se innehållet i en massa böcker, mestadels IT-relaterade inklusive business och management. Haken är att varannat stycke "xxx"-as ("garblas"), men man får ändå en rätt bra känsla för vad boken innehåller. Man kan tydligen köpa en prenumeration för "endast" $299 och får då tillgång till helt icke-garblade böcker.

Uppdatering: På "Settings" ser jag nu att kontot går ut om en vecka. När jag registrerade mig stod det inte att det var tidsbegränsat (eller så missade jag det). Det står i och för sig följande på registreringssidan: Begin by signing up below for a "sneak peek" of this service. Trist.

Jag hittade ingen systematik i presentationen av sökresultatet och det går inte att välja någon presenationsordning. Lite tråkigt när man får 100-tals träffar.

Det finns en "My Bookshelf" där man kan lägga in sina egna böcker. Exakt varför man ska göra detta är inte helt klart. Jag såg t.ex. ingen rekommendation som hos Amazon eller någon annat rolig funktion. I övrigt finns det väldigt lite extrafinesser liknande de som gör Amazon så användbar. Uppdatering: Naturligtvis är det bra att ha sina böcker samlade på ett ställe så att man lätt kan söka i dem. Se även zephorias (danah boyd) förslag till Amazon a call to amazon, and publishers.


Är detta bättre än att browsa via Amazons Search inside this book? På Amazon måste man ju trixa lite med sökord för att kunna browsa sida för sida, och det finns lite begränsningar så att man inte kan klicka "Next" genom en hel bok. I TechUpdate kan man klicka på "Next" utan begränsningar (förutom den garblade texten då). En fördel med TechUpdate är också att boktexten är i textformat till skillnad från Amazons bilder.

En viktig sak är också hur många böcker som finns i biblioteket. Jag lyckades inte hitta någon exakt (eller ungefärlig) siffra, så det blev en liten utmaning att försöka lista ut det. Först försökte jag med att söka på vanliga ord som "and", "must" etc som ju finns i alla böcker, men de är stoppord och gillades inte. Här nedan är några sökningar samt antal träffar (antal böcker) följt av ett ett försök till estimering.

computer: 701 träffar
data: 584
mining: 107
data near mining: 90 (vilket är förvånansvärt mycket!)
java: 429
information: 710
database: 592
microsoft: 696
business: 640
business or computer or information: 712

Med hjälp av ovanstående resultat beräknar jag att det finns cirka 720 böcker i biblioteket, vilket inte imponerar på mig i alla fall. Det motsvarar endast cirka 4-5 bokhyllor! Detta gör att jag misstänker brister i antingen sökningen eller mitt sätt att estimera.

Som jämförelse följer Amazons resultat. Notera att alla böcker inte är sökbara och att sökresultatet även innehåller icke IT-relaterade böcker:

computer: 32000
data: 32000
mining: 6665
data mining: 366 (det är inte riktigt samma sökning dock)
java: 2656
information: 32000
database: 10440
microsoft: 11460
business: 32000
business or computer or information: N/A eftersom OR inte finns som operator på Amazon.

Där jag antar att 32000 ska ersättas med "en herrans massa böcker".

Frågor på detta: Finns det någon uppgift hur många sökbara böcker som finns på Amazon?

För övrigt noterade jag Amazon något jag inte tänkt på tidigare, nämligen "Related Searches". Hur länge har de haft detta?

En intressant bok hittade jag i alla fall:
Web Data Mining and Applications in Business Intelligence and Counter-Terrorism av Bhavani Thuraisingham. (Amazonlänk)


Se även
Full sökning i böckerna på Amazon
Har Amazon rättigheter till sin megasök i böcker?

Posted by hakank at 07:15 EM Posted to Böcker

Bokus går med vinst

Från Internetworld: Bokus går med vinst

Efter sex år går klassiska nätbokhandeln Bokus äntligen med vinst. Exakt hur mycket det blir är ännu oklart, men att det blir en vinst är helt klart.

Dubbelt kul! Både för att det är ett gammalt favoritsystem, och för att det är ett tecken på att det där med e-lådor kanske inte var så dumt i alla fall.

Artikeln skriver även: I Sverige har nätboklådor cirka 5 procents andel av den totala bokmarknaden, enligt Dagens Handel. Det kan jämföras med USA där andelen ligger tre gånger så högt, på 15 procent.


Samma tidning skrev 24/9 i år om andra e-företag som går med vinst: Skrattar bäst som skrattar sist

Posted by hakank at 05:46 EM Posted to Böcker

december 12, 2003

Groovy - uppdatering

För några veckor skrev jag om programspråket Groovy. Följande sägs på lite olika ställen på Groovy-sajten: Groovy's initial niche is scripting, constructing and testing Java objects.

När jag skrev förra gången var språket i experimentstatidiet och hade en del brister. Den största bristen var enligt min mening att man var tvungen att skriva egna drivers i Java och att vissa konstruktioner inte fungerade, såsom exemplet nedan. I version 1.0-beta, som nyss kommit ut, är detta fixat så det fungerar nu som ett riktigt scriptspråk. Ladda ner den härifrån.

Här är ett exempel som faktiskt fungerar:
class Foo {
  doSomething() {
    data = ["name": "James", "location": "London"]
    for (e in data) {
      println("property ${e.key} is ${e.value}")
    }
  }
  
  closureExample(collection) {
    collection.each { println("value ${it}") }
  }
  
  static void main(args) {
   values = [1, 2, 3, "abc"]
   Foo foo = new Foo()
   foo.closureExample(values)
   foo.doSomething()
  }
}
Om man sparar detta i filen Foo.groovy, kör man med kommandot
groovy Foo.groovy
och får, inte helt oväntat, följande resultat:
value 1
value 2
value 3
value abc
property location is London
property name is James
Det går också att kompilera till en .class-fil och anropa från egen Java-kod.

För mer information se:
Groovy (sajten)
Quick Start Guide to Groovy.
Overview
Presentation: Groovy - Making Java more funky som också innehåller en del exempel.


Se även Groovy 1.0-beta-1 is out! från James Strachan's Radio Weblog samt First Release for Groovy 1.0: JVM Scripting Language från TheServerSide.com.

Posted by hakank at 07:53 EM Posted to Systemutveckling

december 11, 2003

Ny teknik: Årets toppar och floppar

I Ny Teknik-artikeln Årets toppar och floppar finns en lista på 10 toppar och 3 floppar.

De tre första i toppen är
1. Apple iPod
2. Musikbutiker på nätet.
3. Open Office.

Lite senare kommer:
6. Webbloggar. Webbloggarna har blivit smarta betaltjänster där miljontals människor själva kan publicera det som händer omkring dem för familjen, kompisarna eller världen.

Det är kanske ännu smartare att inte betala något alls.

Se några andra förklaringar/definitioner av webbloggar Top 20 Definitions of Blogging och Lead block to weblogs. (Via Ming the Mechanic.)

Posted by hakank at 08:18 EM Posted to Blogging

Bra frågor

Mats Andersson ställde igår frågan En bra fråga? Här är några reflexioner kring detta.

Mats börjar respektive avslutar sin anteckning med följande:

Vad är en bra fråga? Om någon ställer en fråga till dig och du inte kan svara då kanske du svarar att det är en bra fråga. Vad är det för bra med en fråga man inte kan svara på? Och om nu en fråga man inte kan svara på är en bra fråga, vad är då en dålig fråga?
...
Så vad är en bra fråga egentligen? Och framför allt, är frågan "Vad är en bra fråga?" en bra fråga? Och är i så fall frågan Är frågan "Vad är en bra fråga?" en bra fråga? en bra fråga? Vilket leder till nya frågor som leder till nya frågor.

Enligt min mening är det flesta av ovanstående frågorna bra frågor. I slutet försöker jag mig på ett samlat svar på den oändliga regressen.

Först lite om själva begreppet "bra fråga".

Mats undrar om en bra fråga är samma som en svår fråga (vilket jag inte anser), och leder vidare till tanken att "bra" egentligen skulle innebära "dålig". Intressant ansats, men då skulle ju begreppen "bra" och "dåligt" helt förlora sina betydelser. Och det vill vi ju inte, eller hur? Mats visar alltså att "bra fråga" inte kan betyda det han först föreslår.

Det intressanta ("bra") - i alla fall för mig - med Mats frågor har inte så mycket att göra hur vi definierar "bra" rent allmänt utan snarare i vilka situationer som vi använder uttrycket "bra fråga". För mig är t.ex. uttrycket "bra svar" inte lika intressant (även om det kan vara svårt att reda ut exakt vad det innebär).

Om man funderar på hur man normalt använder uttrycket "bra fråga" (t.ex. i "Det var en bra fråga!") kan vi mena lite olika beroende på situationen. Här är några exempel:

En lärare ställer en fråga på ett prov. Några av eleverna skriver svar som visar att de förstått vad frågan gällde. Några andra elever svarar inte eller svarar på ett sätt som visar att de inte förstått vad det handlade om. Det är då en bra fråga eftersom den gjorde så att lärararen lättare kan bedöma hur eleverna skiljer sig i sin kunskapsnivå, och förhoppningsvis även ge antydan vad det är som en viss elev har svårigheter med.

Här är det en bra fråga utifrån lärarens perspektiv eftersom denne fick reda på sakerna om eleverna som förr kanske var okänt. Som Mats antyder är det märkligt att eleverna skulle tycka att det var en bra fråga. Å andra sidan kanske de elever som får bra betyg på provet anser att det är en bra fråga eftersom den gjorde så att de utmärkte sig jämfört med andra.

Men detta är nog inte den normala användningen av "bra fråga". Följande nyligen självupplevda exempel kan ge lite mer ledtrådar:

Häromdagen roade vi oss med Lateral thinking-problem, dvs där först en kort histora berättas varefter deltagarna ska fråga ja/nej-frågor och komma fram till bakgrunden till historien. Ett exempel: "En man kommer till sitt jobb, tänder ljuset och hittar en massa döda människor. Vad har hänt?". Mitt under ett sådant frågepass var det någon som ställde frågor varpå lekledaren spontant sade: Det där var bra frågor!.

Vad menade lekledaren med "bra fråga" här?

Ovanstående är exempel då någon faktiskt vet det korrekta svaret och där någon annan ska komma på en lösning. Då är det rätt enkelt att se att en fråga är nära lösningen. I andra fall, t.ex. i vetenskaplig forskning eller när man debuggar ett program som inte riktigt fungerar som man vill, har man bara ett fenomen framför sig som man försöker att förstå.

En bra fråga i dessa sammanhang är då en fråga som gör att man får en ny syn på problemet och - kanske - löser det. Här är ett enkelt exempel från min värld:

- Hmmm, vad händer om du testar på en annan dator?
- Bra fråga, det har jag inte tänkt på!

Man skulle här också kunna se frågan som en bra reminder ("påminnare") om sådant som man brukar fundera på. Och kommentaren skulle då även kunnat vara "Bra påminnelse. Det hade jag glömt!".

Det skulle alltså lika väl ha kunnat låta på följande sätt:

- Hmmm, vad händer om du testar på en annan dator?
- Dum fråga, det var naturligtvis det första jag tänkte på.

För frågeställaren var frågan ställd utifrån en kunskap (modell) om hur saker fungerar och orsaker till problem (dvs att man kan få olika resultat beroende på vilken dator man kör på) men visste inte om att svararen redan hade kontrollerat detta. (I slutet på denna anteckning återkommer jag lite till detta med modeller.)

Jag tror att essensen i det vi normalt menar med "bra fråga" är att frågan penetrera ett (svårt) problem genom att gå på djupet, nå kärnan i problemet eller får oss att tänka på en annat sätt än tidigare.

Det går nog också ganska omedelbart att säga om en fråga är bra eller inte, oavsett om frågan verkligen leder till ett korrekt svar. Frågan ledde ju hur som helst till nya tankegångar. [Kanske man borde införa uttrycken "felaktig fråga" för sådana som inte leder till en bra lösning. :-) Hur uttrycker man sig i Jeopardy(TM)?]

Motsatsen till "bra fråga" skulle då egentligen inte vara "dålig fråga" utan snarare "ointressant fråga". För att travestera en av Mats dialoger där man kan säga att följande fråga är bra eftersom den löste problemet.

- Vad är det för dag idag?
- Det är söndag, men varför frågar ... . Å, k*tten, det är alltså därför banken är stängd!

"Bra fråga" verkar alltså vara ungefär samma sak som "intressant fråga". Tyvärr finns det en tendens att används både "bra fråga" respektive "intressant fråga" när man inte själv vet svaret och inte vill verka okunnig. Men detta ska ses som ett parasistiskt användande som lever på den ursprungliga betydelsen. När man säger dessa fraser antyder man att man kan bedöma kvaliteten på frågan, vilket ju kräver en hel del kunskap (som man kanske inte har).


Här är en kommentar om Mats oändliga regress i det första citatet ovan. Låt oss för enkelhets skull kalla hela denna sekvens av frågor för Z:

X = "vad är en bra fråga?"
Y(0) = "är X en bra fråga?"
Y(1) = "är Y(0) en bra fråga"
Y(2) = "är Y(1) en bra fråga"
...
Y(n) = "är Y(n-1) en bra fråga?"
för n -> oändligheten.

Grundfrågan, dvs om den sammansatta frågan Z är en bra fråga, är en bra och intressant fråga, liksom frågorna X och Y(0) och möjligen Y(1). Anledningen till att jag tycker att det är bra frågor är att de på olika sätt gav nya infallsvinklar på ett problem som jag tycker är intressant. Däremot anser jag inte att t.ex. Y(3) är en bra fråga eftersom den inte tillför något nytt jämför med Y(2).

Sidospår:
En sak som fascinerar mig i allt detta är vilken typ av representation (modeller) vi har och hur vi använder dessa när vi löser olika typer av problem, jämför ovan om datorproblemet. Ibland är jag mycket visuell när jag ska lösa ett problem. T.ex. kan vissa programmeringsproblem representeras som en mental Whyteboard där kopplingar mellan olika begrepp är linjer av olika slag. Några gånger har jag sett problemen ungefär som i en 3D-värld; om det råkar komma in något helt annat relevant för problemet, t.ex. genom någon association, är det som en ny box dyker upp och kopplar upp sig mot de övriga. I sällsynta fall har det faktiskt varit som en Virtual Reality-resa med zoomningar och allt.

Tråkigt nog är det mycket svårt att direkt överföra en sådan modell till annan person och det är frustrerande när man tycker sig se lösningen så klart men kan inte riktigt formulera den.

För att göra en koppling till huvuddiskussionen skulle man med ovanstående bild kunna säga att bra frågor är sådana som gör att man lättare kan fundera på de olika boxarna och dess relationer, t.ex. genom att undersöka vad skulle hända om en koppling fanns mellan dessa två boxar; eller då en fråga skapar en helt ny värld eller nytt perspektiv.

Apropos Lateral Thinking-leken: Ett datorbaserat Lateral Thinking-system skulle vara en bra träning i att ifrågasätta de förutsättningar (modell) man har (skapar) när man hör historien och hur den sedan utvecklas. T.ex. följande som kan ses som ledtrådar: "Vilken typ av jobb var det?" "Varför arbetade han där?", "Hur mycket var klockan?". En övning som lämnas åt läsaren är att formulera om dessa till ja/nej-frågor. :-)


Så tillbaka till "bra". Det vi har kommit fram till är väl egentligen bara att "bra" i konstruktionen "bra fråga", fyller sin vanliga funktion att betyda det "bra" ska betyda, nämligen - för att citera NE:

bra
...
1. som har lämpliga eller tillfredsställande egenskaper el. fyller berättigade krav
...


Som avslutning nämns två böcker som har anknytning till ovanstående.
Först en bok jag tidigare nämnt några gånger: Johan Asplunds "Om undran inför samhället" som bland annat diskuterar vetenskaplig forskning genom en jämförelse med gåtor och detektivromaner. Se t.ex. referensen i Mats Anderssons matematiska gåta.

Så en annan gammal favorit: "Universum, döden och den logiska analysen" av Sören Halldén (Almqvist & Wiksell, 1961). Det är en underbar liten introduktion i filosofiska tekniker (främst begreppsanalys) som bland annat tar upp olika typer av filosofiska frågor samt "nyttan" med dessa.

Posted by hakank at 05:07 EM Posted to Filosofi | Språk | Comments (5)

december 10, 2003

Computational origami

Från BBC-News-artikeln Origami help for tech design:

Origami - the Japanese art of folding paper to make models - is being put to a new use - to help engineers design, amongst other things, new telescopes and cars.

Exploiting the study of the way that paper folds, known as computational origami, can reveal both better ways to construct objects and also predict how they will respond to certain pressures.

Se även
Erik Demaine
Nature-artikeln Origami solves road map riddle (februari 2002)
Origami Mathematics Page

Posted by hakank at 04:45 EM Posted to Artificiell intelligens

december 07, 2003

Blogging Survey Results

Blogging Survey Results :

The Blog Search Engine held a survey on blogging which was concluded on December 1, 2003. The 610 survey respondents were made up mainly of blog owners who have submitted their blog to the Blog Search Engine (over 2,800 blogs submitted) and other blog owners contacted through different channels.

Flera intressanta resultat framkom, t.ex..

An overwhelming amount of bloggers, 90.7%, have never been contacted by a company or organization with product or service information, asking the blogger to blog about them. This may be because the public relations industry has yet to direct a large amount of its efforts towards bloggers.
...
Although the majority of bloggers have yet to be contacted by a company or organization with blogging info related to a product or service, 73.9% off all bloggers are open to receiving and blogging about such information.

This is in vast contrast to advertising where only 29.4% of all bloggers surveyed are open to running ads (run advertisements or would like to).

However, 41.8% of bloggers may be open to PR contacts, but are willing to post a negative review in their blog if they do not like the product.

The PR industry has to be extra careful with bloggers by first reading their material, likes and dislikes, and then, pitching product or service information customized to the blogger.

Bloggers are more open to public relations efforts than the are for running advertising.

(För närvarande kommer jag inte åt bloggen från min hemdator.)


Via Zephoria.

Posted by hakank at 01:43 EM Posted to Blogging

december 06, 2003

Recension av Malcolm Gladwell "The Tipping Point"

Här är en kort recension av Malcolm Gladwells bok The Tipping Point: How Little Things Can Make a Big Difference.

Huvudtemat i boken är hur man gör en "hit", t.ex. sälja varor, idéer eller förändringar. Författaren kallar det i och för sig hellre "sociala epidemier", möjligen för att epidemier kan ses både positivt och negativt.

Poängen är det ofta inte behövs mer än en liten sak/händelse ("the tipping point") för att en viss sak/fenomen ska bli succé eller för att en trend ska brytas. Det senare exemplifieras med hur New York City bröt sin kraftiga brottsvåg genom rätt små ingrepp: satte åt graffittimålarna och tjuvåkarna på tunnelbanan, som gav som resultat att större brott faktiskt minskade.

Mottot är alltså "En liten tuva kan stjälpa ett stort lass", men det stora problemet är att hitta vilken tuva man ska placera var. Gladwell gör i sin bok en genomgång av olika typer av tuvor och olika typer av lass och lyckas rätt bra med att förklara hur man kan gå till väga.

(Detta kan ses som ett exempel på det som systemdynamiken har pratat om i många år, men jag hittade inte några direkta referenser till detta ämne i boken, inte ens till Peter Senges intressanta 'The Fifth Discipline'. Se t.ex. min lilla beskrivning på Systemdynamik - System Dynamics.)

Det är alltså inte bara kommersiell försäljning som behandlas, vilket jag tycker är en stor fördel. Boken beskriver olika typer av fenomen som på något sätt kan betecknas som sociala epidemier, och ofta är det även med sociala förtecken: höja barns kunskapsnivåer, minska rökning, höja medvetandegraden om sjukdomar etc. Naturligtvis beskrivs även några lyckade reklamkampanjer, konstigt vore det annars.

Boken byggs upp av olika tema (kapitel):

Det finns tre olika typer av personer som är viktiga för spridningen och som i boken exemplifieras av verkliga (men för mig okända) personer.

Dessa tre roller knyts på ett bra sätt in med andra teman som finns i boken. Vad gäller spridning av t.ex. uppfinningar, anser Gladwell att det är nödvändigt att använda personer med ovanstående roller för att sprida budskapet från de tidiga användarna (visionärerna) Innovator och Early Adopters till de övriga användarna Early Majority, Late majority och Laggards. På olika sätt kan och bör Connectors, Salesmen och Mavens förändra budskapet om "produkten" (vad den nu än är) på ett sätt som är aptitligt för de olika typerna av användare. (Detta nämns även i recensionen Recension av Jiawei Han & Micheline Kamber: 'Data Mining - Concepts and Techniques', där jag även gör en hänvisning till The Tipping Point.)


Boken tar upp många exempel på forskning inom många områden, såsom psykologi, sociologi, ekonomi etc, varav en hel del är sådant som jag inte kände till tidigare eller presenterades ur ett annat ljus. Dessa genomgångar är en av de största behållningarna av boken. T.ex. går Gladwell på flera sidor genom forskning vad förskolebarn förstår/inte förstår av Sesame Street, liksom olika typer av kogitiva illusioner. Han går även genom hur stor en organisation bör vara för att fungera informellt och kan fungera optimalt: max 150 personer. Det exemplifieras bland annat med företaget Gore (as in Gore-Tex) och andra typer av grupper. (Se även Gores korta beskrivning om sin kultur på about: culture).


Det sista kapitlet handlar bland annat om hur man ska komma åt problemet med rökning, främst hos ungdomar, där olika teorier och förslag diskuteras och förkastas. Tobaksbolagen får en känga, liksom de mest militanta kritikerna. På olika sätt kopplar Gladwell rökningen till vem och vad det är som egentligen påverkar ungdomar att börja röka. Föräldrarna har - enligt Gladwell - egentligen rätt liten betydelse för denna typ av beteende (föräldrarnas förbud mot rökning ses snarare som en uppmaning att röka!). I stället är det kompisarna ("peers") som utgör den största faktorn samt den påverkan som idealmodellerna utgör.

Begreppen "idealmodell" och "legitimisering av beteende" förekommer på flera ställen i boken. T.ex. en tidningartikel om ett självmord påverkar antalet självmord de närmsta dagarna i ett ganska fast mönster. Men det är inte alla typer av självmord som ökar, utan endast de som utförts på liknande sätt som i tidningsartikeln. Artikeln har s.a.s. "legitimiserat" metoden. (I sin mycket läsvärda bok Influence skriver även Robert Cialdini om detta, och gör en något mer djupare och bredare analys av fenomenet. Jag har skrivit lite mer om Cialdinis bok här.)

Denna mekanism att legitimisera eller "avlegitimisera" olika typer av beteende, försöker Gladwell sedan bygga vidare på för att t.ex. minska rökningen eller medvetandegöra om andra saker, t.ex. bröstcancer och diabetes. I det senare fallet tas som exempel ett lyckat försök där spridningen gjordes via damsalonger.


Slutord
Det är ingen vetenskaplig bok och jag vet inte hur korrekta Gladwells teorier eller unika tankarna egentligen är. Författaren är engagerad i det han skriver om vilket bidrar stort till att göra denna bok till både intressant och läsvärd. T.ex. har han gjort egna (dock inte helt vetenskapliga) experiment för att testa olika teorier. De personer som intervjuats beskrivs medryckande och tillför en trevlig dimension till boken.

Boken lider naturligtvis av popvet-syndromer att blanda hejvilt i de olika kapitlen av journalistiska skäl, vilket gör att det kan bli lite rörigt eller att det tar en liten stund innan man vet vad kapitlet egentligen ska handla om. Vad jag förstår är det en stil han även har i sina tidningsartiklar (se nedan). Oftast funkar det dock mycket bra, och möjligen är det helt enkelt mitt eget fel att jag läser populärvetenskapliga böcker på det sätt jag gör.

På samma sätt som jag tyckte om Vyse bok Believing in Magic: The Psychology of Superstition (se Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition') för att den innehåll många olika typer av forskningsresultat i många olika discipliner, tycker jag att Gladwells bok är intressant. Även om exemplen är färre än hos Vyse (och Cialdini) så beskrivs de enkelt och lättförståeligt.

Det är möjligt att det finns bättre böcker om spridning av budskap, men Gladwells "The Tipping Point" är i alla fall en mycket trevlig och informell introduktion till ämnet.


Referenser:
Ett litet urval artiklar av Gladwells artiklar:
The Tipping Point
Connecting the Dots


Se även min blogganteckning Att förutsäga framtiden i efterhand - hindsight bias/creeping determinism där bland annat artikeln "Connecting the Dots" diskuteras.

Posted by hakank at 10:02 FM Posted to Social Network Analysis/Complex Networks | Comments (5)

december 05, 2003

Recension av Jiawei Han & Micheline Kamber: 'Data Mining - Concepts and Techniques'

Denna bok läste jag för ett tag sedan, men kom på att det vore roligt att skriva en recension, speciellt eftersom jag tyckte om boken.

Boken Data Mining - Concepts and Techniques (Amazonlänk) av Jiawei Han och Micheline Kamber är, till skillnad från många andra introducerande böcker om Data Mining, skriven till stor del för en rätt speciell teknisk målgrupp: utvecklare och forskare i databasindustrin. Detta innebär inte att man måste vara databaskonstruktör för att förstå boken, däremot bör man inte banga för begrepp som "komplexitet", "curse of dimensionality", "OLAP" eller "full scan". Det är få rena matematiska formler eller resonemang i boken, däremot används en hel del pseudokod för att beskriva algoritmerna.

Boken är skriven för att vara "self contained" genom att kapitlen ska gå att läsa oberoende av andra. En konsekvens av detta är att vissa begrepp förklaras flera gånger, vilket troligen ska ses som en fördel. Det blir trots detta en del korsreferenser för de viktiga begreppen (såsom "OLAP", "decision tree", "Apriori" etc), så min personliga rekommendation är att börja från början, och i alla fall skumma igenom det som inte känns så viktigt. Trots bokens cirka 500 sidor huvudtext (det finns några appendix samt en omfattande litteraturlista) går det rätt snabbt att läsa dem.

De första kapitlen (2 - 4) handlar om olika typer av förutsättningar för bra data mining: OLAP, data warehouse och förprocessering ("tvättning") av data. När jag först läste kapitlet om OLAP blev jag lite förvånad. Även om det är bra skrivet, så förstod jag inte riktigt poängen med det, men efter hand insåg jag att det beskriver en typ av beslutsstödssystem som är mer vanligt förekommande än data mining, och som i någon mån kan ses som en "base level" för den typ av kunskap man vill åstadkomma med data mining. Det är också en mjukstart som introducerar olika begrepp som sedan används. Kapitlen om data warehouse och datatvättning är viktiga, eftersom dessa två områden oftast är nödvändiga för lyckade projekt med data mining av mycket stora dataanhopningar.

Det är en herrans massa tekniker (algoritmer) som gås igenom i boken. De områden som behandlas är:
- associationsregler, t.ex. Apriori och dess olika varianter.
- klassifikation och prediktion, beslutsträd, neurala nätverk, Bayesiaska klassifikatörer etc
- klusteranalys, många olika typer av klustertekniker presenteras
- komplexa datatyper (t.ex. spatial data, tidsserier, text samt data på och via webben)

Varje område har ett eget kapitel och beskriver många algoritmer samt deras varianter och utvidgningar. Många tekniker kompletteras med små exempel på hur algoritmen fungerar. Man använder i stort sett samma data(bas) genomgående för detta, vilket är bra. Även om databasen förklaras i början av boken skulle det vara trevligt om den fanns online så att man själv kunde leka lite.

Jag ger extrapoäng för att man beskriver teknikernas fördelar och nackdelar, t.ex. om den är skalbar (dvs passar för data mining av mycket stora databaser) samt för vilka områden det behövs mer forskning.

Det är bra förklaringar av teknikerna. För vissa tekniker/algoritmer, t.ex. artificiella neurala nätverk, förklaras de kortfattat och hänvisas sedan till annan litteratur. Troligen är det ett klokt beslut för att boken inte ska svälla till en ohanterlig (och väldigt dyr) klump. Jag kunde dock inte hitta något ställe där författarna uttryckligen berättar om sina urvalskriterier om vilka eller hur mycket de beskriver om metoderna.

En intressant sak är att man diskuterar begreppshierarkier, dvs begrepp på olika nivåer, t.ex. begreppen gata, stad, landskap, land. På många olika ställen förklaras hur en teknik ska användas (eller ändras) för att hantera denna typ av hierarki.

Bokens avslutas med diskussioner om trender, framtiden och - framförallt - möjliga sociala effekter av data mining. Man pratar även om hur man ska göra för att sälja in data mining till fler än de existerande användarna.

I den utvecklingsmodell med aktörerna:
- innovators
- early adopters
CHASM ("avgrund")
- early majority
- late majority
- laggards

befinner sig data mining enligt författarna i avgrunds-området, där uppfinnare, tekniker med flera försöker att sälja in en produkt/ett koncept till en grupp 'early majorities'. Denna grupp är troligen inte är så mottagliga för den typ av säljargument som hittills framförts, så något måste göras. Det är troligen bara tekniktöntar som jag själv som fascineras av (eller ens bryr sig om) algoritmerna bakom Amazon rekommenderarsystem eller googles sätt att ranka sajter. Däremot är det "allas angelägenhet" att (dvs inte hur) de fungerar på ett bra sätt. Även om det finns böcker som förklarar data mining utifrån sälj/marknadsperspektiv (t.ex. de skrivna av Michael Berry och Gordon Linoff) uppfattar jag att det fortfarande är teknikdominerat säljprat som dominerar.

Som en lösning föreslås "invisible data mining", som innebär att användarna inte ens ska märka eller veta om att det finns en avancerad teknik (data mining) "under huven". Min tolkning av detta är att man helt enkelt försöker dölja begreppet "data mining", som numera samtidigt representerar en hype och har negativa konnotationer (samkörningar, intrång i den personliga integriteten). I stället för att sälja med hjälp av en teknik bör man alltså i stället presentera de resultat man kan få fram. Det låter som ett vettigt förslag.

(I boken The Tipping Point, av Malcolm Gladwell, beskrivs andra och generella sätt hur man ska komma förbi avgrunden. Se t.ex. Recension av Malcolm Gladwell "The Tipping Point".)

Varje kapitel avslutas med sammanfattning, övningar samt en genomgång av relevant litteratur; huvudtexten är nästan helt fri från referenser. (Det är när jag sitter och läser sådana referensidor som jag önskar att det fanns böcker som man kan surfa med för att läsa de många intressanta papers som diskuteras. Det räcker faktiskt inte med datorer som man kan använda för att läsa elektroniska dokument eller böcker.)

En liten stilistisk småsak som jag irriterade mig på i boken är att ett avsnitt börjar oftast med en fråga (i kursiv stil), varpå den genast besvaras kortfattat och svaret använder begrepp som först definieras i nästa stycke. Man kan se det som en form av introduktion av begreppet, men jag blev lite störd av det. Efter hand lärde jag mig dock att tycka om detta grepp eftersom det utgjorde ett litet avbräck (andningspaus) i de tekniska diskussionerna.

Slutomdöme
Jag tror inte jag skulle rekommendera "Data Mining - Concepts and Techniques" som första bok i data mining. Däremot som andra eller tredje bok och nog endast för de som vill antingen utveckla sådana system eller är välmotiverade att gå igenom ganska detaljerade algoritmer. Själv tyckte jag mycket om boken, om inte annat för att den gav en syn på data mining som är ganska ovanlig jämfört med övriga böcker jag läst. Boken är välskriven och trots tonvikten på tekniska förklaringar var den lättläst. Visserligen var det några småsaker (av ren stilitisk natur) som jag retade mig på/inte förstod poängen med, men de var snabbt förlåtna.


Vidare referenser
Bokens egen sajt innehåller errata, Powerpointfiler, bilder som finns i boken samt några referenser till kursupplägg.

Jiawei Hans publikationer.
Här finns en kurs där man använder boken. Det finns också föreläsningar i PDF-format, samt några av de introducerande papers som refereras i boken.

Mer generellt om data mining:
KDnuggets är en av de bästa sajterna för att hitta resurser inom data mining.


Min egen Data Mining, Machine Learning etc innehåller bland annat några andra av mina recensioner av böcker inom data mining-området. Se även Data Mining - En liten presentation med vidhäftande referenser om några av de system och böcker som jag själv har använt/läst.

Posted by hakank at 02:50 EM Posted to Machine learning/data mining

Mats Anderssons matematiska gåta

För några veckor sedan konstruerade Mats Andersson ett matematisk problem som han beskrev i Århundradets proffsproblem, med kompletterande information och ledtrådar i Århundradets proffsproblem, del 2.

Som Mats senare antydde var det ett problem som jag tyckte var roligt att "sätta tänderna i". Det var en utmaning där det blev lite av en vetenskaplig undersökning. Olika hypoteser ställdes upp: vad händer om man testar detta samband? och funderingar kring "fenomen" gjordes: men hallå, varför är det just på detta viset. Det där kan väl inte vara en slump? ... Det får mig att tänka på.... Eftersom jag är systemutvecklare och inte matematiker skrevs också en del småhack för att testa de olika idéerna. Skoj problem alltså och helt i min smak.

Nu hade jag turen (kombinerad med viss ihärdighet) att till slut komma på rätt lösning. Det blev ett antal rejäla feltänkt några gånger i steg 3, där ett av dessa felskär - en lösning som jag visste var fel, men som löste två av de tre saker jag ställde upp som "fenomen som måste förklaras" - till slut gav mig idén till den slutliga lösningen.

Svaret på gåtas ges i Mats anteckning Århundradets proffsproblem, sista delen!, men försök gärna lösa problemet innan du klickar vidare.



(Johan Asplund jämför i sin "Om undran inför samhället" vetenskaplig forskning med lösning av gåtor och detektivromaner. Det är en underbar liten bok full av intressanta tankar. En summering av boken finns på Johan Asplund - fortolkningens mester.)

Posted by hakank at 12:32 EM Posted to Matematik

Julklappsrim, korsord och årets julklapp

På den utomordentliga Nationalencyklopedin (NE,alltså) finns det, bland mycket annat, en rimtjänst (man måste vara registrerad användare för att använda tjänsten). Liksom deras Korsordshjälp tycker jag att det är lite knöligt att arbeta med, främst att man måste välja antal bokstäver som "målordet" ska ha ska matcha.

Om ni skulle behöva hjälp med enkla rim inför kommande julklappsrimsknepochknåpande kan jag kanske få fresta med Simple rhyme. Se t.ex. förslagen till rim på ordet blogg.

För julkorsordslösningsfunderare (och naturligtvis även åretruntkorsordsbenägna) kan jag även tipsa om programmet Cross words.

Årets julklapp
För övrigt kanske årets julklapp skulle vara en blogg istället för en mössa? När gav du din fru/man/sambo/särbo/barn/barnbarn/mor/far/morfar/mormor/farfar/farmor/syster/bror/kusin/nästkusin/nästkusins bästa grannes syster/syssling/trassling/chef/medarbetare/dig själv/eller någon annan en blogg sist?

Posted by hakank at 09:59 FM Posted to Program | Comments (5)

december 04, 2003

Jokes activates same brain region as cocaine

Jokes activates same brain region as cocaine.

Humour tickles drug centre that gives hedonistic high

There's truth in the maxim 'laughter is a drug'. A comic cartoon fired up the same brain centre as a shot of cocaine, researchers are reporting.

A team at Stanford University in California asked lab mates, spouses and friends to select the wittiest newspaper cartoons from a portfolio. They showed the winning array to 16 volunteers while peering inside their heads by functional magnetic resonance imaging (fMRI).

The cartoons activated the same reward circuits in the brain that are tickled by cocaine, money or a pretty face, the neuroscientists found.
...
[Allan] Reiss hopes that the finding could help to diagnose the early stages of depression - or show whether antidepressants are taking effect - during which people's appreciation of humour is altered. "That would be a terrific way to use this type of work," he says.

Se vidare:
Artikeln som refereras: Humor Modulates the Mesolimbic Reward Centers (tidskriften Neuron)

Allan L. Reiss
William H (Bill) Kelley

Posted by hakank at 08:59 FM Posted to Diverse

december 03, 2003

Mjukvara omskriver meningar

Software paraphrases sentences

We paraphrase all the time, often without thinking about it. Try to give a computer the means to reword a sentence, however, and it becomes apparent that figuring out how to say it differently is complicated.

Researchers at Cornell University have tapped a pair of unlike sources -- on-line journalism and computational biology -- to make it possible to automatically paraphrase whole sentences. The researchers used gene comparison techniques to identify word patterns from different news sources that described the same event.

The method could eventually allow computers to more easily process natural language, produce paraphrases that could be used in machine translation, and help people who have trouble reading certain types of sentences.

Se vidare:
Regina Barzilay
Lillian Lee.

Posted by hakank at 07:02 EM Posted to Diverse

december 01, 2003

Social software och patent

I New York Times-artikeln Idea for Online Networking Brings Two Entrepreneurs Together diskuteras patent kring social software.

The last few months have brought a flurry of new Web sites devoted to social networking - that is, helping people use friends of friends to do such things as find better dates or more lucrative jobs. Now, as some industry insiders rush to protect their intellectual property in this arena, others are murmuring about an impending patent war that they expect to bring an industry shakeout.

Friendster, one of the better-known social networking sites and, at nine months, one of the oldest, has been joined by sites like Tickle, Zero Degrees, Spoke and Ryze. Spoke, a networking site for salespeople, has boasted that it has 15 pending patent applications, although the applications have not yet been published, and the company has not disclosed details.

Now come Tribe and LinkedIn, sites started last summer, whose owners paid $700,000 in September to YouthStream Media Networks for United States patent No. 6,175,831, also known as the "six degrees patent," which they consider the seminal social networking patent. It covers an online software platform that allows users to build relationship networks.

Posted by hakank at 07:43 EM Posted to Social Network Analysis/Complex Networks

NPR program: "Science and Pseudoscience"

I NPR programmet Science and Pseudoscience (från 29 augusti 2003) deltar Michael Shermer (klicka på hans namn i vänsterspalten) och Stuart Vyse. De diskuterar varför och hur vi tror på pseudovetenskapliga teorier och vad den eventuella nyttan respektive faran med sådan tro kan vara.

Se även Recension: Stuart Vyse 'Believing in Magic - The Psychology of Superstition' samt kategorierna Sammanträffanden och Skepticism, parapsykologi etc.

Posted by hakank at 02:13 EM Posted to Sammanträffanden | Skepticism, parapsykologi etc