augusti 30, 2008

Ubiquity 0.1 - kommandoradsfunktionalitet i Firefox

Den senaste veckan har det pratats en del om version 0.1 av Firefox-tillägget Ubiquity från Mozilla Labs. Här är några kommentarer efter en första sittning.

Och det är helläckert!

Med en enkel tangentbordskombination (Alt-mellanslag i min Firefox 3.0 + Mandriva Linux) får man upp en "kommandorad" där man kan skriva in kommandon. Detta kallas för "Ubiq", vilket på svenska torde bli "att ubiqa" (eller möjligen "att ubika").

En mycket trevlig introduktion av funktionaliteten, inklusive en kort video, görs i Introducing Ubiquity.


Exempel


Här är några enkla exempel på hur man kan använda Ubiquity. Fler - och mer avancerade - exempel finns i User Tutorial.

google

google Ubiquity

gör en googlesökning på sökfrasen "Ubiquity".

this
Stöter man på en fras (t.ex. "constraint programming") kan man markera den och sedan ubiqa med


wiki this

varpå en Wiki-sökning görs. this avser det markerade området:. Man skriver alltså this.


translate
Markera en engelsk fras och ubiqa


translate this from english to swedish

Översättningen visas redan i previewfältet så man behöver inte ens exekvera kommandot. Riktigt trevligt.

Den finns stöd för en massa andra sökmotorer etc. såsom Yahoo, IMDB etc.

Andra kommandon som är bra att känna till:

* command-list: Visar vilka kommandon som finns tillgängliga för tillfället i browsern, inklusive egentillverkade (se nästa avsnitt).


Skriva egna Ubiquity-kommandon


Naturligtvis vill man utöka reportoaren med egna Ubiquity-kommandon som skrivs i Javascript. Här är två enkla exempel som jag personligen kommer att använda.

Instruktioner hur man skapar egna kommandon finns i Author Tutorial, där det finns mycket mer avancerade saker än nedanstående.

För att testa kommandona använder man en webbaserad kommandoeditor via kommandot command-editor, där man skriver in kommandona. Man behöver inte göra något speciellt mer än skriva (eller klistra in) koden, saker sker automatiskt i bakgrunden.

Det första exemplet är en sökning på Bokus och den andra en sökning på knuff.se. Det är inte rocket science, men funkar. (Jag har inte laborerat med mer de avancerade preview-funktionerna speciellt mycket.)


makeSearchCommand({
name: "bokus",
url: "http://www.bokus.com/cgi-bin/book_search.cgi?FAST={QUERY}",
icon: "http://www.bokus.com/favicon.ico",
description: "Searches Bokus for your books, movies, and games.",
preview: function(pBlock, directObj) {
if (directObj.text)
pBlock.innerHtml = "Searches Bokus for " + directObj.text;
else
pBlock.innerHTML = "Searches Bokus for the given words.";
}
});

makeSearchCommand({
name: "knuff",
url: "http://knuff.se/q/{QUERY}",
icon: "http://knuff.se/favicon.ico",
description: "Searches knuff.se for phrases from the swedish blogosphere.",
preview: function(pBlock, directObj) {
if (directObj.text)
pBlock.innerHtml = "Searches knuff.se for " + directObj.text;
else
pBlock.innerHTML = "Searches knuff.se for the given words.";
}

});

Det enda man egentligen behöver veta för att göra liknande kommandon är sökurlen och sedan byta ut sökfrasen med {QUERY}.

Man kan nu testa detta med


bokus constraint programming

eller för att söka på ett ISBN som man ser hos sin favoritblogg: 9780140286809 . Märk detta och skriv


bokus this

(Boken har inget med Ubiquity att göra - mer än möjligen indirekt genom associationer.)



knuff Ubiquity

som ger följande resultat.


För mer persistent användning av kommandona, för att ge sina medmänniskor tillgång till dem - och eventuellt "prenumerera" för att få automatiska uppdateringar - bör man publicera koden någonstans på webben. Läs i Author Tutorial hur man gör detta.

Jag har dock inte publicerat någon sådan sida. Eventuellt kommer det senare.


Säkerhet


Genom Ubiquity får användaren tillgång till mycket avancerade funktioner i webbläsaren. Tyvärr kan (och kommer att) elaka människor utnyttja detta för sina elakheter. Det finns för närvarande (i Ubiquity 0.1) ett visst skydd genom att man man får se en stor fet varningsskylt innan man börjar prenumerera, men det är naturligtvis inte tillräckligt. Det talar om en framtida "web of trust" där användare kan rekommendera/varna för en speciell prenumeration. Vi får väl helt enkelt se...

Detta sagt, testa gärna funktionaliteten, men prenumerera inte på något som du inte känner till/litar på.


Några andra kommentarer


* Jag har inte fått email eller add-to-calendar (stödjer endast Googles gmail/calendar) att fungera ordentligt.

* De speciella internationella tecknen (framförallt "å", "ä" och "ö") stökade i kommandot translate, möjligen är det något konstigt i min miljö...

* Vissa kommandon, t.ex. translate skriver in texten där (mus)markören befinner sig. Vad jag vet finns det inget sätt att ångra detta utan man måste ladda om sidan igen för att ta bort texten. Jag trodde att undo skulle göra det, men icke.

* Detta är version 0.1 och mycket kommer säkerligen att ändras...

* För övrigt påminner detta en del om programmeringsspråket/-miljön Rebol.


Länkar


Här är lite länkar om Ubiquity (varav några redan nämnts):

* Wiki: Ubiquity
Introducing Ubiquity
* Google-gruppen ubiquity-firefox
* User Tutorial
* Author Tutorial
* Forum

Posted by hakank at 10:18 EM Posted to Program | Sökmotorer | Comments (4)

augusti 25, 2005

Prenumeration på google-grupper och lite andra googlesaker

Något som (tydligen) inte så väldigt många känner till är att man numera har möjlighet att prenumerera (till ett mailkonto) på googlegrupper, t.ex. de kära usenetgrupperna, men även de nya specialvarianterna. Varje mail består av cirka 30 inlägg för en grupp, så för riktigt aktiva grupper kan det bli en himla massa mail.

Gå till groups.google.com och välj Nya användare: Delta (eng: New users: Join) och skapa ett konto. Via detta konto kan man sedan prenumerera. Nifty.


Mer saker från google: Google Alerts är en sökresultatbevakning där man förutom News och Web numera även kan sökordsbevaka grupper. (OBS. Denna tjänst ska inte förväxlas med en i för sig trevlig liknande tjänst Google Alert, men som i gratisversionen har en lite trist begränsning på max 150-sökträffar som man kan fördela lite hur man vill. Troligen har jag detta kvar endast av nostalgiskäl.)


F.ö. har jag under kvällningens gång pratat med två illustra svenska IT-personligheter via googles nya påhitt: Google Talk. Även det är riktigt trevligt. Roger på Prylfeber har skrivit om Google Talk lite mer.

Posted by hakank at 09:57 EM Posted to Sökmotorer

maj 15, 2005

Mats Anderssons veckodagsundersökning: Kommentar samt komplettering

I Vad har världen emot tisdagar? tar Mats Andersson åter upp sin fascinerande veckodagsnamnssökning.

Mitt rätt långa svar från i går på hans blogg följer nedan, justerat med länkar, pronomenjusteringar, punktomflyttning och aktuella sökresultat. Detta är dock inget försök att hijacka diskussionen från Mats, så gör eventuella kommentarer hos hos Mats.

Det har hänt saker i siffrorna sedan gårdagen, så de har lagts till (med "Idag:"). Om inte annat så lär detta oss att tillvaron fluktuerar ("man får inte samma sökresultat två dagar i rad"). Se även google som bevis.


3. Både [Mats] och jag har skrivit om detta tidigare. Här är min - vad jag tror då trodde - sista anteckning med länkar tillbaka till våra tidigare anteckningar: Veckodagsnamn på google - återkomsten


1. [Mats] har gjort en universell sökning (egentligen jordisk), men det - och det är här jag framhärdar - bör vara "sökningar på svenska" vid googlingen. Se t.ex. diskussionerna kring en av [hans] tidigare anteckningar (något senare än den [han] länkar till i den aktuella anteckningen).

T.ex. är "Måndag Oy" ett finskt namn. "å":et översätts också till "aa" där det blir en del utomsvenskliga träffar; Fredag är ett namn på en romanfigur etc.


2. Jag gjorde därför om sökningen på google med "sidor på svenska" och fick följande:

Måndag 758000 (3) Idag: 750000 (7)
Tisdag 687000 (4) Idag: 779000 (6)
Onsdag 626000 (7) Idag: 785000 (5)
Torsdag 680000 (5) Idag: 790000 (4)
Fredag 1060000 (1) Idag: 1190000 (1)
Lördag 928000 (2) Idag: 1120000 (2)
Söndag 673000 (6) Idag: 798000 (3)

Siffrorna inom parentes anger rankningen, fredag och lördag ligger alltså bäst till. (Idag: rankningen har förändrats kraftigt förutom för fredag och lördag)

Här ligger tisdag inte så pjåkigt till (Idag: jo, det gör den), vilket däremot onsdag gör. Det går tyvärr inte att jämföra mina äpplen (sökningar på svenska) med [Mats] päron (på alla språk), så vi kan inte direkt siffersätta förändringen...


3. [Flyttades upp.]

4. Diskuterade vi inte tidigare att det kanske finns mer "lördag" och "söndag" eftersom det är helg och bl.a. bloggare skriver fler anteckningar då? Detta är testbar hypotes. Här genom att söka på "blogg" samt veckodagsnamnet (vilket iofs kan kritiseras om det är en bra indikation):

blogg måndag 10100 (3) Idag: 31700! (1)
blogg tisdag 7980 (6) Idag: 7870 (7)
blogg onsdag 8930 (4) Idag: 29000! (2)
blogg torsdag 7550 (7) Idag: 22900! (3)
blogg fredag 13400 (1) Idag: 11900 (4)
blogg lördag 11800 (2) Idag: 11900 (4)
blogg söndag 8370 (5) Idag: 8350 (6)

Här [var det igår] i stort sett samma rankning som ovan, men idag (söndag) ligger tisdag mest pyrt till. Märkligt nog ligger söndag rätt dåligt till, och det stödjer inte helghypotesen.

Man kan f.ö. notera att bloggare står för drygt en procent av dagsnamnen och det skiljer sig inte märkbart över veckodagarna: alla ligger kring 1.3 procent. Här är mer exakta värdena (sökresultatet för "blogg veckodag" delat med antalet sökresultat för "veckodag", där "veckodag" är veckodagesnamnet).

Måndag: 0.013 (Idag: 0.042 !)
Tisdag: 0.012 (Idag: 0.010)
Onsdag: 0.014 (Idag: 0.037 !)
Torsdag: 0.011 (Idag: 0.029 !)
Fredag: 0.013 (Idag: 0.010)
Lördag: 0.013 (Idag: 0.011)
Söndag: 0.012 (Idag: 0.010)

Idag: Här står måndag, onsdag och torsdag ut ordentligt, vilket ännu mindre stöder "helghypotesen".


5. Jag tror att det finns en hel del slump och annan google-galenskap med i spelet.

Posted by hakank at 07:38 EM Posted to Språk | Statistik/data-analys | Sökmotorer | Comments (1)

januari 05, 2005

Google på 60 Minutes

Bloggen A Whole Lotta Nothing länkar till 60 Minutes-inslaget om Google. Se vidare Google on 60 Minutes för länk till AVI-filen.

Via Kottkes 60 Minutes wrong again! inklusive uppdateringar. Notera dock den tredje kategoritillhörigheten av inlägget, dvs den förutom google och weblogs.

Posted by hakank at 07:22 EM Posted to Sökmotorer

december 11, 2004

google suggest: Några etyder

Häromdagen kom Google Suggest som ger kompletteringar av sökorden efterhand man skriver. Se t.ex. Google blog I've got a suggestion.

Här är några exempel kopplat till personliga eller andra svenska förhållanden samt det svenska språket. Vilket troligen inte är särskillt rättvisande. Men testa själv, vetja!

"kjeller" (dvs början av "kjellerstrand") ger
"kjellerup"
"kjeller norway"
"kjellerup kommune"
"kjellerups"
"kjellerup sygehus"

Hmm, är det norska förslag?

"håkan " (med mellanslag) ger
"håkan ludwigson"
"håkan ludwigson bridge"
"håkan hellsröm"
"håkan nesser"
"håkan lans"
"håkan"
"håkan ludwigson bridge photo"
"håkan hardenberger"
"håkan hellstrøm" (danskt/norskt ö, alltså)
"håkan ludwigson photos"
"håkan ahlström"

Ja, det är ju inget att säga något om. Förutom det där ø då.
Håkan Ludwigson är tydligen någon fotograf eller kopplad till reklamsammanhang. Känner inte till honom tidigare (borde jag det?).


Sökning på "malmö " (med mellanslag)
"malmö aviation"
"malmö"
"malmö stadsbibliotek"
"malmö högskola"
"malmö stad"
"malmö airport"
"malmö konsthall"
"malmö redhawks"
"malmö copenhagen"
"malmö university"
"malmö karta"

Inga egentliga märkligheter här.

Ett mer specifikt svenskt ord: "andtruten"
Efter "andtr" slutade det att komma något förslag.

Och slutligen, en sökning på "grönk" gav följande:
"grönklitt"
"grönköping"
"grönköpings veckoblad"
"grönkål"


Några synpunkter:
* det är intressant att antalet träffar (för en del av orden) visas
* första testerna visade lite dominerande av norska sökningar, men det tror jag var en slump
* Det är lite irriterande att om man skriver in blogg och trycker Enter så kompletterar sökningen till "blogger"


Se även
Suggested Google Alphabet som visar de första föreslagna fraserna som kommer upp för respektive bokstäver.

Tilläggas kan förslagen för följande bokstäver som ingår i det svenska språket:
å: "å" (som i det vattenfyllda naturfenomenet som håller på att bli mer och mer fyllda av toalettpapper och mindre av fisk.). Första sökresultat är www.aa.com .
ä: "ä" Den första sajten som dyker upp är shop.ae.com.
ö: "ö" (som i det vattenomslutna naturfenomenet som håller på att bli antingen större eller mindre, beroende på vad man anser om växthuseffekten) Första sökresultatet är home.in.tum.de/~jain/software/oe-quotefix.

Posted by hakank at 07:16 EM Posted to Sökmotorer | Comments (6)

december 05, 2004

Google och Wayback machine

Noterade precis att google länkar till Wayback machine (precis till höger om sajtlänken, tillsammans med "Open this result in new window" och "Site info" (dvs Alexas sida för sajten).

Hur länge har detta pågått? I morse eller igår (eller så) noterade jag att det var fler tomma rader i sökresultatet, men såg inte att det var nya länkar där.

Aha, det är inte på alla sökningar som ger detta, utan bara vissa, t.ex. "wayback machine", tydligen endast för toppdomäner. OK, det kanske har funnits där länge...

Posted by hakank at 09:24 EM Posted to Sökmotorer | Comments (5)

november 23, 2004

Google Scholar blogg

En blogg om Google Scholar: On Google Scholar .

Posted by hakank at 08:27 EM Posted to Sökmotorer

oktober 24, 2004

Föredrag: Google under huven

Googles Jeff Dean har ett intressant föredrag om tekniken bakom Google: Google: A Behind-the-scenes Look (WMV, cirka 1 timme). Läs en blänkare om föredraget här. Det är alltså mest teknik, både hård- och mjukvara.

Efter cirka 30 minuter börjar det avsnitt som jag tyckte var mest intressant: "Fun with Data" där det bl.a. visas en demo av ett system för automatisk ordklustring och som förhoppningsvis kommer att föras in i systemet för att få ännu bättre sökresultat.


Cirka 25 minuter in i föredraget, beskrivs MapReduce-modellen, som beskrivits mer detaljerat i papret Jeffrey Dean and Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.
Programs written in this functional style are automatically parallelized and executed on a large cluster of commodity machines. The run-time system takes care of the details of partitioning the input data, scheduling the program's execution across a set of machines, handling machine failures, and managing the required inter-machine communication. This allows programmers without any experience with parallel and distributed systems to easily utilize the resources of a large distributed system.
Our implementation of MapReduce runs on a large cluster of commodity machines and is highly scalable: a typical MapReduce computation processes many terabytes of data on thousands of machines. Programmers and the system easy to use: hundreds of MapReduce programs have been implemented and upwards of one thousand MapReduce jobs are executed on Google's clusters every day.


Via Google Blogoscoped.

Posted by hakank at 07:42 EM Posted to Sökmotorer

oktober 17, 2004

Addicted to Google

Addicted to Google (Quicktime, 42.9 Mb).

Se även College is Easy och Top Ten Signs You Are Addicted to Google samt möjligen The Google Bible.

Via Google Blogoscoped.

Posted by hakank at 06:43 EM Posted to Sökmotorer

oktober 11, 2004

Papers written by googlers

Papers written by Googlers finns referenser till papers som skrivits av de som jobbar på google.

Se även Why You Should Work at Google som listar några av de projekt som googlers arbetat med.

(Förslag till en tjänst: "De som arbetat med detta projekt har också arbetat med dessa projekt.)

Posted by hakank at 06:31 FM Posted to Sökmotorer | Comments (2)

augusti 22, 2004

'intressant blogg' - Resultat av sökstabilisering Typ B

Här är första resultatet av det experiment som gjordes i 'intressant blogg' - En liten studie i sökstabilisering Typ B.

Google har nu hittat och indexerat in denna anteckning i sin databas (*). Det visar sig att "intressant blogg"-sökningen nu är stabil, till och med 4-stabil, enligt definitionen i förra anteckningen.

Som grädde på moset kom pingningen av anteckningen till intressant.se in på andra plats och TrackBacken som gjordes till Captology Notebook-anteckningen ligger sjua (stabilt).

Så, experimentet med sökstabilisering Typ B av intressant blogg anses härmed ha lyckats. Det är sedan en helt annan sak hur länge detta resultat kommer att hålla; möjligen blir någon inspirerad att "googlenappa" sökfrasen...


(*) För att vara korrekt är det bloggens ingångssida som nu ligger först i sökresultatet, och inte själva anteckningen. Om någon dag torde även anteckningen indexerats in, vilket kommer att boosta placeringen ytterligare, eftersom sökordet finns i titeln på HTML-sidan.

Posted by hakank at 06:47 FM Posted to Sökmotorer | Comments (2)

augusti 20, 2004

'intressant blogg' - En liten studie i sökstabilisering Typ B

Inspirerad av 'Interesting blog' - we're number one? (Captology Notebook) gjordes motsvarande svenska sökning:

intressant blogg


I skrivande stund kommer innevarande blogg först, följd av Nätkreatur och Klocklös i tiden. Om man däremot citerar sökningen, dvs

"intressant blogg"

kommer Nätkreatur först, tätt följd av Klocklös i tiden och sedan hakank.blogg.

Några begreppsligheter
Den engelskspråkiga sökningen (interesting blog) är stabil i betydelsen att samma sajt kommer först oavsett om man citerar sökningen eller inte. Den svenska sökvarianten är däremot instabil.

Undertiteln på denna blogganteckning - en liten studie i sökstabilisering typ B - kommer sig av det experiment som ni just nu bevittnar, nämligen att försöka få hakank.blogg som första resultat på de båda typerna av sökningarna, både med och utan citattecken. Ett lyckat sådant försök kallas härmed för sökstabilisering. Eftersom det finns två varianter av sökstabilisering blir det typ A och typ B:
* Typ A: då den sajt som var på första platsen för citatsökningsversionen även blir först på sökning utan citattecken
* Typ B: då den sajt som var på första platsen för sökningar utan citattecken även kommer först på en sökning med citattecken.

Resultat
Jaha, nu är det bara att vänta några dagar tills google spindlar denna anteckning - vilket torde ske på söndag eller måndag (dvs 22 eller 23 augisti) - så kan vi se om det blivit något skillnad, dvs om det blivit någon sökstabiliseringen typ B.

Kommentarer
Egentligen borde man kalla det engelska sökresultatet för 1-stabilt eftersom det endast är förstaplatsen som är samma. Skulle de fyra första sökresultaten vara i exakt samma ordning är det 4-stabilt etc.

Däremot ger båda de engelska sökningarna samma första fyra sajter fast i olika ordningar, precis som för den svenska varianten (som har samma tre i topp-klustret). Att det är samma N bloggar som ligger först ger någon indikation på sökstabiliteten, men den exakta formeln för detta lämnas antingen som en övning åt läsaren eller till en regnig söndag.

Endast sökning på intressant ger naturligtvis intressant.se i topp. Sökresultatet är naturligtvis samma oavsett om man citerar sökningen eller inte.


Här är för övrigt ett citat från den ovan refererade blogganteckningen:
Since Google is so incredibility popular [...] [Google] has influenced many decisions about how to use language on the web.

Posted by hakank at 10:44 EM Posted to Blogging | Sökmotorer | Comments (4)

juli 22, 2004

g-metrics google sökordsbevakning

g-metrics (förutvarande Google Metrics Watch) är en skoj sak för att mäta vad det nu egentligen är man mäter med googlecounts. Man har även en blogg: g-metrics blog.

Förutom lite ego-bevakningar (såsom hakank), bevakas nu t.ex. blogg, och lade nyss till veckodagarna, något som tidigare har funderats kring.

Posted by hakank at 09:41 EM Posted to Sökmotorer | Comments (4)

juli 08, 2004

Visa din Google Page Rank

Från Google Blogoscoped Show Off Your PageRank.

Så här kan det se ut (och ser faktiskt ut): [PageRank].

Uppdatering
Det verkar lite instabilt. Ibland behöver man göra en reload av sidan, men just nu hjälper inte ens det.

Jaha, det var roligt så länge det varade.

Uppdatering - En timme senare
Och värdet som visas om det visas är inte korrekt. Nu står det 8 istället för 5.

Posted by hakank at 10:21 EM Posted to Sökmotorer | Comments (4)

juni 25, 2004

Google AdSense på svenska

Google har tydligen börjat med AdSense för svenska sajter. Se här och där (för svensk text krävs nog att man kör den svenska språkinställningen på google).

Innevarande blogg(ar) kommer dock inte, inom den överskådlga framtiden, vara behäftade med slik reklam. Däremot skulle det redan nu inte tackas nej till en vänligt inställd mecenat. (NE förklarar mecenat på följande sätt: person som understöder konst eller vetenskap särsk. genom generösa gåvor. HIST.: sedan 1682; till namnet på den romerske statsmannen Gajus Mæcenas (död år 8 f.Kr.))

[Justering här är endast en test.]

Posted by hakank at 09:03 FM Posted to Sökmotorer | Comments (6)

juni 20, 2004

Wildcards i google - ett litet praktikfall

Av någon anledning (se Nedan) ville jag ha reda på ungefär följande: Vilka varianter finns av frasen hoppas att allting är bra med dig, där bra var det ord som hoppades att få synonymer till.

Efter lite testande blev det med följande sökfråga i google:
"hoppas att (allt OR allting) är * med *"

Både bra och dig i originalfrasen ovan ersattes med wildcards ("*"), och kan alltså stå för vilket ord som helst i fraskonstruktionen.

Några exempel på fraser som hittades:

Hoppas att allt är bra med dig
hoppas att allt är bra med er
hoppas att allt är okey med dig
Hoppas att allt är väl med dig
hoppas att allt är väl med han (sic!)
Hoppas att allt är ok med dig
hoppas att allt är väl med er
Hoppas att allt är bra med magen
Hoppas att allt är bra med valparna
...

Man kan också notera att eller-sökkonstruktionen (ord1 OR ord2) även fungerar i en frassökning, dvs inom citationstecken.

Det står inte så mycket om denna helords-wildcard på googles hjälpsidor, t.ex. här och det är därför denna blogganteckning skrevs.

I boken Google Hacks står det däremot mera. Dock endast i de första kapiteln, sedan är det mest beskrivningar av applikationer som utnyttjar Googles API.



(Nedan) bakgrunden till detta är - som det heter - en helt annan historia.

Posted by hakank at 08:52 EM Posted to Sökmotorer | Comments (4)

juni 01, 2004

google som bevis

Apropå Erik Stattins serie av "google-journalistik"-anteckningar. Se t.ex. Google-journalistik 4, och dess ingående länkar till tidigare anteckningar; läs gärna även kommentarerna.

[Det följande har utgått från en anteckning skriven kring den 6:e februari som av någon anledning inte publicerades då. Början är sålunda inte riktigt kopplad till Eriks anteckning och antalet sökrträffar stämmer möjligen inte riktigt med dagsvärdet.]

Vid läsning av följande avsnitt i Clay Shirkys mycket intressanta "post mortem"-analys av Deankampanjen Exiting Deanspace påbörjades en fundering kring bevisvärdet av sökmotorsökningar. Så här står det (min emfas):

"""Howard Dean had the best-funded, best-publicized bid to be the Democratic nominee; he was so widely understood to be in the lead that the inevitability of his victory was a broad topic of discussion. (Google "Howard Dean"+inevitable if you need independent confirmation.) Even the people disputing the posited inevitability burnished the idea; no one bother debunking the idea of, say, Kucinich's inevitability."""

Det är kanske petimäteraktigt (7 förekomster på google) att göra en anmärkning på en kommentar i en inskjuten parentes, men detta sätt att påvisa samband mellan två begrepp har dykt upp flera gånger och verkar vara en trend (se nedan för en kommentar om detta). Tyvärr får Clay Shirky orättvist klä skott för detta missbruk; det är absolut inget personligt mot denne utmärkta krönikör.

Några frågor som väcktes: Vad innebär denna typ av förekomstreferens? På vilket sätt stödjer egentligen google-sökningar en viss tes?

En google-sökning på "Howard Dean" inevitable ger i skrivande stund [dvs i februari] cirka 27 700 träffar. Men vad visar detta egentligen? Det enda som visas är hur många dokument som samtidigt innehåller de två termerna "Howard Dean" och "inevitable", men det säger ingenting om relationen mellan termer. De kan stå var som helst i texten, t.ex. det ena först och det andra sist. Det finns cirka 2 040 000 sidor där "Howard Dean" nämns, och cirka 1 780 000 sidor med ordet "inevitable". Det finns sålunda en rätt stor chans att båda orden slumpmässigt skulle finns med i en och samma text utan att man ska sluta sig till ett speciellt samband.

Nu ska man nog se Shirkys hänvisning så att läsaren själv ska leta efter sambanden i dessa dokument och inte se den höga siffran 27 600 som ett bevis i sig. Troligen har Shirky rätt i att många personer har sett Dean som en "inevitable winner". Det är dock inte detta faktum som kritiseras här, utan vilken typ av stöd en googlesökning ger.

Här är några googleextrakt från de högst rankade sidorna för den nämnda sökningen [återigen från februari]. Inom parentes visas om det är en relevant referens (+) eller inte (-):

* "Dean becoming inevitable winner of NH Primary." (+)
* "Howard Dean is a dove on war issues, but realizes that sometimes war is inevitable. " (-)
* "Is a Dean Nomination Inevitable?" (+)
* "Howard Dean is right to insist that southwestern Vermont must be willing to ... That process of evaluation produces the inevitable debates that accompany most ... " (-)
* "Suddenly the inevitable doesn't look so inevitable. Howard Dean is still the front-runner this morning, but Iowa Democrats may be about to prove once more that ..." (+)
* "heralded his arrival pronounced him dead, made frequent and inevitable comparisons to ... itself -- all of these shiny new things had failed Howard Dean and failed ... " (-)
*"Inevitable Winner(s). In one of those wonderful blog-induced feedback nets, my buddy Natalie read my recent post about Molly Ivins' endorsement of Howard Dean, ... " (+)
...

En del av dessa sökträffar handlar mycket riktigt om Deans "ofrånkomliga seger", medan andra gör det inte. (Det skulle naturligtvis vara mer vetenskapligt att gå igenom en stor mängd sidor och redovisa exakt hur många som är si respektive hur många som är så.)

Om man söker på "Howard Dean" -inevitable, dvs sidor där termen "Howard Dean" förekommer men inte termen "inevitability", får man cirka 2.040.000 träffar vilket inte heller visar någonting. Att detta antal råkar sammanfalla med antalet sidor där "Howard Dean" nämns ska ses som att precisionen i det presenterade antalet är får låg.

Försöker man göra sökningen något mer stringent, t.ex. Howard Dean"+"inevitable winner" kommer 54 träffar upp, och dess "motsats" "Howard Dean"+"inevitable loser" får 1 träff. Detta verkar mer lovande men 54 träffar är inte speciellt mycket med tanke på så mycket som skrivit om Howard Dean och kampanjen. (Det kan dock finnas mer relevanta sökord som ger högre antal träffar.)

Några kommentarer: Även om man inte tror att Dean var en "inevitable winner" så betyder det inte att man måste skriva att han var en "inevitable loser", så en naiv google-sökningar verkar inte speciellt bra för att söka efter motsatser. Man kan också misstänka att antalet träffar på termen "inevitable winner" eller motsvarande ord kommer att öka eftersom kommentarerna hos bland annat de ordrika bloggarna kommer att använda termen, speciellt eftersom Clay Shirky är en betydelsefull bloggare.


Ett annat google-bevis påträffades en stund senare [återigen i februari] på codemode.org:

Google-sökning: "rasar mot" "Resultat 1 - 10 av ungefär 12,300". Det rasas mot mycket på internet..

Om man för jämförelsens skull gör sökningen på googles "sidor på svenska" i stället, vilket ger cirka 11 500 träffar. En sökning på ordet rasar ger 38 900 träffar. Dvs cirka 30% av sidorna som innehåller "rasar" innehåller uttrycket "rasar mot". Hur mycket är egentligen "mycket"?

Alla sökmotorförekomstreferenser är naturligtvis inte av ondo. I P1:s program Folkminnen och Vetenskapsradion - Språket används ibland resultat från sökmotorerna för att belägga förekomsten hos ett ord eller hur ett uttryck används, men det är då frågan om ett enda ord eller ett sammansatt uttryck (sökning inom citationstecken, t.ex. "Howard Dean"). Ofta är det för att undersöka om det överhuvudtaget finns någon förekomst i modern svenska. Jämför även med Jonas Söderströms intressanta Skickliggöra där han och andra spårar ett ord och dess användande.

Men även om det är frågan om ett enda ord, är det svårt att veta hur många förekomster som är många eller få och som faktiskt stödjer en eller annan tes om något mer än att ordet faktiskt finns på google.

Det kan vara intressant och relevant att göra jämförande analyser, antingen mellan olika ord vid en viss tidpunkt, ett och samma ords utvecklings över tiden eller en kombination av dessa. För några exempel se Veckodagsnamn på google, Veckodagsnamn på google - återkomsten, Talfördelning på google - varför är det så ont om 52?, What's Your Google Number. Den exakta vetenskapliga nyttan med dessa undersökningar är för övrigt inte heller klar.

Man kan kanske jämföra med Diaconis teori om coincidences, se t.ex. Sammanträffanden - anteckningar vid läsning av Diaconis och Mosteller 'Methods for Studying Coincidences'. Teorin förklarar bland annat varför vi tycker oss se samband där det egentligen endast är en fråga om en naturlig och slumpmässig företeelse. Detta har två relevanser för den aktuella diskussionen: För det första att någon tycker sig se samband på formen "begreppet X används mycket nu, se bara hur många träffar som finns på google". För det andra kan och bör man ifrågasätta påståendet i den här anteckningen att sådana påståenden om samband förekommer ofta eller är många.

Det borde finnas - eller annars skapas - en mer formell statistisk modell kring bevisvärdet av sökmotorsökningar.


Language Log finns kommentarer kring google som språkkorpus. Se t.ex. Google-sampling: avoiding pseudo-text in cyberspace.Jag har även sett ganska avancerade google-jämförelser, men hittar inte dessa just nu.

Se även Lies, Damned Lies, and Google (funnen via kommentarerna till Eriks ovan nämnda blogganteckning).

Posted by hakank at 08:00 EM Posted to Sökmotorer

maj 15, 2004

ACM Queue: Temanummer om Interprise Search

ACM Queue, temanummer om Enterprise Search.

Via unstruct.org.

Posted by hakank at 07:24 FM Posted to Sökmotorer

april 11, 2004

Google PageRank Prediction - liten uppföljning

Häromdagen (28 mars) beskrevs Google PageRank Prediction och dess förutsägelse med en viss nedgång av PageRank för denna blogg:

Your current Google PageRank is 5. Based on our calculations, we predict your future PageRank after the next Google update will be 5, a decrease of 3.74%.

Hur blev det då? Dagens PageRank-värde och den nya förutsägelsen går stick i stäv mot detta:
Your current Google PageRank is 6. Based on our calculations, we predict your future PageRank after the next Google update will be 7, an increase of 10.17%.

Att jag - och många andra svenska bloggare, se nedan - nu har PageRank 6 stämmer med annan källa (Google PageRank Report), men att det kommer att bli 7? Kan det vara virtuella teblad spetsade med centralstimulantia som prediktion använder?


Här är ett urval av PageRank (utan prediktion) för ett urval svenska bloggare. För många är det en ökning med ett helt (heltals-)snäpp.

www.hakank.org/: 5/10
www.hakank.org/webblogg/: 6/10
www.hakank.org/linkblog/: 4/10
www.tesugen.com/: 5/10
mymarkup.net/blog/: 6/10
enkelriktat.monkeytoys.com/: 6/10
www.gustavholmberg.com/tomrum/: 6/10
www.mats-andersson.se/blogg/: 6/10
www.natkreatur.com/: 6/10
kornet.nu/blindhona/: 6/10
www.karlsson.at/ordet.htm: 5/10
skeptikern.com/: 5/10
www.hultberg.org/mt/: 5/10
blog.raven.nu/raven/: 4/10
www.torstensson.com/weblog/: 6/10
www.sodergren.com/chadie/: 6/10
infontology.typepad.com/infontology/: 4/10
www.bergenudd.net/webblogg/: 5/10


Ni som självgooglar råds kontrollera om det är någon synbar förbättring.
Själv har jag märkt av ett antal framflyttade positioner för flera av bevakningsorden.

Posted by hakank at 11:30 EM Posted to Sökmotorer | Comments (3)

mars 28, 2004

Google PageRank Prediction

Google PageRank Prediction är ett webbaserat program för att estimera vilken PageRank en sida kommer att få vid nästa gång värdet uppdateras.

För hakank.blogg blir resultatet en liten nedgång:
Results: Your current Google PageRank is 5. Based on our calculations, we predict your future PageRank after the next Google update will be 5, a decrease of 3.74%.

Via Google Blogoscoped.

Posted by hakank at 04:06 EM Posted to Sökmotorer | Comments (4)

mars 23, 2004

Bengt O. Karlssons google-utmaning

Bengt O. Karlsson - När jag ändå har ordet ... (en av mina favoritbloggar/-e) - skrev i går Blogjam i vårtid bland annat följande (länkar som i originalet):


Till er som förgooglade er och hamnade på När jag ändå har ordet...när ni sökte efter:
...
Politikers brutna löften - Vi lade märkte till att Du bara fick 14 träffar (!) hos Google vilket tydligt visar att G. inte är det allvetande orakel som ett par av våra favorit- bloggare vill göra gällande.
...


En sådan utmaning var svår att motstå.

Låt oss nu följa den debatt som därefter fördes i kommentan till anteckningen. Det stod alltså mellan å ena sidan google-skeptikerna/-kritikerna (representerad av Bengt O. Karlsson, kallad Bengt nedan) och å andra sidan den mer sökmotoroptimistiska falangen (här representerad av undertecknad, nedan kallad hakank alt. Håkan). Man skulle kunna notera att funna stavfel ändrats, smärre stilistika effekter lagts till samt en och annan ytterligare redigering gjorts.


hakank:
OK, jag tar härmed upp googlehandsken som så drastiskt slängdes i ansiktet.

En något mer avancerad sökning ger fler resultat: 2840.

(politiker OR politikers) (löften OR lovar OR lovat) (bryter OR brutna OR "håller inte") -Robinson

[Not: i originalkommentarer fanns här en "väldans lång URL", nämligen denna]

Ingen har väl sagt att det är enkelt att söka i google? :-)
...


Bengt:
Håkan: (OBS ej ironi OBS) Det var verkligen imponerande. Jag testade faktiskt Din ekvation och den fungerade precis som Du sa. Var lär man sig sådant? Mest bry i huvudet fick jag dock av termen "-Robinson". Längre ner står det sedan "+ - Robinson". Så långt min enkla matematik räcker till blir slutresultatet "-Robinson". Hur påverkar h/h politikernas brutna löften?


hakank
Bengt: Ehuru din matematik är oantastlig i princip, bygger den på en förblandning som jag tyvärr ensam är orsak till. Mottag en djup ursäkt.

Den första raden är själva sökfrasen.

Termen - Robinson betyder att man inte vill att strängen "Robinson" ska vara med i sökresultatet. Om man inte har med denna term kommer som första resultat en Aftonbladets-artikel om TV-programmet Robinson, vilket ansågs vara olämpligt i sammanhanget.

Den andra - rackarns långa - raden är URL-en till sökningen, där man av tekniska skäl ha i sökfrasen ersatt tecknet " " (mellanslag) med ett "+" (plus)-tecken.

Så: ersätt varje "+" på den andra raden med ett mellanslag och man finner att matematiken på de bägge raderna, tagna var för sig, är inte bara korrekt, inte bara sann, utan även intuitiv.

Likt en flitig skolelev klarar google för övrigt av enklare matematik. Sök t.ex. på "2+2" (utan citattecken).

En summering av de olika operatorerna som kan användas finns på
http://www.geocities.com/googlepubsupgenfaq/#searchoperators

För kalkylatorn se vidare:
http://www.google.com/help/calculator.html


Eventuella efterspel i denna gästkramande historia kommer möjligen att kommenteras vidare i denna anteckning.

Posted by hakank at 12:05 EM Posted to Sökmotorer

mars 17, 2004

Google PageRank Report

Google PageRank Report är en service jag letat efter länge. Här kan man se vilken PageRank en sida har, utan att behöva köra speciella webbläsare med speciella toolbars.

Än så länge har jag inte hittat några konstigheter.

Via Google Blogoscoped.

Uppdatering
Via samma källa hittades en Usenettråd som besvarar en del av tekniken bakom programmet.

Det har gjorts en del efterforskningar hur man räknar ut den checksumma (parametern ch) som krävs, men ingen algoritm har publicerats vad jag kan se.

Posted by hakank at 05:27 EM Posted to Sökmotorer | Comments (4)

mars 15, 2004

Deep Web

Salon-artikeln In search of the deep Web handlar om Deep Web, dvs den del av webben som sökmotorerna av olika skäl inte kommer åt.

The next generation of Web search engines will do more than give you a longer list of search results. They will disrupt the information economy.
...
Those of us who place our faith in the Googlebot may be surprised to learn that the big search engines crawl less than 1 percent of the known Web. Beneath the surface layer of company sites, blogs and porn lies another, hidden Web. The "deep Web" is the great lode of databases, flight schedules, library catalogs, classified ads, patent filings, genetic research data and another 90-odd terabytes of data that never find their way onto a typical search results page.
...
As new search spiders penetrate the thickets of corporate databases, government documents and scholarly research databanks, they will not only help users retrieve better search results but also siphon transactions away from the organizations that traditionally mediate access to that data. As organizations commingle more of their data with the deep Web search engines, they are entering into a complex bargain, one they may not fully understand.

I artikeln står inte så mycket om begreppet Deep Web, så här är några länkar för vidare läsning.

Undersökningen som refereras till gjordes 2001. Det vit-papper som då skrevs
är Deep Web White Paper (PDF).

InternetBrus.com skrev tidigt (15 apr 2001) en svensk summering om "den osynliga webben" i Chris Sherman, Gary Price: The Invisible Web.

En senare sammanfattning finns i The Deep Web".

För den som gillar sådant, finns det även en typisk slashdot-diskussion med anledning av Salonartikeln.


(Inspiration från Simon Winter på Infontology.)

Posted by hakank at 09:57 FM Posted to Sökmotorer

mars 04, 2004

Do you "google"?

I First Monday-artikeln Do you "google"? Understanding search engine use beyond the hype diskuterar Eszter Hargittai sökmotorer och några förvirringar kring dessa.

Abstract
Much anecdotal evidence suggests that Google is the most popular search engine. However, such claims are rarely backed up by data. The reasons for this are manifold, including the difficulty in measuring search engine popularity and the multiple ways in which the concept can be understood. Here, I discuss the sources of confusion related to search engine popularity. It is problematic to make unfounded assumptions about general users’ search engine choices because by doing so we exclude a large number of people from our discussions about systems development and our understanding of how the average user finds information online.


Se även
Författarens blogg: Eszter's Blog.

Brian Livingston Google Grumbles som kritiserar google för att ha förlorat relevans jämfört med andra sökmotorer.


Andra FirstMonday-artiklar denna månad. T.ex.
William Jones Finders, keepers? The present and future perfect in support of personal information management

Posted by hakank at 08:30 EM Posted to Sökmotorer

december 30, 2003

Mooter sökmotor

Mooter är en sökmotor som klustrar sökresultatet, liksom t.ex. Kartoo.

Jag är dock inte så säker på att det är så smart att endast visa klustren som första sökresultat. En kombination såsom hos iBoogie är nog bättre (och Kartoo har en intressant variant). Bästa presentationssättet beror naturligtvis på vad man är ute efter i sin sökning och hur lätt man har för att göra egna "raffineringar" (refinements), vilket beror på sådant som hur väl man känner till ämnet etc.

Via ResearchBuzz som igår skrev om sökmotorn Ay-Up.

Posted by hakank at 06:21 EM Posted to Sökmotorer | Comments (4)

november 26, 2003

What's Your Google Number

Valdis Krebs skriver om google: What's Your Google Number.

The Google Search engine has become the Swiss Army Knife of the Internet – it has more uses than finding relevant web pages.

Some of the uses are infringing on the domain of Human Resources. It is easy for a boss to do a background check on a potential new employee. With Google, the potential new hire can turn the tables, and do a pretty decent background check on the new boss!

Google’s greatest application as an ‘HR tool’ is not in the corporation – it is out among the free agents, consultants and entrepreneurs who live and work by reputation and experience. It is here where ‘Google numbers’ become very important.

Hur får man fram sitt google-tal? Sök bara på ditt namn (inom citationstecken) och kolla hur många sökträffar det blir. En tolkning av resultatet:

If your Google Number is around…
* 100 or less – keep your day job and start publishing
- HR.com may be a good place to start!
* 400 – do a nice web site and publish more
* 800 – it is probably safe to hang out your shingle
* 1,000 – you are getting some real attention
* 2,000 – you are well known in your field
* 5,000 – you are an often quoted expert in your field – a thought-leader
* 10,000 – Dave Ulrich
* 50,000 – Tom Peters
* 100,000 – Peter Drucker

Hmm, en sökning på ("håkan kjellerstrand" OR "hakan kjellerstrand") ger 651 träffar. Å andra sidan är jag nog mer känd som "hakank" (eller numera "hakank.blogg"), vilket är lite mer: 1570. Om man slår i hop dessa resultat blir det 1770.

En jämförelse (utan jämförelse i övrigt :-) kan göras t.ex. med "erik stattin" som får 2550 träffar.

Artikeln innehåller andra kommentarer om hur arbetsgivare kan använda google för att få reda på en massa om en anställd (eller anställd in spe). Jämför med den diskussion som var härom veckan hos Steffanie Müller.


Via Seb's Open Research.

Posted by hakank at 11:36 EM Posted to Sökmotorer | Comments (8)

november 06, 2003

Att angöra en brygga

I SearchEngineWatch-artikeln The Art of Advanced Link Building skrivs bland annat följande om konsten att skapa länkar för att få bättre sökresultat.

This year's conference [San Jose Search Engine Strategies conference] featured an interesting discussion about advanced link building between two search engine marketing consultants and representatives from Google and Teoma -- the two engines that place the most emphasis on link popularity in their search algorithms.
...
[Greg] Boser also warned about the future of a commonly misguided technique in link building: guest book spamming. This isn't likely to trigger a spam penalty today, says Boser, but is a big waste of time, because guest book pages will eventually get reduced in value. Similarly, log file spamming, where referrals are passed through with fake header information imbedded, will have a short shelf life.
...
Of the Google toolbar, Greg Boser strongly says "uninstall it!" Even though the toolbar offers a basic gauge of PageRank (and therefore link popularity), it's simply not worth the obsession if rankings are holding fairly steady and traffic has not dropped off.

Artikeln avslutas med följande råd:
When in doubt, it pays to follow Danny Sullivan's golden rules of link building:

1) Get links from pages that are read by the audience you want.
2) Buy links if visitors that come solely from the link will justify the cost.
3) Link to sites because you want your visitors to know about them.

Not: Det finns en längre version av artikeln som jag dock inte läst. För att få tillgång till den krävs att man är medlem (=betalar).

Posted by hakank at 10:02 FM Posted to Sökmotorer | Comments (5)

oktober 06, 2003

Google Frequent Searchers - nu då?!

I NYTimes-artikeln Frequent Search Engine Users, Google Is Watching and Counting berättas om en ny liten sak som google lagt till: Google Frequent Searchers. Tydligen är det funktionen jag skrev om för en månad sedan. Notera att den hjälpsida på google.com som refereras i anteckningen inte fungerar längre.

Enligt artikeln är det för tillfället bara ett fåtal utvalda som får ta del av funktionen .


The Web search service Google has quietly started placing a counter on its home page for a small number of its most frequent users.

Most Google users do not have it, but a select few now have a no-frills counter that with each search clicks higher, noting "You have done 479 searches," or whatever the actual number.

For the curious, an explanatory page linked to the counter reveals that this is a test, or limited-sample experiment of a new search counting feature.

Posted by hakank at 08:07 FM Posted to Sökmotorer

september 04, 2003

Google Frequent Searchers

googles har tydligen något som heter Google Frequent Searchers.

Do you search with Google a hundred times a day? Do you reach for Google before the phonebook, the dictionary or the newspaper? Do you think, just maybe, you're a Google frequent searcher?

The counter tells you how many searches you've conducted since it began counting. The color bar is just a visual representation of that information, showing you how far you've progressed. If the number contains more than 3 digits (or your color bar marker is more red than blue), you truly are a Google frequent searcher.

Tyvärr visas inget i mina webbläsare (galeon, opera, mozilla samt netscape) under Linux RedHat så jag vet inte riktigt hur "google-spectrum-stressen" känns. En vän med ungefär samma konfiguration berättade att han sett det igår.

Intressant nog finns det exakt en sökträff när jag (i skrivande stund) gör ett googlesök på sökning på URL-en och bara sidan själv när jag söker på "Google Frequent Searchers".

Någon som sett något mer om detta?

Posted by hakank at 07:36 EM Posted to Sökmotorer

augusti 15, 2003

Yahoo! Search Users Group

Det finns en vecka gammal yahoo-grupp Yahoo! Search Users Group som diskuterar sökmotorn Yahoo! search. I skrivande stund har 147 prenumererat på gruppen.


Uppdatering
Den senaste tiden (november 2003) har det mest varit spam, så jag läser inte denna grupp längre.

Posted by hakank at 07:26 FM Posted to Sökmotorer

augusti 14, 2003

Sökbeteende

Är det någon som har en bra referens till hur användare faktiskt söker i sökmotorerna, helst kopplat till specifikt svenska förhållanden?

Jag tänker på allmänna principer såsom:

Men även mer specifika strategier såsom

I min webbserverlogg förekommer ovanstående fraser mycket sällan.


Det borde ha gjorts en del slika undersökningar.

Posted by hakank at 11:06 EM Posted to Sökmotorer

augusti 12, 2003

Google Page Rank

Detta är skrivet till mest till Micke och Miriam (korrekt stavning?), vilka jag lovade en lite länkar till hur Googles PageRank fungerar. Andra får naturligvis även läsa fortsättningen :-)

PageRank är alltså googles algoritm för att räkna ut i vilken ordning sökresultatet ska visas. Den bästa förklaringen jag har läst om PageRank är Google's PageRank Explained and how to make the most of it av Phil Craven. Där står det mycket konkret vad som händer, när och varför, och det finna små lärorika exempel.

Page och Brins artikel The Anatomy of a Large-Scale Hypertextual Web Search Engine är också värd att läsa, liksom The PageRank Citation Ranking: Bringing Order to the Web (CiteSeer-länk).

Mer om dokument-rankning och liknande finns via denna googlekategori.

I och med att google är en av de populäraste sökmotorerna är algoritmen mycket omtvistad. T.ex. så har google-watch specialicerat sig på att kritiskt granska google.

Thorvald hittade en märklig sak i google för någon dag sedan. Läs även efterföljande kommentarer i "Kommentarer".

Det finns några usenet-grupper som diskuterar bl.a. PageRank.

www.searchengingewatch.com har flera matnyttiga diskussioner om bland annat google, men även om andra sökmotorer.


En liten aside:
För övrigt finns det massa roliga saker i de andra google.public.*-grupperna. Där kan man t.ex. hitta roliga tillämplingar på googles olika labs.

Mina labs-favoriter är för närvarande den nya NewsAlerts där man kan beställa bevakning av nyheter, samt Sets som ger "liknande exempel" på dem man skriver i en lista. T.ex. är Jaco Pastorius. Den exakta nyttan är omtvistad; man kan se det som en inspirator eller komihågare.

Posted by hakank at 03:34 FM Posted to Sökmotorer

augusti 05, 2003

googles nya synonymoperator

Via mymarkup.net fick jag just reda på att google har implementerat synonym-operatorn "~" (tilde). Urbra!

Jag gjorde en liten undersökning.

Som idiomatiskt exempel på synonymsökning använder google sökningen browser ~help som just nu säges ge 4 640 000 träffar. Några av synonymerna är "guide" och "tutorials". Söker man på dessa, t.ex. browser ~guide får man nästan samma antal träffar (4 330 000) men det är inte samma sidor i samma ordning som kommer upp, dock är första länken samma för de två sökningarna. Detta innebär alltså att man nog även i fortsättningen måste trixa med sina val av synonymer.

Dock är "~" ett bra steg framåt, inget snack om det!

Posted by hakank at 10:18 FM Posted to Sökmotorer

juni 24, 2003

En egen sökmotor - nästan

Hittade Open Source-projektet Carrot2 skrivet i Java. Tomcat rekommenderas som web server.

Carrot2 är en "klustringsmotor" som samlar sökresultat från en sökmotor och grupperar dem sedan i kluster, lite som t.ex. turbo10.com. En av finesserna är att det också finns filter, t.ex. stemmer för engelska, så att man kan manipulera med sökorden. I demon finns det en olika kombinationer av sökmotor+filter+klustringsalgoritmer att välja mellan. Det finns en demo av systemet. Den är lite slö, men man ser i alla fall hur de har tänkt sig.

Man kan ladda ner systemet här. Jag installerade systemet, vilket tog en liten stund i och med att man måste mixtra med lite XML-filer för Tomcat. Det är dock inga svårigheter om man följer installationsinstruktionerna .

Det enda jag ännu har fått att funka är dock förfabricerade demo-sökningar, så systemet är - ännu - inte användbart som en lokal sökmotor. Det ska bli intressant att följa utvecklingen.

Posted by hakank at 10:15 FM Posted to Machine learning/data mining | Sökmotorer