« Smånotiser 20070204 | Main | Experimentellt tillägg i "Visa ordklasser": endast suffixgissning »
februari 04, 2007
Ultimate Research Assistant (Web Edition)
Ultimate Research Assistant (Web Edition) är en trevlig (men tyvärr långsam) applikation för att sammanställa sökresultat på ett mer intelligent sätt än de sökmotorerna. Systemet listar ut fraser som anses vara signifikanta för sökordet och visar representativa sajter
Exempel: sökning på "blogg" ger följande nyckelord.
- blogg
- att det
- jag har
- att jag
- blogg
- Climate Change
- det som
- för att
- har jag
- jag har
- om att
- om det
- Om man
- som jag
Av ovanstående fraser anses denna blogg vara representativ för flera: "att det", "jag har", "att jag", "om det", "det som", "om man", "som jag". Vilket kan få en att undra...
Vad gäller urvalet av fraser kan man möjligen anta att stackarn blivit förvirrad av innehållet av de 50 första sökresultaten av "blogg" på Yahoo!, eller så är det helt enkelt att - som det heter på julafton - att "Tony förstår inte språket så bra". Intressant nog finns "Climat Change" med, en het potatis i både inom och utanför bloggvärlden.
Sökningar på mer stringenta fackfraser såsom "text mining" (som råkar vara den teknik som Ultimate Research Assistant använder) och "Diaconis" (en husgud som ofta används för testning av sökverktyg) ger betydligt bättre resultat och känns användbart.
Man bör dock notera den brasklapp som står på sajten: It is an experimental proof-of-concept prototype, and should not be used for any official purposes.
Se vidare
Andy Hoskinson:
Creating the Ultimate Research Assistant där tekniken bakom verktyget förklaras.
Samme Hoskinson har även skapat verktyget Keyword Analysis Tool - Advanced Keyword and Keyphrase Extraction Technology for Content Analysis and Search Engine Optimization (SEO).
Wikipedia: Text mining
Tyvärr koms det här även att tänkas på 200 dagar som bl.a. visar förekomsterna av ord på hakank.blogg där ordet "jag" kom på fjärde plats, samt "jag" i bloggen där vidare språkanalyser genomfördes.
(Verktyget funnet via webbserverloggen.)
Posted by hakank at februari 4, 2007 05:46 EM Posted to Språk | Statistik/data-analys
Comments
Jag kan passa på att tipsa om Eric Fallanders rapportutkast till sitt examensarbete om företagsbloggar som innehåller ordfrekvenser för den typen av bloggar. Även Fallanders blogg innehåller några nya inlägg om ord i företagsbloggar jämfört med årsredovisningar.
http://ex-blogg.blogspot.com/
http://fallander.googlepages.com/exjobb
Posted by: David Hall at februari 4, 2007 07:17 EM
David: Tack för tipset.
Jag såg precis din postning (Och att i som på det är en för) och glanade lite i dokumentet, men missade ordfrekvenserna.
De vanligaste förekommande orden råkar vara precis de som David har i sin - som vanligt - välfunna bloggposttitel.
Posted by: Håkan Kjellerstrand at februari 4, 2007 07:36 EM
Jag ändrade den till för att göra ett mer väl jobb av att bearbeta svensk text. Var god försök den igen.
(For those of you who understand English, pardon my poor Swedish...I attempted to modify the tool to do a better job of processing Swedish text. Please try it again.)
Posted by: Andy Hoskinson at februari 6, 2007 11:14 EM
Andy: Nice of you to come by, and for modifying the system för swedish texts.
The modification gave an interesting effect, though. When searching for "blogg" (which is not just a swedish word) the two only topics given is
"blogg"
"minutes ago"
which in a way may be a much better result than a list of very common swedish words above. (Did you added a swedish stopword list?).
Now it suggest that there is no common denominator between these sites, which probably is more correct.
Also, it can be noted that there are not at all that many swedish sites listed. (And my blog is not listed at all. :)
For comparison, a search for "blog" (just one "g") gives the following topics:
- blog
- new Car
- new features
- new HTML
- one day
- Search Engine
- search results
- video content
- web site
where "new Car" is interesting.
Posted by: Håkan Kjellerstrand at februari 7, 2007 08:19 FM