« Gustav Holmberg pratar om meteorologi i P1 | Main | Påminnelse: Bloggareträff i morgon (söndag 28 januari 2006) »
januari 26, 2007
The Blog Authorship Corpus
Den som har lust att göra dataanalyser på engelskspråkiga bloggtexter bör kika på The Blog Authorship Corpus:
The Blog Authorship Corpus consists of the collected posts of 19,320 bloggers gathered from blogger.com in August 2004. The corpus incorporates a total of 681,288 posts and over 140 million words - or approximately 35 posts and 7250 words per person....
The corpus may be freely used for non-commercial research purposes.
Zipfilen (nedladdningsbar via ovanstående sida) är 305Mb. Datan uppackad är 840 Mb, bestående av 19320 XML-filer med enkelparsrade taggar såsom <Blog>, <date>, <post>.
Kodningen av författarna görs i filnamnet, t.ex.
3802222.female.13.Student.Gemini.xml
, dvs löpnummer, kön, ålder, sysselsättning samt stjärntecken (!).
Det görs en analys i J. Schler, M. Koppel, S. Argamon and J. Pennebaker Effects of Age and Gender on Blogging .
Via Data Mining: Text Mining, Visualization and Social Media
(Det vore trevlig med motsvarande corpus av svenska bloggtexter. Och hellre YYYYMMDD-födelsedata än stjärntecken.)
Posted by hakank at januari 26, 2007 07:32 FM Posted to Blogging | Statistik/data-analys
Comments
Lite tråkig demografisk begränsning, men ändå: mums!
En annan potentiellt skön bloggkorpus är BLOG06, som dock inte kan laddas ner, utan köps på hårddisk(!).
(Vad gäller svensk bloggkorpus är det inte planer det råder brist på...)
Posted by: Filip Salomonsson at januari 26, 2007 09:12 FM
Filip: Misstänkte att detta skulle intresserad dig och jag håller naturligtvis med dig om demografin.
Posted by: hakank at januari 27, 2007 06:41 EM
Ja, med angivelse YYYYMMDD (samt gärna tid och plats för födelsen) kan man ju få reda på så mycket mer om himlakropparnas positioner än bara solens placering i zodiaken.
Posted by: Henrik Sundström at februari 1, 2007 07:27 EM