« Gustav Holmberg pratar om meteorologi i P1 | Main | Påminnelse: Bloggareträff i morgon (söndag 28 januari 2006) »

januari 26, 2007

The Blog Authorship Corpus

Den som har lust att göra dataanalyser på engelskspråkiga bloggtexter bör kika på The Blog Authorship Corpus:


The Blog Authorship Corpus consists of the collected posts of 19,320 bloggers gathered from blogger.com in August 2004. The corpus incorporates a total of 681,288 posts and over 140 million words - or approximately 35 posts and 7250 words per person.

...

The corpus may be freely used for non-commercial research purposes.

Zipfilen (nedladdningsbar via ovanstående sida) är 305Mb. Datan uppackad är 840 Mb, bestående av 19320 XML-filer med enkelparsrade taggar såsom <Blog>, <date>, <post>.

Kodningen av författarna görs i filnamnet, t.ex.
3802222.female.13.Student.Gemini.xml, dvs löpnummer, kön, ålder, sysselsättning samt stjärntecken (!).

Det görs en analys i J. Schler, M. Koppel, S. Argamon and J. Pennebaker Effects of Age and Gender on Blogging .

Via Data Mining: Text Mining, Visualization and Social Media


(Det vore trevlig med motsvarande corpus av svenska bloggtexter. Och hellre YYYYMMDD-födelsedata än stjärntecken.)

Posted by hakank at januari 26, 2007 07:32 FM Posted to Blogging | Statistik/data-analys

Comments

Lite tråkig demografisk begränsning, men ändå: mums!

En annan potentiellt skön bloggkorpus är BLOG06, som dock inte kan laddas ner, utan köps på hårddisk(!).

(Vad gäller svensk bloggkorpus är det inte planer det råder brist på...)

Posted by: Filip Salomonsson at januari 26, 2007 09:12 FM

Filip: Misstänkte att detta skulle intresserad dig och jag håller naturligtvis med dig om demografin.

Posted by: hakank [TypeKey Profile Page] at januari 27, 2007 06:41 EM

Ja, med angivelse YYYYMMDD (samt gärna tid och plats för födelsen) kan man ju få reda på så mycket mer om himlakropparnas positioner än bara solens placering i zodiaken.

Posted by: Henrik Sundström at februari 1, 2007 07:27 EM