Projektförslag:
Social nätverksanalys av den svenska bloggosfären
Författare: Håkan Kjellerstrand
Dokument påbörjades 2003-10-01
Frågor om projektet (eller mig) kan göras via e-post (hakank@bonetmail.com) eller
på annat sätt (se slutet på denna sida).
För eventuellt efterföljande diskussion kring detta projekt, se min blogganteckning Projektförslag: Social nätverksanalys av den svenska bloggosfären.
Inledning och presentation
Ända sedan jag började blogga för några månader sedan har jag tänkt att göra en social nätverksanalys (Social Network Analysis, SNA) av den svenska bloggosfären, dvs analysera bloggarna utifrån sociala begrepp som centralitet, influens, auktoritet, "mäklarroller" etc. Det började som en liten övning inom SNA, men sedan har jag tyckt det är uppriktigt intressant och troligen skulle tillföra något viktigt till forskningen om bloggarna.
Ett sådant projekt är stort och kräver mycket mer tid än vad jag har inom överskådlig framtid. Ett alternativ är att någon (t.ex. en snäll mecenat) betalar så att jag kan göra undersökningen själv. Fler mecentater, tack! :)
Häromdagen (kring siste september 2003) beslöt jag mig för att, i stället för att själv göra en sådan undersökning, göra en övergripande beskrivning av projektet och se om någon annan/andra är intresserad av det. Projektet kommer att kräva en hel del programmerande, tid och tålamod, samt kunskaper om SNA-metoderna.
Möjligen kan det vara lämpligt för någon som ska skriva en akademisk uppsats.
Vad jag förstår finns ingen sådan undersökning gjord för svenska bloggare, och jag känner inte heller till någon motsvarande för någon annan typ av bloggsamhälle. Det senare bör dock undersökas.
Markering: Jag kommer alltså inte själv kunna lägga ner speciellt mycket tid på projektet, möjligen vara till hjälp och rådgivare i den inledande analysfasen med tips och åsikter samt i själva dataanalysen, om sådan hjälp är önskvärd. Naturligtvis kommer jag gärna även med glada tillrop. Men programmering, projektledning/-drivande, synkning etc kommer jag inte ha tid till.
Min förhoppning (om det nu inte träder fram någon mecenat) är att någon säger: "Jättebra förslag, det gör jag gärna som en del i min forskning eller hobbyprojekt", och sedan snabbt övertar utvecklings-, synk- och projektledaransvaret.
Jag kommer här nedan inte att förklara exakt vad de olika begreppen innebär, utan hänvisar till andra källor för upplysning, t.ex. Social Network Analysis och Complex Networks - En liten introduktion där tips om litteratur och system finns.
Notera att denna sida innehåller information om både Social Network Analysis (ett ämne tillhörande "matematisk sociologi") och analys av komplexa nätverk (en mer gränsövergridande teknik, ursprungligen uppfunnen av personer med främst bakgrund inom fysiken). T.ex. tillhör begreppet "power law" (som jag skrivit en del om) traditionellt området komplexa nätverk och inte SNA, liksom böckerna skrivna av Barabasi, Duncan Watts samt Buchanan. Det är alltså två olika analysmetoder och båda är mycket intressanta.
Det föreslagna projektet bör dock koncentrera sig på SNA.
Primär relation
Den primära SNA-relation jag har tänkt är länkar till, dvs att en blogg länkar till inlägg på en annan blogg.
Inte helt förvånande är det samma som för googles PageRank, men PageRank är bara en av många metriker man kan använda. Det finns andra metriker som är matematiskt och sociologiskt väldefinierade. Stirra er alltså inte blinda på just nedanstående begrepp.
Notera att enbart "länkar till" inte är tillräckligt, se under "Caveats" nedan för lite kring detta.
Frågeställningar
Här är några av de frågor jag själv har ställt. Några av frågorna kan man säkert besvara redan nu, men det vore intressant att få vetenskapligt stöd för dem. Efter genomläsningen av litteraturen kommer med största sannolikhet flera och mer detaljerade frågor att utkristalliseras.
- Är metrikerna ("rankning" etc) samma som den man intuitivt tror. Inledningsvis borde man kanske skriva ner sina intuitioner om detta och sedan jämföra med SNA-analysen.
- Finns det några tydliga klickar, dvs grupper som bara diskuterar inbördes? Hur ser de i så fall ut, hur stora är de, etc? Finns det isolerade öar?
Notera att klickar och öar är relaterade till de studerade bloggarna. En "ö" kan vara en del av en annan ("internationell") klick.
- Vilken typ av rankning mellan bloggar kan man notera (jämför med googles PageRank)? Vilka är de mest "inflytelserika" bloggarna?
"Popularitet": Finns det bloggar som som många som länkar till respektive länkar till många?
- Kan man koppla detta till hur länge de hållt på?
Kommentar: En bloggare som har hållt på länge har haft längre tid på sig att samla ihop länkar. Gäller samma influenser om man tar det sista året? Sista halvåret? Sista tre månaderna?
- Vilka typer av svenska bloggar finns det?
Jag vet inte vilken kategorisering man ska använda, men det finns det nog redan forskat kring. Möjligen kan man försöka hitta något eget.
Finns det kopplingar till typen av blogg och tillhörande klick? Troligen finns det sådana kopplingar, men det beror också på vilka kategorier man använder.
Vilka bloggar?
Någonstans måste man avgränsa studien. Eftersom tanken är att undersöka den "svenska" bloggosfären har jag valt följande kriterium på de bloggar som ska inkluderas:
samtliga bloggar som finns på weblogs.se och Svenskt webblogindex.
Möjligen saknas där en blogg som allmänt anses tillhöra den svenska bloggosfären. Sådana kan naturligtvis läggas till manuellt.
Avgränsningen innebär att länkar till/från andra bloggar än de studerade inte kommer med i undersökningen, och kan uppfattas som orättvist t.ex. mot de "internationella bloggarna" som länkar till/länkas till från bloggarna "utanför". Dessa "svenska internationella bloggar" bör vara med i undersökningen och kanske utgör en egen klick i den svenska bloggosfären.
Kriteriet är inte hugget i sten, och den som kommer att göra undersökningen får naturligtvis bestämma själv. En rekommendation är dock att man inte gör undersökningen för stor. Jag tror att det är viktigt att undersöka just den "svenska" (nordiska) bloggosfären.
En gordisk variant vore att ytterligare begränsa till att endast studera de svenskspråkiga bloggarna. Jag är dock inte helt nöjd med detta, bland annat eftersom flera av mina egna favoriter då inte komma med..
Diskussioner om detta kriterium bör alltså göras.
SNA-frågeställningar
Några tankar om mer detaljerade SNA-frågor att ställa.
- Följande begrepp bör studeras för den skapade SNA-grafen:
- centralitet
- popularitet
- kluster/klickar och öar
- mäklar-roller
- Hur förändras detta över tid, t.ex. från år 1 (med ett fåtal bloggar) till nu (med cirka 300 bloggar). Gärna fördelat över följande perioder:
- hela perioden
- uppdelat år från år
- det senaste året
- det senaste halvåret/3 månaderna
- Kategorier
En mer detaljerad undersökning kan även se på innehåll på bloggarna, t.ex. genom att kategorisera de enskilda inläggen (mycket stort arbete!). En enklare variant är tilldela bloggen en eller flera kategorier.
Hur har kategorierna förändrats över tiden, t.ex. för de mest populära?
En annan fråga man kan ställa är vad som kännetecknar (och har kännetecknat) de mest/minst populära bloggarna. Etc.
- Hur kopplas de olika metrikerna (vilken metrik som än används) till weblogs.se:s popularitetslista?
"Politiska" hänsyn
Finns det negativa aspekter med en sådan här undersökning? Även om bloggarna är publika är det ju en annan sak att bli "samkörd" och jämförd med andra.
Troligen vill få vara med i en undersökning om det visar sig att de kommer långt ner på något som kan uppfattas som en popularitetslista. (Samtligt är det nog få som inte vill vara långt upp på samma lista.)
Man bör därför starkt betona att undersökningen inte är ute efter att göra enkla popularitetslistor utan försöker fånga strukturen i bloggosfären.
Detta är ett problem (till viss del pedagogiskt) som man måste adressera, och det är nog inte helt enkelt.
Några tankar:
Det är inte säkert att man behöver publicera namn på bloggar alls. Det beror lite på hur undersökningen läggs upp och dess forsknings syfte.
Man kan anonymisera allt eller vissa delar av analysen. T.ex. man man nämnge de X första på en metriklista , men nämner inte namn på de som är lägre ned på listan.
Även om man gör denna anonymisering kan vissa bloggar troligen identifieras eftersom de är utmärkande på olika sätt, men de som kan göra denna identifikation är troligen "inom familjen" så det är en begränsad skada.
Not: Även om rapporten är anonym föreslår och önskar jag att själv datan för grafen (inklusive namn på bloggen) är tillgänglig för dem som så önskar. Dessa kan då göra egna analyser. Håll forskningen öppen!
Projektets genomförande
Här är en mycket skissartad plan på olika nivåer av genomförandet.
- Läs in på SNA
Ett tips är att först läsa in sig på SNA-ämnet så man vet vad som kan göras. I mitt SNA-dokument finns tips på litteratur och verktyg.
- Kravanalys och design
Gör en mer detaljerad kravanalys och design av frågeställningar och system.
"Politiska" hänsyn bör diskuteras.
- Implementation
Här är mycket översiktligt vilken data som ska hämtas för respektive blogg.
- ladda ner samtliga inlägg
- gå igenom dessa inlägg och identifiera länkarna till andra svenska bloggare
- tidsbestäm inläggen, så att man kan göra timeslice-grafer
- eventuellt kategorisera bloggen
- andra attribut att samla:
- startdatum
- totalt antal inlägg
- antal utlänkar (till bloggar i DSvBlSf-en)
- antal inlänkar
- språk som används (kan vara flera)
- bloggverktyg(?)
- ort (GEOUrl data?)
- antal skrivna kommentarer. Se nedan.
Vad gäller attributen är jag ännu inte säker på om/hur alla ska användas, men jag tror att är det bättre att ha en lite längre önskelista i detta tidiga skede, som sedan krymps vid mer detaljerad analys/design/implementation.
- SNA-graf
Skapa sedan en graf över dessa kopplingar
- SNA-analys
Analysera grafen med fint analysprogram
- utvärdera analyserna
- Slutligen
Skriv ihop en fin rapport och publicera den. Invänta omvärldens beundran.
Caveats
Här är några saker jag tänkt på vad gäller vilken typ av länkar som ska tas med. Det finns säkert en massa andra saker.
- Bloggrullarna (bloggfavoriterna)
Det finns ett antal bloggar som har bloggrullar på samtliga sidor, vilket ger ett missvisande resultat. Sådana länkar bör nog inte läggas in i grafen alls, eller kanske räknas endast en gång.
- Kommentarer/kommentarslänkar
Jag är inte säker på hur man ska göra med kommentarerna. I dessa finns det ofta länkar till kommenterarens blogg, men ska det verkligen räknas som en relevant länk? Det känns ju lite fuskigt och framförallt manipulerbart (google går dock på det:-).
En idé är att göra en helt egen kommentarsgraf och studera den separat. Dock lite trist för de bloggar som inte har stöd för kommentarer.
- Permalänkar, blogglänkar
Det är skillnad på att länka till en specifik blogganteckning (permalänk) och att länka till bloggen i största allmänhet. Det sista används t.ex. för att peka på bloggen när man pratar mer generellt om en bloggare.
Det känns relevant, men jag är inte riktigt säker på varför eller hur...
SNA-analysen
Hur lång tid själva SNA-analysen tar beror naturligtvis på vilken typ av analyser man vill göra, och på syftet med analysen, forskningens inriktning etc.
Förslagsvis används existerande SNA-program, t.ex. UCINET (samt program som följer med i paketet) och/eller Pajek, båda mycket kompetenta, möjligen även Visone fast det är inte alls lika kompetent som de två andra.
UCINET kan man använda cirka 30 dagar utan att pröjsa, Pajek och Visone kostar inget att använda. Läs licensvillkoren!
Jag har gjort en del sådana SNA-analyser så här kan jag möjligen behjälplig.
Övriga kommentarer
Jag föreslår att graf-datan görs publik så att intresserade kan göra egna analyser. Rådatan, dvs HTML-filer etc, ser jag inte så stort behov av att offentliggöra.
Det vore bra om grafen sparas i UCINET's flattextformat som även Pajek och Visone kan läsa.
Back to my homepage
Created by Hakan Kjellerstrand hakank@bonetmail.com
Last modified: Sat May 2 08:23:08 CEST 2009