Google veckodagsnamnsanalys 2
För ett tag sedan gjordes en analys av förekomster av veckodagsnamn på google. Se vidare Veckodagsnamn på google för lite mer historik etc. Edliga löften gavs att återkomma med en ny
sådan när vi fått lite mer data. Så har nu skett.
Språket som används är (fortfarande) statistikspråket R. Se förra analysen för korta kommentarer om detta språk.
Eventuella kommentarer om de förestående analysen finns i kommentarerna till blogganteckningen Veckodagsnamn på google - återkomsten.
Data och analys
Idiotiskt nog har data för den andra lördagens (16 augusti) blivit bortsupet (och är noterad med "NA" i tabellen) nedan. Sorry. Jag har inte tagit med dagens (söndagen 7 sepember) sökning.
Den fullständiga tabellen över dagarna ser ut så här. Raderna är sökdagarna och kolumnerna är (bland annat) veckodagsnamnen som vi ska analysera.
> days2
year month date day måndag tisdag onsdag torsdag fredag lördag söndag
1 2003 8 8 Fri 121000 99300 108000 117000 130000 99400 88100
2 2003 8 9 Sat 117000 85900 102000 121000 128000 94200 86800
3 2003 8 10 Sun 120000 86100 101000 124000 126000 96000 81100
4 2003 8 11 Mon 130000 93200 107000 126000 138000 101000 84000
5 2003 8 12 Tue 123000 87000 102000 119000 126000 96700 85800
6 2003 8 13 Wed 127000 86200 102000 117000 125000 95200 80900
7 2003 8 14 Thu 126000 87600 109000 120000 131000 98600 80600
8 2003 8 15 Fri 125000 90600 103000 115000 129000 97000 80300
9 2003 8 16 Sat NA NA NA NA NA NA NA
10 2003 8 17 Sun 121000 90100 99000 114000 116000 97100 79500
11 2003 8 18 Mon 128000 91800 102000 120000 119000 94900 86000
12 2003 8 19 Tue 132000 90400 102000 120000 123000 97200 81200
13 2003 8 20 Wed 139000 106000 107000 123000 118000 94700 83300
14 2003 8 21 Thu 126000 90500 109000 120000 122000 97300 81000
15 2003 8 22 Fri 127000 90800 99900 126000 119000 95200 80300
16 2003 8 23 Sat 122000 86400 99200 123000 117000 93400 80200
17 2003 8 24 Sun 122000 88300 95300 114000 116000 94700 79800
18 2003 8 25 Mon 123000 87900 95600 116000 117000 90200 82900
19 2003 8 26 Tue 121000 85800 96700 115000 118000 92800 84900
20 2003 8 27 Wed 132000 97600 99100 121000 124000 91700 86800
21 2003 8 28 Thu 129000 83800 92300 115000 117000 91400 81700
22 2003 8 29 Fri 122000 82700 99600 115000 117000 88700 80600
23 2003 8 30 Sat 176000 122000 148000 169000 174000 133000 121000
24 2003 8 31 Sun 179000 127000 136000 155000 174000 141000 120000
25 2003 9 1 Mon 179000 127000 137000 171000 175000 124000 127000
26 2003 9 2 Tue 178000 126000 138000 169000 178000 127000 121000
27 2003 9 3 Wed 171000 141000 134000 150000 162000 125000 125000
28 2003 9 4 Thu 167000 134000 145000 151000 164000 124000 122000
29 2003 9 5 Fri 167000 126000 139000 158000 163000 124000 121000
30 2003 9 6 Sat 167000 126000 147000 168000 162000 127000 122000
Eftersom jag här endast bryr mig om värdena för veckodagsnamnen kopierar vi dessa till en annan tabell:
> ddd<-days2[,5:11]
> ddd
måndag tisdag onsdag torsdag fredag lördag söndag
1 121000 99300 108000 117000 130000 99400 88100
2 117000 85900 102000 121000 128000 94200 86800
3 120000 86100 101000 124000 126000 96000 81100
4 130000 93200 107000 126000 138000 101000 84000
5 123000 87000 102000 119000 126000 96700 85800
....
Först kan man notera (se stora tabellen) att något hände lördagen 30 augusti: Alla dagar fick
då en rejäl skjuts uppåt. Varför? Google-dans?
Vilka datum var maxvärde för respektive veckodagsnamn denna månad?
Det man får här är radnumret för respektive post som är maxvärdet per
veckodagsnamn.
> apply(ddd,2, which.max)
måndag tisdag onsdag torsdag fredag lördag söndag
24 27 23 25 26 24 25
Dagarna är alltså klustrade kring slutet av sökperioden, vilket inte är så konstigt med tanke på 30-augusti-boosten.
Skriv ut vilka sökdagar (rader) detta var. Maxvärdena är markerade med fetstil:
> days2[apply(ddd,2, which.max),]
year month date day måndag tisdag onsdag torsdag fredag lördag söndag
2003 8 31 Sun 179000 127000 136000 155000 174000 141000 120000
2003 9 3 Wed 171000 141000 134000 150000 162000 125000 125000
2003 8 30 Sat 176000 122000 148000 169000 174000 133000 121000
2003 9 1 Mon 179000 127000 137000 171000 175000 124000 127000
2003 9 2 Tue 178000 126000 138000 169000 178000 127000 121000
2003 8 31 Sun 179000 127000 136000 155000 174000 141000 120000
2003 9 1 Mon 179000 127000 137000 171000 175000 124000 127000
Och så plockar vi ut vilken veckodag det var när vi sökte då vi fick dessa maxvärden:
> days2[apply(ddd,2, which.max),][,4]
[1] Sun Wed Sat Mon Tue Sun Mon
Det verkar inte finnas någon systematik i detta.
Nu gör vi, slutligen, en rankning för respektive sökdagar och ser i vilken ordning de olika
veckodagsnamnen kommer. Det högsta värdet är först (ordnat genom att göra alla tal negativa).
1 är måndag, 2 tisdag,..., 7 söndag.
Not: Jag har även lagt till veckodagen för sökningen överst i tabellen (F för fredag,
"L" för lördag etc). Den eländiga lördagen (post 9) har defaultrankningen 1 till 7, men det är
inget att bry sig om.
> apply(-ddd[-9,],1,order)
F L S M T O T F L S M T O T F L S M T O T F L S M T O T F L
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
[1,] 5 5 5 5 5 1 5 5 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1 4
[2,] 1 4 4 1 1 5 1 1 2 5 4 5 4 5 4 1 5 5 5 5 5 5 5 5 5 5 5 5 5 1
[3,] 4 1 1 4 4 4 4 4 3 4 5 4 5 4 5 5 4 4 4 4 4 4 4 4 4 4 4 4 4 5
[4,] 3 3 3 3 3 3 3 3 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 6 3 3 2 3 3 3
[5,] 6 6 6 6 6 6 6 6 5 6 6 6 2 6 6 6 6 6 6 2 6 6 6 3 2 6 3 2 2 6
[6,] 2 7 2 2 2 2 2 2 6 2 2 2 6 2 2 2 2 2 2 6 2 2 2 2 7 2 6 6 6 2
[7,] 7 2 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 7 7 7 7 7
Här ser vi att veckodagsnamnet "måndag" (1) numera dominerar nästan alla sökdagar och "söndag" (7) ligger sist. Varför är det så ont om söndag?
Jag kan inte se några ytterligare intressanta samband.
Last modified: Sun Sep 7 21:37:10 CEST 2003