Google veckodagsnamnsanalys 2

För ett tag sedan gjordes en analys av förekomster av veckodagsnamn på google. Se vidare Veckodagsnamn på google för lite mer historik etc. Edliga löften gavs att återkomma med en ny sådan när vi fått lite mer data. Så har nu skett.

Språket som används är (fortfarande) statistikspråket R. Se förra analysen för korta kommentarer om detta språk.

Eventuella kommentarer om de förestående analysen finns i kommentarerna till blogganteckningen Veckodagsnamn på google - återkomsten.

Data och analys

Idiotiskt nog har data för den andra lördagens (16 augusti) blivit bortsupet (och är noterad med "NA" i tabellen) nedan. Sorry. Jag har inte tagit med dagens (söndagen 7 sepember) sökning.

Den fullständiga tabellen över dagarna ser ut så här. Raderna är sökdagarna och kolumnerna är (bland annat) veckodagsnamnen som vi ska analysera.

> days2
   year month date day måndag tisdag onsdag torsdag fredag lördag söndag
1  2003     8    8 Fri 121000  99300 108000  117000 130000  99400  88100
2  2003     8    9 Sat 117000  85900 102000  121000 128000  94200  86800
3  2003     8   10 Sun 120000  86100 101000  124000 126000  96000  81100
4  2003     8   11 Mon 130000  93200 107000  126000 138000 101000  84000
5  2003     8   12 Tue 123000  87000 102000  119000 126000  96700  85800
6  2003     8   13 Wed 127000  86200 102000  117000 125000  95200  80900
7  2003     8   14 Thu 126000  87600 109000  120000 131000  98600  80600
8  2003     8   15 Fri 125000  90600 103000  115000 129000  97000  80300
9  2003     8   16 Sat     NA     NA     NA      NA     NA     NA     NA
10 2003     8   17 Sun 121000  90100  99000  114000 116000  97100  79500
11 2003     8   18 Mon 128000  91800 102000  120000 119000  94900  86000
12 2003     8   19 Tue 132000  90400 102000  120000 123000  97200  81200
13 2003     8   20 Wed 139000 106000 107000  123000 118000  94700  83300
14 2003     8   21 Thu 126000  90500 109000  120000 122000  97300  81000
15 2003     8   22 Fri 127000  90800  99900  126000 119000  95200  80300
16 2003     8   23 Sat 122000  86400  99200  123000 117000  93400  80200
17 2003     8   24 Sun 122000  88300  95300  114000 116000  94700  79800
18 2003     8   25 Mon 123000  87900  95600  116000 117000  90200  82900
19 2003     8   26 Tue 121000  85800  96700  115000 118000  92800  84900
20 2003     8   27 Wed 132000  97600  99100  121000 124000  91700  86800
21 2003     8   28 Thu 129000  83800  92300  115000 117000  91400  81700
22 2003     8   29 Fri 122000  82700  99600  115000 117000  88700  80600
23 2003     8   30 Sat 176000 122000 148000  169000 174000 133000 121000
24 2003     8   31 Sun 179000 127000 136000  155000 174000 141000 120000
25 2003     9    1 Mon 179000 127000 137000  171000 175000 124000 127000
26 2003     9    2 Tue 178000 126000 138000  169000 178000 127000 121000
27 2003     9    3 Wed 171000 141000 134000  150000 162000 125000 125000
28 2003     9    4 Thu 167000 134000 145000  151000 164000 124000 122000
29 2003     9    5 Fri 167000 126000 139000  158000 163000 124000 121000
30 2003     9    6 Sat 167000 126000 147000  168000 162000 127000 122000
Eftersom jag här endast bryr mig om värdena för veckodagsnamnen kopierar vi dessa till en annan tabell:
> ddd<-days2[,5:11]
> ddd
   måndag tisdag onsdag torsdag fredag lördag söndag
1  121000  99300 108000  117000 130000  99400  88100
2  117000  85900 102000  121000 128000  94200  86800
3  120000  86100 101000  124000 126000  96000  81100
4  130000  93200 107000  126000 138000 101000  84000
5  123000  87000 102000  119000 126000  96700  85800
....
Först kan man notera (se stora tabellen) att något hände lördagen 30 augusti: Alla dagar fick då en rejäl skjuts uppåt. Varför? Google-dans?

Vilka datum var maxvärde för respektive veckodagsnamn denna månad? Det man får här är radnumret för respektive post som är maxvärdet per veckodagsnamn.
> apply(ddd,2, which.max)
 måndag  tisdag  onsdag torsdag  fredag  lördag  söndag 
     24      27      23      25      26      24      25 
Dagarna är alltså klustrade kring slutet av sökperioden, vilket inte är så konstigt med tanke på 30-augusti-boosten.

Skriv ut vilka sökdagar (rader) detta var. Maxvärdena är markerade med fetstil:
> days2[apply(ddd,2, which.max),]
year month date day måndag tisdag onsdag torsdag fredag lördag söndag
2003     8   31 Sun 179000 127000 136000  155000 174000 141000 120000
2003     9    3 Wed 171000 141000 134000  150000 162000 125000 125000
2003     8   30 Sat 176000 122000 148000  169000 174000 133000 121000
2003     9    1 Mon 179000 127000 137000  171000 175000 124000 127000
2003     9    2 Tue 178000 126000 138000  169000 178000 127000 121000
2003     8   31 Sun 179000 127000 136000  155000 174000 141000 120000
2003     9    1 Mon 179000 127000 137000  171000 175000 124000 127000

Och så plockar vi ut vilken veckodag det var när vi sökte då vi fick dessa maxvärden:
> days2[apply(ddd,2, which.max),][,4]
[1] Sun Wed Sat Mon Tue Sun Mon
Det verkar inte finnas någon systematik i detta.

Nu gör vi, slutligen, en rankning för respektive sökdagar och ser i vilken ordning de olika veckodagsnamnen kommer. Det högsta värdet är först (ordnat genom att göra alla tal negativa).

1 är måndag, 2 tisdag,..., 7 söndag.

Not: Jag har även lagt till veckodagen för sökningen överst i tabellen (F för fredag, "L" för lördag etc). Den eländiga lördagen (post 9) har defaultrankningen 1 till 7, men det är inget att bry sig om.
> apply(-ddd[-9,],1,order)
     F  L  S  M  T  O  T  F  L   S  M  T  O  T  F  L  S  M  T  O  T  F  L  S  M  T  O  T  F  L
     1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
[1,] 5  5  5  5  5  1  5  5  1  1  1  1  1  1  1  4  1  1  1  1  1  1  1  1  1  1  1  1  1  4
[2,] 1  4  4  1  1  5  1  1  2  5  4  5  4  5  4  1  5  5  5  5  5  5  5  5  5  5  5  5  5  1
[3,] 4  1  1  4  4  4  4  4  3  4  5  4  5  4  5  5  4  4  4  4  4  4  4  4  4  4  4  4  4  5
[4,] 3  3  3  3  3  3  3  3  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  6  3  3  2  3  3  3
[5,] 6  6  6  6  6  6  6  6  5  6  6  6  2  6  6  6  6  6  6  2  6  6  6  3  2  6  3  2  2  6
[6,] 2  7  2  2  2  2  2  2  6  2  2  2  6  2  2  2  2  2  2  6  2  2  2  2  7  2  6  6  6  2
[7,] 7  2  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  7  6  7  7  7  7  7
Här ser vi att veckodagsnamnet "måndag" (1) numera dominerar nästan alla sökdagar och "söndag" (7) ligger sist. Varför är det så ont om söndag?

Jag kan inte se några ytterligare intressanta samband.
Last modified: Sun Sep 7 21:37:10 CEST 2003