« På nya äventyr | Main | Liten påminnelse om dagens bloggaremiddag: Klockan 14.00 Restaurang Mosaik , Stortorget Malmö »
mars 12, 2005
"Stjärnor över änglar" - Analys av eventuella språkliga samband mellan låttitlar och deras placering i Melodifestivalen år 1959 - 2004
Introduktion till undersökningen
I söndags skrev Håkan 'hakke' Karlsson (i Med andra ord) om antal ord i titlar i lördagens melodifestival (vars deltävlingar jag inte har sett).
Detta inspirerade till följande frågeställningar (som även antyddes i kommentaren till Hakkes blogganteckning):
* Finns det något samband mellan längden på en låttitel och dess placering i en melodifestival?
* Finns det något samband mellan medellängden av titelorden och dess placering i en melodifestival?
* Finns det överhuvudtaget något samband mellan titlar och något annat?
Kort summering: Nej, det finns inga sådana samband. Med ett undantag: den genomsnittliga längden på orden har blivit något kortare med åren.
Rubriken "Stjärnor över änglar" får sin förklaring i någon av nedanstående avsnitt. Läs vidare.
Introduktion av data
Efter lite letande på nätet hittades det låttitlar och deras placeringar i Melodifestivalen för åren 1959 till 2004; alla mellanliggande år har dock inte varit behäftade med melodifestivaler.
Som vanligt tog pre-processingen av datan mest tid, filtrera informationen på ett sätt som gör att det gick att bearbeta med analysprogram, i detta fall - och som vanligt - det fria systemet R.
Lite översiktlig information om datan:
* 406 låttitlar i 43 melodifestivaler har studerats
* Det var 1305 unika ord
* Det finns ett flertal varianter för poängberäkning, t.ex. med 10 låtar där endast 5 fått en placering, en variant (1959) där samma artist (Ingvar Wixell) sjöng alla låtar etc etc. Jag har dock försökt att normalisera placeringarna till poäng, se "Ordpoäng" nedan.
Konkordanstabeller
Förutom ren statistisk analys (eller snarare data snooping) som ju inte gav så mycket, gjordes även lite andra analyser, t.ex. konkordanstabeller över antal förekomst av orden i titlarna.
Här är de vanligaste orden samt antalet antal låttitlar som har innehåller detta ord. Notera att även om ett ord finns flera gånger i en låttitel räknas det bara en gång (dubletter räknas alltså inte dubbelt, se även nedan).
ord: antal
en: 44
jag: 37
du: 35
mig: 30
är: 28
dig: 27
i: 24
det: 23
och: 20
som: 18
om: 16
min: 14
på: 13
sång: 12
här: 11
vår: 9
kärlek: 8
till: 8
se: 8
för: 7
mitt: 7
med: 7
bara: 7
igen: 7
vän: 7
vill: 6
gång: 6
av: 6
har: 6
finns: 6
kommer: 6
nu: 6
när: 6
din: 6
ska: 5
dina: 5
var: 5
hand: 5
inte: 5
vals: 5
vi: 5
kärleken: 5
ett: 5
dröm: 5
värld: 5
liv: 5
stjärna: 4
över: 4
änglar: 4
ger: 4
alla: 4
ha: 4
världen: 4
så: 4
natten: 4
livet: 4
ser: 4
att: 4
hos: 4
gör: 4
allt: 3
eld: 3
annan: 3
spela: 3
stanna: 3
Vilket nog skulle kunna bli en bra - måhända existentiell - sångtext:
En jag, du mig.
Är dig i det och som om min.
På sång här vår kärlek till,
se för mitt, med bara igen: vän.
Vill gång av.
Har? Finns?
Kommer nu när din ska;
dina var hand.
Inte vals, vi.
Kärleken ett,
dröm, värld, liv
Stjärna över änglar,
ger alla ha.
Världen så natten livet.
Ser att hos gör allt, eld annan spela.
Stanna!
(Jag tycker speciellt om "stjärna över änglar". googleförekomst: 0.)
"Ordpoäng"
Så till en lista över genomsnittlig "ordpoäng", dvs hur många poäng har ett ord fått under åren.
Två kommentarer:
Poäng är här uträknat som: antal låtar i tävlingen - placering + 1
Det innebär att låt på första platsen av 6 låtar får 6 poäng (6 - 1 + 1 = 6), andra platsen vid en tävling av 10 låtar får 9 poäng (10 - 2 + 1 = 9) etc. För tävlingar med utslagningar har de utslagna låtarna fått tillräkna sig 1 poäng.
Den andra kommentaren är att ord som endast förekommit en gång i en sång titel är borttagna, annars skulle ord som "satellit", "cocacola" och "bugg" (vilka är ord som endast förekommit en gång i en vinnande låt) komma först och det vill vi ju inte.
ord: genomsnittlig poäng, antal poäng, antal ord
dag: 10.00, 30, 3
your: 9.50, 19, 2
let: 9.50, 19, 2
dé: 9.00, 18, 2
vackraste: 9.00, 18, 2
é: 9.00, 18, 2
love: 8.50, 17, 2
bang: 8.50, 17, 2
stad: 8.00, 16, 2
hallå: 8.00, 16, 2
havet: 8.00, 16, 2
härliga: 8.00, 16, 2
över: 7.75, 31, 4
vindarna: 7.67, 23, 3
fångad: 7.50, 15, 2
varje: 7.50, 15, 2
vilken: 7.00, 14, 2
älskar: 7.00, 14, 2
härlig: 7.00, 14, 2
vem: 7.00, 14, 2
sången: 7.00, 14, 2
dansa: 7.00, 21, 3
april: 7.00, 14, 2
hela: 6.50, 13, 2
is: 6.50, 13, 2
hej: 6.50, 13, 2
Ordmultiplicitet
Påverkas placeringen av förekomsten av dubbletter i titeln? Möjligen finns det en liten fördel med dubletter: ord som förekommer fler än en gång i en låttitel har en genomsnittliga poäng på 4.57 medan enkelord har genomsnittligt 4.39 poäng. Om det är ett samband så är det svagt.
Finns det något samband, då?
Så var det där med de ursprungliga frågeställningarna om sambanden mellan låttitelns ord och låtens placeringen. Det fanns ingen. Inte heller finns något av följande samband (eller så hittade jag dem inte):
* antal ord i låttiteln
* medelantalet ord i låttiteln
* antal tecken i låttiteln
* huruvida det finns dublettord i titeln eller inte (men se ovan)
Förändring av medellängden av ord över åren
Det finns dock en liten förändring av medellängden på orden över åren. För hela perioden (1959-2004) har medellängden minskat från cirka 5.5 bokstäver per ord till cirka 4 bokstäver per ord (detta inkluderat siffror och talspråksvarianter som "de'" i stället för "det"), och det kanske säger en del om vår kultur i allmänhet, även om jag inte tror att melodifestivalen någonsin har varit en kulturens högborg. (En mer seriös fråga: har medelantalet tecken per ord i normal text minskad i samma omfattning över åren? )
Bilden visar denna utvecklingen av medellängden per ord, där den räta linjen är regressionslinjen.
R-kod för analysen
Här är lite R-kod för att skapa bild och analysen av medellängden per år. Kontentan är att för varje år minskar ordens medellängd med cirka 0.02 tecken. Det låga värdet på Adjusted R-squared (0.27) påvisar att det är lågt förklaringsvärde; p-värdet är < 0.001.
# läs in data över årems genomsnittliga längd
> melodi.year <- read.table("melodi_year.dat", sep=",", header=T)
# gör en linjär analys
> summary(lm(aver_letters_per_words~year, data=melodi.year))
Call:
lm(formula = aver_letters_per_words ~ year, data = melodi.year)
Residuals:
Min 1Q Median 3Q Max
-0.98296 -0.30508 -0.03489 0.22848 0.85569
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.220494 9.720366 4.652 3.41e-05 ***
year -0.020288 0.004903 -4.138 0.00017 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 0.4278 on 41 degrees of freedom
Multiple R-Squared: 0.2946, Adjusted R-squared: 0.2773
F-statistic: 17.12 on 1 and 41 DF, p-value: 0.0001699
# plotta
> plot(aver_letters_per_words~year, data=melodi.year)
# visa regressionslinjen
> abline(lm(aver_letters_per_words~year, data=melodi.year))
För att testa modellen görs slutligen en prediktion för år 2005: den genomsnittliga ordlängden blir enligt modellen 3.84 tecken per ord.
# prediktion för år 2005
> round(predict(lm(aver_letters_per_words~c(year-1960), data=melodi.year),data.frame(year=2005)),2)
[1] 3.84
Det korrekta medelvärdet är 4.07, och med skillnaden på 4.07 - 3.84 = 0.23 är det lite väl mycket fel för att modellen ska accepteras som en god approximation (vilket vi nog visste ändå).
Slutord
Det finns mängder av annan analys man skulle kunna göra:
* hur är orden fördelade över åren? T.ex. är titelordet "en" vanligare nu än på 60-talet? Kom sångtitlar med "sång" bättre än på 90-talet än på 80-talet?
* man kan även ta med aristens kön i kombination med ord, t.ex. har titelordet "kärlek" sjungen av en man (eller flera män) bättre placering är då den besjunges av en kvinna (eller flera kvinnor) eller av en blandad grupp (man/män + kvinna/kvinnor)?
* påverkar låttitlarnas (och framförallt vinnarens) språkliga sammansättning nästa års låttitlar? Det skulle här vara möjligt att göra tidsserieanalyser. En mycket preliminär analys visar att det möjligen finns ett sådant samband (autokorrelation), och det förvånande är att påverkan verkar vara något större två år senare än det omedelbart efterföljande året.
En bild där punkterna sammanbundna med linjer visar möjliga ansatser kring tidsserieanalyser, t.ex. att studera de där dipparna i slutet av 1960-, 1980- samt 1990-talet vilka omedelbart föregicks av ett rätt högt medelvärde.
* finns det motsvarande samband/icke-samband mellan t.ex. filmtitlarna och hur bra det gått för filmerna.
Ja, det finns mycket att analysera. Men troligen visar sådana analyser inte speciellt mycket mer samband än de föreliggande analyserna mer än möjligen en allmän förändring av språkbruket över åren.
Melodifestivalerna är ju trots allt inte en tävling i låttitlarnas språkligheter utan i mycket annat, t.ex. artist, dennes/deras utstrålning, kläder (eller avsaknaden av dem); möjligen är musiken och själva texten också avgörande för hur bra en låt blir placerad.
Posted by hakank at mars 12, 2005 11:47 FM Posted to Statistik/data-analys
Comments
Ojojoj, vilken analys! Jag blir nästan mållös :)
Vad gäller utvecklingen genom åren skulle jag nästan våga mig på en ovetenskaplig gissning att "vals i april" speglar 60-talet medan din underbara "stjärna över änglar" är mer 2005.
Posted by: Håkan (hakke) at mars 12, 2005 01:24 EM
Fan vad galet bra.
Posted by: Johnny at mars 12, 2005 01:56 EM
Enligt Expressen mer ovetenskapliga(?) analys på 'r det startnummret i tävlingen som avgör:
http://expressen.se/expressen/jsp/polopoly.jsp?a=253901
De skriver i alla fall (något kryptiskt) att:
"De låtar han [Christer B?] helst vill ska gå vidare har alltid start nummer ett, eller åtta. De har statistiskt störst chans att gå vidare. Och de gör det också, det har dom gjort de senaste fyra åren."
Kan du inte analysera det också, snälla ;-)
Posted by: Clas at mars 12, 2005 02:06 EM
Clas, det där är ett gammalt välkänt samband inom beteendevetenskapen. Det kallas ibland för "badkarseffekten" eftersom en kurva över vilka saker vi minns bäst ser ut som ett badkar. De första och sista får högre värden och de i mitten får lägre.
Jag har faktiskt själv också kommenterat detta i samband med årets melodifestival. Det slår mig nu att jag bl.a. fällde en komentar om detta i lördags när jag var hemma hos en kompis vars fru är journalist på Expressen. Hmmm...
Posted by: Håkan (hakke) at mars 12, 2005 03:53 EM
Strålande! Jag är riktigt imponerad. Får nog nästan kolla på melodifestivalen ikväll bara för det. :)
Ha det fint!
Posted by: wille at mars 12, 2005 04:14 EM
Tack för era uppmuntrande kommentarer.
Hakke: "Min" "stjärna över änglar" ska snarare ses som en del av mitt postmodernistiska/dekonstruktivistiska arv som nog är mer 90-tal än 2005.
Clas: Jag skulle med glädje göra din föreslagna analys, men har inte tillräckligt mycket data om startnumren för att göra en sådan.
Hakke: Badkarsteorin är en intressant teori. Frågan är hur väl den stämmer här. De flesta tävlingar har ju 10 bidrag, varför är inte 10 och 9 bättre placerade än 8 i så fall (det är ett lustigt badkar)? Lyssnar inte de flesta röstarna numera på låtarna flera gånger innan de röstar, t.ex. via webben?
Expressenartikeln känns lite väl mycket som tal-magi vilket jag i och för sig är fascinerad av, men inte tror det minsta på. Det skulle som sagt vara intressant att göra en mer fullständig analys av data än endast de senaste 4 åren.
För övrigt kommer jag inte se denna melodifestival i år heller.
Posted by: hakank at mars 12, 2005 07:39 EM
Håkan: Jag hade nästan blivit besviken om du hade sagt att du skulle se finalen. Vi behöver några objektiva analytiker som för tillbaks diskussionen till en strikt vetenskaplig nivå! (För din information kan jag meddela att rätt låt faktiskt vann den här gången ;)
När det gäller badkarseffekten så utgick siffrorna från de fyra deltävlingarna, som var begränsade till 8 bidrag vardera. Annars kan jag hålla med om att teorin hade varit mer av en badanka.
Posted by: Håkan (hakke) at mars 13, 2005 11:06 FM
Håkan (hakke): Tack för klargörandet om badkaret. Nu förstår jag. Jag står korrigerad.
Vad gäller seendet av MF så kanske jag bör säga att jag en gång i tiden var en idog tittare på den, i alla fall då jag själv spelade musik (iofs inte riktigt samma typ av musik) och/eller kände någon som var med i programmet, t.ex. i någon doakör (*).
Däremot ser jag gärna den europeiska finalen i ESC, bl.a. eftersom Turkiet ofta brukar ha skoj och svängiga låtar. Emellanåt sitter jag kvar till omröstningen, men det blir mer och mer sällan.
Har nu kollat in gårdagens finalbidragen, och kommenterar här endast de musikaliska aspekterna, för trots allt är det ju det som är avsikten (det heter ju inte Låttitel-festivalen, Kläd-festivalen eller Djupa urringningar-festivalen). Inte heller har texten lyssnats eller funderats på. Och låt mig klargöra att det är min egen musiksmak jag utgår ifrån, inte vad jag tror att andra tror att andra tror ska slå i en storfinal. (Det skulle iofs vara intressant att studera MF-omröstningarna utifrån ett spelteoretiskt perpektiv där tror-vad-andra-tror-att-andra-tror-analyser är legio.)
Las Vegas: En blandning av någon rocklåt som jag glömt namnet på och refrängen som är lite väl mycket Fame-pastisch. Fräckt blåsarrangemang i alla fall. Bäst hittills, och det beror mycket på arrangemanget.
Alla flickor: Har väldigt svårt för denna typ av MF-rock-gung, speciellt där virvelkaggen mixas upp så mycket.
Ödet var min väg: Sorry, inte min musik det heller, det svänger helt enkelt inte på mitt sätt. Kanske lyssnandet av texten skulle göra den bättre.
Att älska dig: Lite som "Alla flickor", men den här har värre diskodunk. Jag väntade på att sticket kanske skulle vara skoj, men det var det inte. (Not: Disko-dunk kan vara mycket bra och medryckande.)
Higher Ground: Tyvärr, Sanne. Du är en gammal favorit, men gick inte in i mitt hjärta denna gång av ungefär samma skäl som för "Att älska dig".
A Different Kind of Love: Ah, en underbar, svängig och slick bossa-låt. Definitivt bäst hittills. Skulle den varit med i den franska uttagningen skulle den misshandlas till oigenkännlighet och till tråkighet, men tack och lov är det här den svenska.
Alcastar: Är det inte ungefär samma låt som de haft med tidigare omgångar? Jag tyckte i och för sig att deras "Not a sinner nor a Saint" var bra (främst eftersom den påminde om en gammal favorit), men denna har inte något speciellt som rör mig.
Vi kan gunga: Nope. Tyckte iofs att basens små reggae-liknade saker i sticket (eller var det nu var) gjorde det lite skoj, men överlagt trist.
Du och jag mot världen: Lite bättre än många, men med standard-melodifestivalkomp och vagt Abba-arrangemang. En abstrakt upprymd och förutsägbar trallvänlig låt, men som inte sitter länge i minnet. Kanske man skulle minnas den bättre om man satt i badkaret?
Håll om dig: Väntade hela låten på att refrängen skulle komma, vilket nog berodde på det där trum-kompet. Kul specialeffekt i alla fall, dvs det där squeeze-ljudet.
Summering: Ingen som helst tvekan: A different kind of love var definitivt min favorit.
Ledsen Håkan, men du har fel i att rätt låt vann. Är jag fortfarande objektiv enligt ditt förmenande? :-)
(*) Märkligt, när jag ser ordet "doakör" i texten läser jag det som do-aktör (med ett inskjutet "t") i stället för doa-kör, vad nu det kan betyda...
Posted by: Håkan Kjellerstrand at mars 13, 2005 12:36 EM
Håkan, har du någon fritid eller direkt socialt liv? Ursäkta min fråga, misstolka den inte som något elakt, jag ber dig, men det här var det knepigaste jag sett på väldigt länge. Vad driver dig till dessa konstiga inlägg i bloggvärlden?
Posted by: Daniel Olovsson at mars 13, 2005 09:18 EM
Daniel: Tar det inte som en elakhet heller. Visst har jag en fritid och ett socialt liv. Vad gäller det förstnämnda: varför tror du annars att det tog nästan en hel vecka från idé till genomförande. :-)
Vad som driver: nyfikenhet, t.ex. nyfikenhet på om det finns samband mellan olika saker kombinerat med sådant som att att testa olika programidéer/-tekniker etc.
Posted by: hakank at mars 13, 2005 10:13 EM
Håkan: Jag bugar och bockar även inför denna andra analys! Tyvär tror jag att Caroline Wennergren som själng din favoritlåt var lite förkyld eller liknande i själva finalen. Det blev liksom lite blekt, men jag håller med om att låten är alla tiders!
Jag satt också och funderade på vilken eller vilka låtar som vinnarlåten påminde om. Han sjöng ju lite som Tom Jones i vissa partier (jo, jag är svag för gamle Tom) men låten påminde nog mer om ett ledmotiv till någon Bond-film (kommer dock inte på vilken). Och själva början, innan sången kom igång, lät ju lite "Hit the road Jack".
Ska jag tolka de initierade kommentarerna som att du är gammal trummis?
Posted by: Håkan (hakke) at mars 18, 2005 12:10 FM
Håkan (hakke): Tack själv.
"Hit the road, Jack". Javisst, ja. Det var det ju.
Vad gäller din gissning om musikbakgrund: Nästan, jag är en gammal bassist, känslig för trumkomp i svenska slag- och andra dängor.
Posted by: hakank at mars 18, 2005 12:29 FM