« Skapa stavfel | Main | Lunda-professuren i parapsykologi »

september 18, 2003

Förvanskade ord - liten empirisk undersökning

Lite mer om Läsning av förvanskade ord. Jag kunde alltså inte riktigt släppa det...


Niklas Johansson skriver i en kommentar till Skapa stavfel att han tycker sig förstå texten mindre om de icke-fixa bokstäverna är sorterade i stället för att vara slumpvis oordnade. Jag tycker han har en bra poäng.

Till viss del även inspirerad detta, samt av en kommentar från av mina vänner, har jag nu kollat in vilka ord (från de ordlistor jag har) som bildar samma sträng när man sorterar de icke-fixa bokstäverna i ordet. T.ex. för fixering av de två första och två sista bokstäverna blir orden upplivad och uppvilad samma sträng, nämligen upilpvad.


Här är en summering av hur många ord som har denna typ av likhet. Det länkas även till filerna för språk och respektive antal fixa bokstäver i början (X=0,1,2) och i slutet (Y=0,1,2). Notera att när X=Y=0 så är det frågan om (fullständiga) anagram.
Förklaring till innehållet i filerna: en rad innehåller först den gemensamma strängen, sedan de ord som bildar denna sträng.

Svenska
(cirka 115000 ord i ordlistan)
X=0, Y=0 (anagram): 7347 ord (c:a 6.3 %)
X=1, Y=1: 1000 ord (c:a 0.9 %)
X=2, Y=2. 230 ord (c:a 0.2 %)

Engelska
(cirka 45000 ord i ordlistan)
X=0, Y=0 (anagram): 5629 ord (c:a 12.4 %)
X=1, Y=1: 761 ord (c:a 1.7 %)
X=2, Y=2: 94 ord (c:a 0.2 %)

Jag vet inte riktigt vilken slutsats man kan dra av detta. Dock noterar jag att jag ibland var tvungen att läsa vissa ordpar flera gånger innan jag upptäckte den exakta skillnaden mellan de listade orden. Avsaknaden av språkligt sammanhang är möjligen signifikant. Testa gärna själv.

För övrigt skulle jag vilja kalla denna typ av ord med X,Y > 0 för *nagram*, i brist på något bättre.

Det är intressant att engelskan verkar ha något fler *nagram* än svenskan, men skillnaden kan beror på hur ordlistorna är uppbyggda och hur många ord det är i respektive lista. Medellängden för orden är cirka 8.1 för den engelska ordlistan och 10.1 för den svenska.


Egen-*nagram*
Det finns vissa ord som (redan) är sorterade med X=Y>0. Låt oss kalla dessa ord för egen-*nagram*. Några exempel på sådana ord (för X=Y=2): angostura, arabiska, dubbelmoral, grabbnäve.

Jag kollade antalet sådana ord för respektive språk och X=Y-värden.

Svenska
X=Y=0: 259 (0.23%), längsta ord: access, chintz etc
X=Y=1: 3351 (2.91%), längsta ord: badflotte
X=Y=2: 10809 (9.40), längsta ord: dubbelmoral, kvinnopräst, licenstvång etc)

Engelska
X=Y=0 : 323 (0.72%), längsta ord: effort, access etc
X=Y=1: 2876 (6.39), längsta ord: fillmore, bacillus
X=Y=2: 9043 (20.10), längsta ord: diagnostic

Det går säkert att hitta mycket längre sådana ord...


En aside:
För den som vill gissa korrekt ord efter en slumpartad permutation av samtliga bokstäver, kan leka med
Word build (endast 8-bokstavsord) respektive AnaGuess (svenska ord av olika längd).

Posted by hakank at september 18, 2003 11:37 EM Posted to Diverse

Comments

Öhh.. jag förstod inte det där med egen-*nagram* riktigt. Sorterade?

Posted by: jonas at september 19, 2003 05:43 EM

Ett ord är ett egen-*nagram* om de icke-fixa bokstäverna är ordnade alfabetiskt ("redan sorterade").

Exempel: För X=Y=2 är ordet 'angostura' ett egen-*nagram* eftersom delsträngen "gostu" är alfabetiskt ordnad, "an_gostu_ra".

När X=Y=0, och alltså hela ordet är ordnat alfabetiskt, är det ett 'egen-anagram', t.ex. 'chintz'.

F.ö. är egen-anagram samma typ av ord som bland annat diskuterats i ett av dina trevliga ord-problem. Se kommenterna till 'Söndagspussel':
http://kornet.nu/blindhona/arkiv/000487.html
där _både_ vokaler och konsonanter ska vara ordnade alfabetiskt.

Är det något klarare vad som avses?

Posted by: Håkan Kjellerstrand at september 19, 2003 06:23 EM

Aha! Javisst! Tackar!

Posted by: jonas at september 20, 2003 02:37 FM