« Läsning av förvanskade ord | Main | Förvanskade ord - liten empirisk undersökning »

september 17, 2003

Skapa stavfel

Efter publicerandet av programmet Reading scrambled text häromdagen har jag fått lite reaktioner, tips och önskemål. Se min blogganteckning Läsning av förvanskade ord. (Den rapporterade buggen torde vara fixad, meddela mig annars.)

Detta program gjordes för att kolla in vilka parametrar (antal fasta tecken i början respektive slutet av ordet) som krävdes för att skapa en text som var "tillräckligt förståbar" (vad nu detta innebär).

En av de saker jag själv funderade på, och som bland annat Mats Andersson har (privat) funderat kring, är ett program som skapar mer realistiska stavfel.

Jag har inte sett något sådant program, så därför totade jag ihop ett nu i morse: Generate spelling errors.

Programmet använder tre olika operatorer för att förvanska ett ord:

Dessa operatorer är f.ö. i princip samma som man t.ex. använder i (Levenshteins) edit distance för att kontrollera eller söka efter snarlika ord, t.ex. just felstavningar.

Några finesser i programmet är att man kan justera sannolikheterna för dessa olika operatorer och sannolikheten att ett ord överhuvudtaget ska ändras samt hur många förändringar man ska göra per ord (om det nu ska förändras).

Jag funderade också på att även lägga in operatorn från förra programmet, men - för tillfället i alla fall - har jag lagt detta på is.

Den exakta nyttan med programmet är väl inte helt klart. En av tillämpningarna kan vara att se hur mycket vi förstår av en text efter olika typer av förvanskningar. Tyvärr kan nog spammare ha nytta av en sådan funktionalitet, vilket innebär att även spamdetektorprogramutvecklare har nytta av att skapa sådana texter.

En annan tillämpning: Om man vet man vet att det finns (slumpmässigt genererade) stavfel i en text blir man tvungen att läsa igenom texten extra noga, vilket ju är bra.


Kommentera gärna, antingen privat eller via kommentarsfunktionen.


Uppdatering
Jag hittade precis papret Detection of spelling errors in Swedish not using a word list en clair av Rickard Domeij, Joachim Hollman och Viggo Kann. Där står det (sidan 5)

Many studies ... show that four common mistakes cause 80 to 90 percent of all typing errors:



Jag har nu även implementerat den fjärde, dvs att byta ut en slumpmässig bokstav i ordet mot en annan helt slumpmässig bokstav. Detta är kanske inte helt realistiskt eftersom sådana stavfel väl tenderar att innefatta näraliggande tangenter.

(Kolla även vad de tre författarna gjort i övrigt. Mycket intressanta saker är det.)

Posted by hakank at september 17, 2003 11:31 FM Posted to Program

Comments

Efter att ha testat lite själv tycker jag att det blir märkbart svårare när de fria bokstäverna sorteras alfabetiskt. Här är ett exempel på en känd text:

---

Egilnt en udeiknnnrsög på ett eegklnst ueeiinrstvt så saelpr det iegnn rlol i veikln odinnrg beknrostväa i ett ord står i, det edna som är vgiiktt är att frstöa och sista baekostvn står på rtät palts. Reestn kan stå hellur om bellur och man kan ädnå lsäa teetxn uatn pbelorm.

Detta beorr på att vi inte lesär vajre bakostv för sig, uatn odern som heehlt.

---

Nu vet alla vad den betyder, men jag är inte så säker på att den skulle uppfattas som så lättläst om det vore en okänd text. Orden "ueeiinrstvt" och "udeiknnnrsög" är inte så enkla att läsa. "Utan problem", som det står i en av de cirkulerade texterna, tycker jag är en sanning med modifikation.

Naturliga skriv- och stavfel är en helt annan sak. De spelar i stort sett ingen roll alls för läsbarheten.

Vänliga hälsningar

Niklas

Posted by: Niklas Johansson at september 17, 2003 12:22 EM

Niklas, jag antar du pratar om programmet "Reading Scrambled Words" och inte "Generate spelling errors".

Jag är benägen att hålla med dig att det blir svårare att läsa när man sorterar de icke-fixa bokstäverna.

Några tankar utan egentlig vetenskaplig grund:

Min första reflexion var att svårigheten kanske beror på att hjärnan blir förvirrad av eventuella dubbla/trippla konsonanter/vokaler som skapas vid en sortering.

En möjlig teori:
När förvanskningen är slumpmässigt (dvs huller om buller) finns det större chans att två bokstäver som finns nära i originalordet även kommer nära varandra i det förvanskade ordet (måhända transponerade), men det är mindre chans att sådant sker vid en sortering. Jag har dock inget som helst empiriskt stöd för detta.

Eventuellt skulle hjärnan kunna uppfatta själva ordningen av bokstäver som en "gestalt" som förvirrar. Jag är dock lite tveksam till detta...


I programmet (Reading scrambled words) finns nu även en möjlighet att sortera de icke-fixa bokstäverna. http://www.hakank.org/reading_scrambled_words/r_words.cgi

Posted by: Håkan Kjellerstrand at september 17, 2003 02:50 EM

Jag testade lite för hand innan jag skrev min kommentar, men Reading scrambled words ligger närmast till hands av de två programmen.

Du har nog rätt i att flera likadana bokstäver bredvid varandra rör till det för hjärnan. Likheten med verkliga ord minskar dramatiskt.

Kul att du lade till sorteringsfunktionen!

Vänliga hälsningar

Niklas

Posted by: Niklas Johansson at september 18, 2003 12:15 EM

Posted by: Mats Andersson at september 18, 2003 05:10 EM

Tack Mats!

Får läsa papret vid tillfälle. Jag har nu uppdaterat den tråd där jag först nämnde detta:
http://www.hakank.org/webblogg/archives/000190.html

Posted by: Håkan Kjellerstrand at september 18, 2003 05:48 EM