« Ultimate Research Assistant (Web Edition) | Main | Några länkar om dataanalys, data mining etc 20070211 »

februari 04, 2007

Experimentellt tillägg i "Visa ordklasser": endast suffixgissning

En mailfråga som gäller något relaterat gjorde att programmet Visa ordklasser (presenterades i Svenska ordklasser samt gissning med hjälp av ordsuffix) nu har utökats med den experimentella funktionen Använd endast suffix för klassifikation, som försöker att klassificera ordklass helt utifrån ordens suffix, utifrån den lista som finns i suffixes1-4.txt.

Utan att ha gjort någon större undersökning kring funktionen kan berättas att det inte blir speciellt bra.

Frasen Sjön har sina källor ganska långt upp i norr och där är ett härligt land för en sjö testades. (För vidare bakgrund till frasen, se här.)

I standardläge (dvs klassifikationen görs endast med uppslag i ordlista) blir det följande resultat:

sjön<substantiv:bestämd form singularis> har<verb:presens> sina<pronomen|verb:infinitiv|verb:imperativ> källor<substantiv:obestämd form pluralis> ganska<adverb> långt<adjektiv:positiv neutrum|adverb> upp<adverb> i<preposition|adverb> norr<adverb> och<konjunktion> där<adverb> är<verb:presens> ett<räkneord> härligt<adjektiv:positiv neutrum> land<substantiv:obestämd form singularis|substantiv:obestämd form singularis|substantiv:obestämd form pluralis> för<verb:presens|verb:imperativ|substantiv:obestämd form singularis|preposition|konjunktion|adverb> en<räkneord|substantiv:obestämd form singularis|pronomen> sjö<substantiv:obestämd form singularis>


Med Använd endast suffix för klassifikation blir resultatet följande något nedslående. Alla möjliga varianter visas, sorterade efter antal förekomster i den ordlista som utgåtts ifrån. T.ex. klarar denna variant inte av att klassificera "sina". Ett framtida projekt vore att utöka antal tecken i suffixen. Samt naturligtvis även att göra en mer vetenskapsliknande undersökning hur bra denna metod är.


sjön<OKÄNT|n substantiv:bestämd form singularis(15411)|n substantiv:bestämd form pluralis(2767)|n substantiv:obestämd form singularis(1418)> har<OKÄNT|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)|ar verb:presens(4446)|ar substantiv:obestämd form pluralis(4394)|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> sina<OKÄNT|na substantiv:bestämd form pluralis(13741)|a substantiv:bestämd form pluralis(13743)|a adjektiv:bestämd form(10374)|a adjektiv:pluralis(10335)|a verb:infinitiv(5005)|a verb:imperativ(4170)|a substantiv:obestämd form singularis(1648)> källor<OKÄNT|or substantiv:obestämd form pluralis(1641)|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> ganska<OKÄNT|ska adjektiv:bestämd form(2659)|ska adjektiv:pluralis(2659)|ka adjektiv:bestämd form(2751)|ka adjektiv:pluralis(2750)|a substantiv:bestämd form pluralis(13743)|a adjektiv:bestämd form(10374)|a adjektiv:pluralis(10335)|a verb:infinitiv(5005)|a verb:imperativ(4170)|a substantiv:obestämd form singularis(1648)> långt<OKÄNT|gt adjektiv:positiv neutrum(4337)|t adjektiv:positiv neutrum(10844)|t verb:supinum(5374)|t substantiv:bestämd form singularis(4404)|t substantiv:obestämd form singularis(2686)|t verb:perfekt particip, neutrum(1684)> upp<OKÄNT> i<OKÄNT> norr<OKÄNT|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> och<OKÄNT> där<OKÄNT|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> är<OKÄNT|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> ett<OKÄNT|t adjektiv:positiv neutrum(10844)|t verb:supinum(5374)|t substantiv:bestämd form singularis(4404)|t substantiv:obestämd form singularis(2686)|t verb:perfekt particip, neutrum(1684)|t adjektiv:positiv neutrum(10844)|t verb:supinum(5374)|t substantiv:bestämd form singularis(4404)|t substantiv:obestämd form singularis(2686)|t verb:perfekt particip, neutrum(1684)> härligt<OKÄNT|ligt adjektiv:positiv neutrum(1429)|igt adjektiv:positiv neutrum(4258)|gt adjektiv:positiv neutrum(4337)|t adjektiv:positiv neutrum(10844)|t verb:supinum(5374)|t substantiv:bestämd form singularis(4404)|t substantiv:obestämd form singularis(2686)|t verb:perfekt particip, neutrum(1684)> land<OKÄNT|d verb:perfekt particip, utrum(1400)> för<OKÄNT|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)|r substantiv:obestämd form pluralis(12206)|r verb:presens(5417)|r substantiv:obestämd form singularis(1339)> en<OKÄNT|en substantiv:bestämd form singularis(12046)|en substantiv:bestämd form pluralis(2764)|n substantiv:bestämd form singularis(15411)|n substantiv:bestämd form pluralis(2767)|n substantiv:obestämd form singularis(1418)|en substantiv:bestämd form singularis(12046)|en substantiv:bestämd form pluralis(2764)|n substantiv:bestämd form singularis(15411)|n substantiv:bestämd form pluralis(2767)|n substantiv:obestämd form singularis(1418)> sjö<OKÄNT>


Posted by hakank at februari 4, 2007 06:52 EM Posted to Språk

Comments

Är sorteringen verkligen efter antal förekomster? Siffrorna inom parentes verkar antyda något lite annorlunda.

Posted by: Filip Salomonsson at februari 4, 2007 08:34 EM

Filip: De var meningen att de skulle vara det, men det är de inte. Tack för påpekandet.

Posted by: Håkan Kjellerstrand at februari 4, 2007 08:47 EM

Filip: Det var meningen att de skulle vara det, och är det nu också. Fortfarande tack för påpekandet. :)

Posted by: Håkan Kjellerstrand at februari 4, 2007 09:40 EM