« Gruppteori: Konsten att fundera över hur många olika sätt man kan vända en madrass | Main | Ännu mer om Persi Diaconis »

augusti 21, 2005

ADIOS: System för att generera texter utifrån exempeltexter

Erik Starck skrev härförleden en kort notis Computers learn a new language om ADIOS, ett system som kunde skapa texter utifrån exempeltexter. Men han (och flera andra) länkade endast till New Scientist-notisen Computers learn a new language, som inte förklarar så mycket.

I Plus Magazine-artikeln Machine prose beskrivs däremot systemet mer:

Given a piece of text in any language, the program called ADIOS - automatic distillation of structure - searches for patterns and structures which it then generalises to produce new and meaningful sentences. The ADIOS algorithm is based on statistical and algebraic methods performed on one of the most basic and versatile objects of mathematics - the graph.
...


ADIOS-projektets sajt beskrivs systemet på följande sätt:


The ADIOS project addresses the problem, fundamental to linguistics, bioinformatics and certain other disciplines, of using corpora of raw symbolic sequential data to infer underlying rules that govern their production. Given a corpus of strings (such as text, transcribed speech, nucleotide base pairs, amino acid sequence data, musical notation, etc.), our unsupervised algorithm recursively distills from it hierarchically structured patterns. The ADIOS (Automatic DIstillation of Structure) algorithm relies on a statistical method for pattern extraction (The MEX algorithm) and on structured generalization, two processes that have been implicated in language acquisition. It has been evaluated on artificial context-free grammars with thousands of rules, on natural languages as diverse as English and Chinese, on coding regions in DNA sequences, and on protein data correlating sequence with function. This is the first time an unsupervised algorithm is shown capable of learning complex syntax, generating grammatical novel sentences, scoring well in standard language proficiency tests, and proving useful in other fields that call for structure discovery from raw data, such as bioinformatics.


Man kan även ladda ner en Lite-version (t.ex. en Linux-version som jag tyvärr inte fått att fungera). Mer akademisk litteratur finns här.

Det hänvisas även till en avhandling av Zach Solan. Det verkar vara den han beskriver som "The Syntax of Nature" - "The Nature of Syntax": a study of the hidden structures in human language and in other raw sequential data such as music, proteins, DNA and more..., vilket låter väldigt spännande men någon avhandling kan i alla fall inte jag se (han är väl inte klar ännu, stackarn).

Posted by hakank at augusti 21, 2005 10:48 FM Posted to Språk

Comments

Fantastiskt! Detta låter ju precis som något jag funderat på i flera år.

Posted by: Magnus Bodin at augusti 21, 2005 07:14 EM

Ja du Håkan, nu anar jag hur du kan vara så kreativ och produktiv, med ett sånt arkiv. Kan jag verkligen vara säker på att du skrivit det här inlägget själv? ;)

Posted by: Håkan (hakke) at augusti 30, 2005 11:24 EM

jag - är - ingen - maskin - utan - en - levande - varelse - jag - har - en - fri - vilja - detta - är - ingen - degenererad - text

Posted by: hakank [TypeKey Profile Page] at augusti 31, 2005 09:00 EM