[dexonline] Canonicalizare Lexeme in DEXOnline

Catalin Francu cata at francu.com
Thu Nov 17 11:31:25 EET 2011


>
> Ok. Totusi, daca imi aduc bine aminte, exista o tabela in baza de date a
> DEXOnline care contine transformari pentru clase de substantive. Nu mai tin
> minte daca erau doar reguli de formare ale pluralului sau cuprindeau si
> alte inflexiuni. Pareau sa arate ca niste reguli de rescriere ale unei
> gramatici (de data aceasta, in sensul formal :D).
>
> Cel mai probabil vom avea nevoie si de o asemenea componenta in proiectul
> nostru, iar daca nu se descurcam in alt mod, vom folosi direct baza de date
> de forme cu inflexiuni.
>

Da, există, dar este doar generator. Principiul folosit de Federația Română
de Scrabble, de la care am preluat și noi sistemul, a fost:

- Au identificat toate clasele de echivalență ale limbii române (deci au
grupat toate lexemele care se declină la fel, să zicem: stradă cu bardă cu
pradă și cu ladă, mânz cu praz și cu obraz etc.)
- Au ales un exponent pentru fiecare clasă căruia i-au scris explicit, de
mână, paradigma ( = totalitatea flexiunilor)
- Pe baza exponentului, a paradigmei lui și a altui lexem din aceeași
clasă, puteau calcula manual paradigma acelui lexem.

Noi am intervenit la pasul trei: pentru fiecare exponent și pentru fiecare
flexiune indicată explicit, am dedus un set de transformări pe care le-am
stocat. Apoi am aplicat transformările fiecărui lexem din aceeași clasă,
obținând lista completă de flexiuni a limbii române.

- Pasul patru este de mentenanță: când adăugăm un cuvânt nou, colaboratorii
noștri de la F.R.Sc. îl etichetează cu modelul de flexiune potrivit (adică
îi indică clasa de echivalență). Sistemul îi generează automat paradigma.

Acestea fiind zise, uitați-vă pe fișierul docs/schema.txt, care explică în
mare cum merg lucrurile:

http://wiki.dexonline.ro/browser/docs/schema.txt

Vă trebuie tabelele: Lexem, Inflection, InflectedForm, ModelType, Model
(clasa PHP corespondentă este FlexModel), Transform, ModelDescription,
ParticipleModel. Cred că cel mai elocventă este interogarea MySQL de la
liniile 217-225, care vă arată exact cum interacționează tabelele pentru a
genera paradigma cuvântului „carte”.

Cătălin
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.rosedu.org/pipermail/dexonline/attachments/20111117/d8bcf6d8/attachment-0001.html>


More information about the dexonline mailing list