15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

În cadrul dezvoltării acestei metode de sinteză s-au realizat:<br />

273<br />

Cap. 8. Concluzii finale<br />

1) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />

preprocesarea textului. Analizorul conţine reguli pentru transcrierea fonetică a numerelor şi<br />

abrevierilor comune din limba română.<br />

2) Dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba<br />

română şi a unui set de reguli pentru flexionarea cuvintelor din limba română. Analizorul<br />

automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce conţine peste 30000<br />

de forme neflexionate ale limbii române şi pe un set de 550 de reguli de flexionare, set de reguli<br />

proiectat de autor. Analizorul a fost testat pe o serie de texte de diferite genuri în limba română<br />

însumând peste 200000 de cuvinte. Testele au dovedit o corectitudine de peste 98% în<br />

recunoaşterea sintaxei.<br />

3) Proiectarea şi implementarea unui analizor sintactic pentru extragerea propoziţiilor şi a<br />

cuvintelor. Analizorul sintactic foloseşte un set de reguli care specifică structura sintactică a<br />

textului de la intrare. Textul iniţial este considerat ca o listă de propoziţii, fiecare propoziţie fiind<br />

o listă de cuvinte, fiecare cuvânt fiind compus din mai multe silabe. Propoziţiile, respectiv<br />

cuvintele sunt extrase din text pe baza semnelor de punctuaţie şi separatorilor.<br />

4) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />

despărţirea în silabe a cuvintelor din limba română. Analizorul lexical cuprinde un set de peste<br />

180 de reguli pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98%<br />

cuvinte despărţite corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite<br />

genuri (literatură, economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai<br />

bună decât cea găsită la alţi cercetători români care au folosit reguli lexicale.<br />

5) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />

determinarea accentuaţiei din cadrul cuvintelor. Analizorul lexical cuprinde un set de 250 de<br />

reguli pentru detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de<br />

detectare corectă a accentelor de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în<br />

cazul despărţirii în silabe.<br />

6) Elaborarea unei statistici a silabelor limbii române pentru determinarea frecvenţelor de<br />

apariţie ale silabelor din limba română. Statistica a fost realizată folosind texte extrase din<br />

domenii precum: beletristică de diverse genuri, religie, economie, politică, ştiinţă şi tehnică,<br />

ziaristică. Textele au însumat un număr de aproximativ 342000 de cuvinte, adică peste 600 de<br />

pagini în format A4. Statistica prezintă următoarele rezultate:<br />

- configuraţia procentuală a categoriilor silabice S2, S3 şi S4 (S2 reprezintă categoria<br />

silabelor alcătuite din două foneme, S3 categoria silabelor tri-fonematice, S4 categoria silabelor<br />

tetra-fonematice) ;<br />

- frecvenţa de apariţie a categoriilor silabice S2, S3 şi S4;<br />

- frecvenţele de apariţie ale silabelor din fiecare categorie.<br />

7) Proiectarea structurii bazei de date acustice de silabe, în care unităţile acustice sunt<br />

integrate în diferite contexte segmentale şi accentuări.<br />

Structura ierarhică a bazei de date cuprinde patru nivele, şi anume:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!