Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
În cadrul dezvoltării acestei metode de sinteză s-au realizat:<br />
273<br />
Cap. 8. Concluzii finale<br />
1) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />
preprocesarea textului. Analizorul conţine reguli pentru transcrierea fonetică a numerelor şi<br />
abrevierilor comune din limba română.<br />
2) Dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba<br />
română şi a unui set de reguli pentru flexionarea cuvintelor din limba română. Analizorul<br />
automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce conţine peste 30000<br />
de forme neflexionate ale limbii române şi pe un set de 550 de reguli de flexionare, set de reguli<br />
proiectat de autor. Analizorul a fost testat pe o serie de texte de diferite genuri în limba română<br />
însumând peste 200000 de cuvinte. Testele au dovedit o corectitudine de peste 98% în<br />
recunoaşterea sintaxei.<br />
3) Proiectarea şi implementarea unui analizor sintactic pentru extragerea propoziţiilor şi a<br />
cuvintelor. Analizorul sintactic foloseşte un set de reguli care specifică structura sintactică a<br />
textului de la intrare. Textul iniţial este considerat ca o listă de propoziţii, fiecare propoziţie fiind<br />
o listă de cuvinte, fiecare cuvânt fiind compus din mai multe silabe. Propoziţiile, respectiv<br />
cuvintele sunt extrase din text pe baza semnelor de punctuaţie şi separatorilor.<br />
4) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />
despărţirea în silabe a cuvintelor din limba română. Analizorul lexical cuprinde un set de peste<br />
180 de reguli pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98%<br />
cuvinte despărţite corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite<br />
genuri (literatură, economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai<br />
bună decât cea găsită la alţi cercetători români care au folosit reguli lexicale.<br />
5) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru<br />
determinarea accentuaţiei din cadrul cuvintelor. Analizorul lexical cuprinde un set de 250 de<br />
reguli pentru detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de<br />
detectare corectă a accentelor de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în<br />
cazul despărţirii în silabe.<br />
6) Elaborarea unei statistici a silabelor limbii române pentru determinarea frecvenţelor de<br />
apariţie ale silabelor din limba română. Statistica a fost realizată folosind texte extrase din<br />
domenii precum: beletristică de diverse genuri, religie, economie, politică, ştiinţă şi tehnică,<br />
ziaristică. Textele au însumat un număr de aproximativ 342000 de cuvinte, adică peste 600 de<br />
pagini în format A4. Statistica prezintă următoarele rezultate:<br />
- configuraţia procentuală a categoriilor silabice S2, S3 şi S4 (S2 reprezintă categoria<br />
silabelor alcătuite din două foneme, S3 categoria silabelor tri-fonematice, S4 categoria silabelor<br />
tetra-fonematice) ;<br />
- frecvenţa de apariţie a categoriilor silabice S2, S3 şi S4;<br />
- frecvenţele de apariţie ale silabelor din fiecare categorie.<br />
7) Proiectarea structurii bazei de date acustice de silabe, în care unităţile acustice sunt<br />
integrate în diferite contexte segmentale şi accentuări.<br />
Structura ierarhică a bazei de date cuprinde patru nivele, şi anume: