Zásady spracovania slovnÃka kolokácià slovenského jazyka - vronk.net
Zásady spracovania slovnÃka kolokácià slovenského jazyka - vronk.net
Zásady spracovania slovnÃka kolokácià slovenského jazyka - vronk.net
- No tags were found...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
p(x,y)l(x,y) = log 2 --------------p(x) . P(y)P(x) = pravdepodobnosť javu xP(y) = pravdepodobnosť javu yP(x,Y) = pravdepodobnosť, že javy x a y nastanú súčasnePravdpodobnosť výskytu slova• P(x) = pravdepodobnosť výskytu hľadaného slova x– P(x) = f(x) : N (= veľkosť korpusu, počet slov)– P(y) = f(y) : N– P(x,y) = f(x,y) : N• Po dosadení a úprave:N . f(x,y)– MI(x,y) = log 2 --------------f(x) . f(y)Negtívna vlastnosť MI-score: je veľmi ovplyvňované frekvenciou jednotlivých slov. Najvyššiehodnoty totiž dosahujú dvojice slov s nízkou frekvenciou.Preto možno nastaviť pre MI-score dolnú hranicu frekvencie a pre slová s absolútnou frekvencioupod touto hranicou sa MI-score nepočíta.T-score – miera kontrastu• Vychádza zo štatistickej motódy testovania pomocou tzv. t-testu• Pri kolokácii sa skúma, či zistené počty výskytov jednotlivých slov a ich dvojíczodpovedajú náhodnému rozloženiu slov v korpuse.• Čím vyššie je hodnota t-score, tým menej je pravdepodobné, že ide o náhodné rozloženieslov a je viac pravdepodobné, že ide o pevnejšie, ustálenejšie kombinácie slov, t. j. okolokácieVzorec pre výpočet rozloženia slov v korpuse – t-scoreT =f(x) . f(y)(f(x,y) – −−−−−−−)N−−−−−−−−−−−−−−−−√ f(x,y)Zadávanie štatistických výpočtovZisťované hodnoty:• Absolútna frekvencia• Relatívna frekvencia• Mi-score• T-scoreVoľba:24