13.07.2015 Views

Zásady spracovania slovníka kolokácií slovenského jazyka - vronk.net

Zásady spracovania slovníka kolokácií slovenského jazyka - vronk.net

Zásady spracovania slovníka kolokácií slovenského jazyka - vronk.net

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

p(x,y)l(x,y) = log 2 --------------p(x) . P(y)P(x) = pravdepodobnosť javu xP(y) = pravdepodobnosť javu yP(x,Y) = pravdepodobnosť, že javy x a y nastanú súčasnePravdpodobnosť výskytu slova• P(x) = pravdepodobnosť výskytu hľadaného slova x– P(x) = f(x) : N (= veľkosť korpusu, počet slov)– P(y) = f(y) : N– P(x,y) = f(x,y) : N• Po dosadení a úprave:N . f(x,y)– MI(x,y) = log 2 --------------f(x) . f(y)Negtívna vlastnosť MI-score: je veľmi ovplyvňované frekvenciou jednotlivých slov. Najvyššiehodnoty totiž dosahujú dvojice slov s nízkou frekvenciou.Preto možno nastaviť pre MI-score dolnú hranicu frekvencie a pre slová s absolútnou frekvencioupod touto hranicou sa MI-score nepočíta.T-score – miera kontrastu• Vychádza zo štatistickej motódy testovania pomocou tzv. t-testu• Pri kolokácii sa skúma, či zistené počty výskytov jednotlivých slov a ich dvojíczodpovedajú náhodnému rozloženiu slov v korpuse.• Čím vyššie je hodnota t-score, tým menej je pravdepodobné, že ide o náhodné rozloženieslov a je viac pravdepodobné, že ide o pevnejšie, ustálenejšie kombinácie slov, t. j. okolokácieVzorec pre výpočet rozloženia slov v korpuse – t-scoreT =f(x) . f(y)(f(x,y) – −−−−−−−)N−−−−−−−−−−−−−−−−√ f(x,y)Zadávanie štatistických výpočtovZisťované hodnoty:• Absolútna frekvencia• Relatívna frekvencia• Mi-score• T-scoreVoľba:24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!