Záverečná správa - Slovenský národný korpus - SAV

Záverečná správa - Slovenský národný korpus - SAV Záverečná správa - Slovenský národný korpus - SAV

korpus.juls.savba.sk
from korpus.juls.savba.sk More from this publisher
18.07.2013 Views

Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu Počet poskytovateľov 450 400 350 300 250 200 150 100 50 0 Poskytovatelia textov (2003 - 2006) 2003 2004 2005 2006 2003 2004 2005 2006 Celkoví 0 62 185 335 Unikátni 62 123 150 100 Spolu 62 185 335 435 3.2.2. Verzie a podkorpusy Slovenského národného korpusu Celkoví Unikátni Grafické znázornenie veľkosti a štýlovej distribúcie korpusu podľa jednotlivých rokov. Počet tokenov 350 000 000 300 000 000 250 000 000 200 000 000 150 000 000 100 000 000 50 000 000 0 prim0.1 prim0.2 prim1.0 prim-2.0 prim-2.1 prim-3.0 Počet tokenov 30 000 000 170 000 000 182 000 000 250 000 000 300 000 000 350 000 000 Verzie 8

Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu 11,6 17,5 10,3 prim1.0 (%) 3,5 1,5 95 prim-2.1 (%) Hlavný korpus je primárny, základný korpus (prim) obsahujúci všetky zmluvne získané a spracované písané texty od roku 1955 do súčasnosti. Verzia hlavného korpusu je nové „vydanie“ celého korpusu. Slovenský národný korpus sa sprístupňoval v novej verzii vždy po relevantnom prírastku textov a zmene alebo skvalitnení anotácie. Nová verzia obsahuje aj texty z predchádzajúcej verzie: 60,6 inf pfr img inf prf img iné prim-2.0 (%) prim0.1 → sprístupnený v auguste 2003, 30 mil. tokenov prim0.2 → sprístupnený koncom r. 2003, 170 mil. tokenov prim1 → sprístupnený v r. 2004, 182 mil. tokenov štýlovo extrémne nevyvážený (95 % inf : 3,5 % img : 1,5 % prf) lematizovaný, automatizovane morfologicky anotovaný pomocou českého softvéru a na základe českého tagsetu prim-2.0 → sprístupnený v r. 2005, 250 mil. tokenov štýlovo vyváženejší (73 % inf : 13 % img : 4 % prf : 10 % iné) lematizovaný, automatizovane morfologicky anotovaný pomocou českého softvéru a na základe českého tagsetu prim-2.1 → sprístupnený začiatkom r. 2006, 300 mil. tokenov štýlovo opäť vyváženejší (60,6 % inf : 17,5 % img : 11,6 % prf : 10,3 % iné) lematizovaný, automatizovane morfologicky anotovaný pomocou nemeckého softvéru na základe slovenského tagsetu prim-3.0 → sprístupnený začiatkom r. 2007, 350 mil. tokenov štýlovo opäť vyváženejší (56,74 % inf : 20,69 % img : 21,32 % prf : 1,25 % iné) 13 20,7 4 10 21,3 prim-3.0 (%) 1,3 73 56,7 inf prf img iné inf prf img iné 9

Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu<br />

11,6<br />

17,5<br />

10,3<br />

prim1.0 (%)<br />

3,5 1,5<br />

95<br />

prim-2.1 (%)<br />

Hlavný <strong>korpus</strong> je primárny, základný <strong>korpus</strong> (prim) obsahujúci všetky zmluvne získané<br />

a spracované písané texty od roku 1955 do súčasnosti. Verzia hlavného <strong>korpus</strong>u je nové<br />

„vydanie“ celého <strong>korpus</strong>u. <strong>Slovenský</strong> <strong>národný</strong> <strong>korpus</strong> sa sprístupňoval v novej verzii vždy po<br />

relevantnom prírastku textov a zmene alebo skvalitnení anotácie. Nová verzia obsahuje aj texty<br />

z predchádzajúcej verzie:<br />

60,6<br />

inf<br />

pfr<br />

img<br />

inf<br />

prf<br />

img<br />

iné<br />

prim-2.0 (%)<br />

prim0.1 → sprístupnený v auguste 2003, 30 mil. tokenov<br />

prim0.2 → sprístupnený koncom r. 2003, 170 mil. tokenov<br />

prim1 → sprístupnený v r. 2004, 182 mil. tokenov<br />

štýlovo extrémne nevyvážený (95 % inf : 3,5 % img : 1,5 % prf)<br />

lematizovaný, automatizovane morfologicky anotovaný pomocou<br />

českého softvéru a na základe českého tagsetu<br />

prim-2.0 → sprístupnený v r. 2005, 250 mil. tokenov<br />

štýlovo vyváženejší (73 % inf : 13 % img : 4 % prf : 10 % iné)<br />

lematizovaný, automatizovane morfologicky anotovaný pomocou<br />

českého softvéru a na základe českého tagsetu<br />

prim-2.1 → sprístupnený začiatkom r. 2006, 300 mil. tokenov<br />

štýlovo opäť vyváženejší (60,6 % inf : 17,5 % img : 11,6 % prf : 10,3 %<br />

iné)<br />

lematizovaný, automatizovane morfologicky anotovaný pomocou<br />

nemeckého softvéru na základe slovenského tagsetu<br />

prim-3.0 → sprístupnený začiatkom r. 2007, 350 mil. tokenov<br />

štýlovo opäť vyváženejší (56,74 % inf : 20,69 % img : 21,32 % prf : 1,25<br />

% iné)<br />

13<br />

20,7<br />

4 10<br />

21,3<br />

prim-3.0 (%)<br />

1,3<br />

73<br />

56,7<br />

inf<br />

prf<br />

img<br />

iné<br />

inf<br />

prf<br />

img<br />

iné<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!