Záverečná správa - Slovenský národný korpus - SAV
Záverečná správa - Slovenský národný korpus - SAV Záverečná správa - Slovenský národný korpus - SAV
Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu Počet poskytovateľov 450 400 350 300 250 200 150 100 50 0 Poskytovatelia textov (2003 - 2006) 2003 2004 2005 2006 2003 2004 2005 2006 Celkoví 0 62 185 335 Unikátni 62 123 150 100 Spolu 62 185 335 435 3.2.2. Verzie a podkorpusy Slovenského národného korpusu Celkoví Unikátni Grafické znázornenie veľkosti a štýlovej distribúcie korpusu podľa jednotlivých rokov. Počet tokenov 350 000 000 300 000 000 250 000 000 200 000 000 150 000 000 100 000 000 50 000 000 0 prim0.1 prim0.2 prim1.0 prim-2.0 prim-2.1 prim-3.0 Počet tokenov 30 000 000 170 000 000 182 000 000 250 000 000 300 000 000 350 000 000 Verzie 8
Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu 11,6 17,5 10,3 prim1.0 (%) 3,5 1,5 95 prim-2.1 (%) Hlavný korpus je primárny, základný korpus (prim) obsahujúci všetky zmluvne získané a spracované písané texty od roku 1955 do súčasnosti. Verzia hlavného korpusu je nové „vydanie“ celého korpusu. Slovenský národný korpus sa sprístupňoval v novej verzii vždy po relevantnom prírastku textov a zmene alebo skvalitnení anotácie. Nová verzia obsahuje aj texty z predchádzajúcej verzie: 60,6 inf pfr img inf prf img iné prim-2.0 (%) prim0.1 → sprístupnený v auguste 2003, 30 mil. tokenov prim0.2 → sprístupnený koncom r. 2003, 170 mil. tokenov prim1 → sprístupnený v r. 2004, 182 mil. tokenov štýlovo extrémne nevyvážený (95 % inf : 3,5 % img : 1,5 % prf) lematizovaný, automatizovane morfologicky anotovaný pomocou českého softvéru a na základe českého tagsetu prim-2.0 → sprístupnený v r. 2005, 250 mil. tokenov štýlovo vyváženejší (73 % inf : 13 % img : 4 % prf : 10 % iné) lematizovaný, automatizovane morfologicky anotovaný pomocou českého softvéru a na základe českého tagsetu prim-2.1 → sprístupnený začiatkom r. 2006, 300 mil. tokenov štýlovo opäť vyváženejší (60,6 % inf : 17,5 % img : 11,6 % prf : 10,3 % iné) lematizovaný, automatizovane morfologicky anotovaný pomocou nemeckého softvéru na základe slovenského tagsetu prim-3.0 → sprístupnený začiatkom r. 2007, 350 mil. tokenov štýlovo opäť vyváženejší (56,74 % inf : 20,69 % img : 21,32 % prf : 1,25 % iné) 13 20,7 4 10 21,3 prim-3.0 (%) 1,3 73 56,7 inf prf img iné inf prf img iné 9
- Page 1 and 2: Komplexné spracovanie slovenského
- Page 3 and 4: Komplexné spracovanie slovenského
- Page 5 and 6: Komplexné spracovanie slovenského
- Page 7: Komplexné spracovanie slovenského
- Page 11 and 12: Komplexné spracovanie slovenského
- Page 13 and 14: Komplexné spracovanie slovenského
- Page 15 and 16: Komplexné spracovanie slovenského
- Page 17 and 18: Komplexné spracovanie slovenského
- Page 19 and 20: Komplexné spracovanie slovenského
- Page 21 and 22: Komplexné spracovanie slovenského
- Page 23 and 24: Komplexné spracovanie slovenského
- Page 25 and 26: Komplexné spracovanie slovenského
- Page 27 and 28: Komplexné spracovanie slovenského
- Page 29 and 30: Komplexné spracovanie slovenského
- Page 31 and 32: Komplexné spracovanie slovenského
- Page 33 and 34: Komplexné spracovanie slovenského
- Page 35 and 36: Komplexné spracovanie slovenského
- Page 37 and 38: Komplexné spracovanie slovenského
- Page 39: Komplexné spracovanie slovenského
Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu<br />
11,6<br />
17,5<br />
10,3<br />
prim1.0 (%)<br />
3,5 1,5<br />
95<br />
prim-2.1 (%)<br />
Hlavný <strong>korpus</strong> je primárny, základný <strong>korpus</strong> (prim) obsahujúci všetky zmluvne získané<br />
a spracované písané texty od roku 1955 do súčasnosti. Verzia hlavného <strong>korpus</strong>u je nové<br />
„vydanie“ celého <strong>korpus</strong>u. <strong>Slovenský</strong> <strong>národný</strong> <strong>korpus</strong> sa sprístupňoval v novej verzii vždy po<br />
relevantnom prírastku textov a zmene alebo skvalitnení anotácie. Nová verzia obsahuje aj texty<br />
z predchádzajúcej verzie:<br />
60,6<br />
inf<br />
pfr<br />
img<br />
inf<br />
prf<br />
img<br />
iné<br />
prim-2.0 (%)<br />
prim0.1 → sprístupnený v auguste 2003, 30 mil. tokenov<br />
prim0.2 → sprístupnený koncom r. 2003, 170 mil. tokenov<br />
prim1 → sprístupnený v r. 2004, 182 mil. tokenov<br />
štýlovo extrémne nevyvážený (95 % inf : 3,5 % img : 1,5 % prf)<br />
lematizovaný, automatizovane morfologicky anotovaný pomocou<br />
českého softvéru a na základe českého tagsetu<br />
prim-2.0 → sprístupnený v r. 2005, 250 mil. tokenov<br />
štýlovo vyváženejší (73 % inf : 13 % img : 4 % prf : 10 % iné)<br />
lematizovaný, automatizovane morfologicky anotovaný pomocou<br />
českého softvéru a na základe českého tagsetu<br />
prim-2.1 → sprístupnený začiatkom r. 2006, 300 mil. tokenov<br />
štýlovo opäť vyváženejší (60,6 % inf : 17,5 % img : 11,6 % prf : 10,3 %<br />
iné)<br />
lematizovaný, automatizovane morfologicky anotovaný pomocou<br />
nemeckého softvéru na základe slovenského tagsetu<br />
prim-3.0 → sprístupnený začiatkom r. 2007, 350 mil. tokenov<br />
štýlovo opäť vyváženejší (56,74 % inf : 20,69 % img : 21,32 % prf : 1,25<br />
% iné)<br />
13<br />
20,7<br />
4 10<br />
21,3<br />
prim-3.0 (%)<br />
1,3<br />
73<br />
56,7<br />
inf<br />
prf<br />
img<br />
iné<br />
inf<br />
prf<br />
img<br />
iné<br />
9