Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.
Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi InterCorpu č. 3, historii verzí najdete zde).
jazyk | počet slov (v tisících) | počet textů |
angličtina | 5 695 | Syndicate + 49 |
bulharština | 1 135 | 15 |
dánština | 190 | 5 |
finština | 1 247 | 19 |
francouzština | 3 141 | Syndicate+ 21 |
chorvatština | 6 735 | 96 |
italština | 2 817 | 28 |
litevština | 353 | 17 |
lotyština | 1 085 | 33 |
maďarština | 1 123 | 17 |
němčina | 8 846 | Syndicate + 100 |
nizozemština | 3 914 | 58 |
norština | 2 158 | 21 |
polština | 4 716 | 80 |
portugalština | 1 312 | 18 |
rumunština | 671 | 5 |
ruština | 2 951 | Syndicate + 25 |
slovenština | 6 899 | 138 |
slovinština | 992 | 16 |
srbština | 1 724 | 27 |
španělština | 10 905 | Syndicate + 108 |
švédština | 3 673 | 47 |
CELKEM | 72 280 | 943 |
čeština*) | 41 340 | Syndicate + 652 |
*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky *) | anglicky | Morče |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | Vidas Daudaravičius | |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | německy | německy | TreeTagger |
nizozemština | ✔ | TreeTagger | |||
norština | ✔ | ✔ | analyzátor, tagger | ||
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
ruština | ✔ | ✔ | anglicky | anglicky **) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
španělština | ✔ | ✔ | anglicky | TreeTagger |
*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.
**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese
Děkujeme za možnost využívat následující software a data:
Poslední aktualizace: 24. února 2011