Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.
Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Aktuálně jsou k dispozici kolekce publistických článků z webových stránek Project Syndicate a Presseurop, a dále balíček právních textů Acquis Communautaire. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi InterCorp č. 5 (historii verzí najdete zde) z června 2012 je 91 529 000 slov v zarovnaných cizojazyčných textech v jádru a 451 112 000 slov v zarovnaných cizojazyčných textech v kolekcích. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Velikost je udávána v milionech slov.
jazyk | Jádro | Syndicate | Presseurop | Acquis | Celkem |
---|---|---|---|---|---|
be | 67 | 0 | 0 | 0 | 67 |
bg | 1 415 | 0 | 0 | 13 816 | 15 231 |
da | 189 | 0 | 0 | 21 680 | 21 869 |
de | 12 004 | 2 567 | 752 | 21 723 | 37 048 |
el | 0 | 0 | 0 | 25 069 | 25 069 |
en | 5 914 | 2 567 | 799 | 24 207 | 33 489 |
es | 11 811 | 2 896 | 860 | 27 001 | 42 570 |
et | 0 | 0 | 0 | 15 962 | 15 962 |
fi | 2 081 | 0 | 0 | 16 667 | 18 748 |
fr | 3 217 | 2 969 | 874 | 27 351 | 34 414 |
hr | 8 103 | 0 | 0 | 0 | 8 103 |
hu | 1 122 | 0 | 0 | 19 167 | 20 290 |
it | 3 484 | 80 | 793 | 24 849 | 29 207 |
lt | 352 | 0 | 0 | 18 432 | 18 785 |
lv | 1 085 | 0 | 0 | 18 744 | 19 830 |
mk | 32 | 0 | 0 | 0 | 32 |
mt | 0 | 0 | 0 | 14 133 | 14 133 |
nl | 6 486 | 0 | 899 | 24 746 | 32 132 |
no | 2 301 | 0 | 0 | 0 | 2 301 |
pl | 8 396 | 0 | 710 | 20 464 | 29 571 |
pt | 2 127 | 0 | 913 | 28 599 | 31 640 |
ro | 1 370 | 0 | 819 | 8 199 | 10 389 |
ru | 1 664 | 2 304 | 0 | 0 | 3 969 |
sk | 7 257 | 0 | 0 | 19 221 | 26 479 |
sl | 991 | 0 | 0 | 19 645 | 20 636 |
sr | 4 295 | 0 | 0 | 0 | 4 295 |
sv | 5 754 | 0 | 0 | 20 615 | 26 369 |
Celkem | 91 528 | 13 385 | 7 425 | 430 300 | 542 640 |
cs | 52 651 | 2 285 | 704 | 20 285 | 75 926 |
*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky *) | anglicky | Morče |
estonština | ✔ | ✔ | estonsky a anglicky | TreeTagger | |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | Vidas Daudaravičius | |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | německy | německy | TreeTagger |
nizozemština | ✔ | TreeTagger | |||
norština | ✔ | ✔ | anglicky norsky | Oslo Bergen Tagger | |
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
portugalština | ✔ | ✔ | španělsky | TreeTagger | |
ruština | ✔ | ✔ | anglicky | anglicky **) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
slovinština | ✔ | ✔ | anglicky | totale | |
španělština | ✔ | ✔ | anglicky | TreeTagger |
*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.
**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese
Děkujeme za možnost využívat následující software a data:
Poslední aktualizace: 20. července 2012