Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.
Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText. Kurs práce s rozhraním KonText najdete zde.
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).
Seznam další literatury najdete v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde
Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. V současné verzi jsou k dispozici tyto kolekce:
Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 je 195 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
Zkratka | Jazyk | Jádro | Syndicate | Presseurop | Acquis | Europarl | Subtitles | Celkem |
---|---|---|---|---|---|---|---|---|
ar | arabština | 34 325 | 0 | 0 | 0 | 0 | 0 | 34 325 |
be | běloruština | 2 152 724 | 0 | 0 | 0 | 0 | 0 | 2 152 724 |
bg | bulharština | 5 240 831 | 0 | 0 | 13 816 405 | 9 083 403 | 0 | 28 140 639 |
ca | katalánština | 4 632 696 | 0 | 0 | 0 | 0 | 0 | 4 632 696 |
da | dánština | 3 016 838 | 0 | 0 | 21 679 997 | 13 915 841 | 14 429 778 | 53 042 454 |
de | němčina | 27 681 897 | 3 725 002 | 2 482 920 | 21 723 929 | 13 089 209 | 8 366 765 | 77 069 722 |
el | řečtina | 0 | 0 | 0 | 25 069 611 | 15 403 662 | 23 714 597 | 64 187 870 |
en | angličtina | 15 488 167 | 3 818 127 | 2 670 157 | 24 207 801 | 15 580 109 | 52 101 283 | 113 865 644 |
es | španělština | 17 475 748 | 4 324 428 | 2 816 401 | 27 001 343 | 15 885 394 | 36 378 715 | 103 882 029 |
et | estonština | 0 | 0 | 0 | 15 962 544 | 10 899 550 | 10 296 031 | 37 158 125 |
fi | finština | 3 426 226 | 0 | 0 | 16 455 144 | 10 175 256 | 15 097 653 | 45 154 279 |
fr | francouzština | 9 170 042 | 4 393 051 | 2 928 227 | 27 351 591 | 17 178 444 | 25 961 848 | 86 983 203 |
he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 237 | 16 221 237 |
hi | hindština | 408 616 | 0 | 0 | 0 | 0 | 0 | 408 616 |
hr | chorvatština | 15 479 547 | 0 | 0 | 0 | 0 | 19 092 559 | 34 572 106 |
hu | maďarština | 5 387 533 | 0 | 0 | 19 176 514 | 12 306 692 | 21 239 634 | 58 110 373 |
is | islandština | 0 | 0 | 0 | 0 | 0 | 1 584 758 | 1 584 758 |
it | italština | 7 247 545 | 651 502 | 2 707 648 | 24 849 477 | 15 489 468 | 14 653 613 | 65 599 253 |
ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 320 | 113 320 |
lt | litevština | 358 253 | 0 | 0 | 18 392 644 | 11 212 864 | 557 961 | 30 521 722 |
lv | lotyština | 1 336 888 | 0 | 0 | 18 744 927 | 11 688 597 | 280 117 | 32 050 529 |
mk | makedonština | 3 741 900 | 0 | 0 | 0 | 0 | 1 877 210 | 5 619 110 |
ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 520 701 | 3 520 701 |
mt | maltština | 0 | 0 | 0 | 14 133 133 | 0 | 0 | 14 133 133 |
nl | nizozemština | 9 961 680 | 313 998 | 2 955 637 | 24 746 144 | 15 563 231 | 29 362 826 | 82 903 516 |
no | norština | 4 815 797 | 0 | 0 | 0 | 0 | 0 | 4 815 797 |
pl | polština | 17 516 332 | 0 | 2 378 025 | 20 627 627 | 12 811 143 | 26 572 483 | 79 905 610 |
pt | portugalština | 2 393 287 | 369 434 | 2 999 903 | 28 602 556 | 16 484 692 | 43 391 919 | 94 241 791 |
ro | rumunština | 3 432 615 | 0 | 2 737 807 | 8 199 565 | 9 446 369 | 34 128 511 | 57 944 867 |
ru | ruština | 3 337 545 | 3 174 152 | 0 | 0 | 0 | 6 885 753 | 13 397 450 |
sk | slovenština | 7 401 998 | 0 | 0 | 19 222 784 | 12 734 444 | 5 134 150 | 44 493 376 |
sl | slovinština | 900 221 | 0 | 0 | 19 645 598 | 12 240 548 | 17 024 593 | 49 810 960 |
sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 003 579 | 2 003 579 |
sr | srbština | 8 823 894 | 0 | 0 | 0 | 0 | 20 776 850 | 29 600 744 |
sv | švédština | 8 138 161 | 0 | 0 | 20 585 800 | 13 840 373 | 14 693 861 | 57 258 195 |
tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 828 | 21 190 828 |
uk | ukrajinština | 5 054 034 | 0 | 0 | 0 | 0 | 246 059 | 5 300 093 |
vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 473 591 | 1 473 591 |
celkem | 194 055 340 | 20 769 694 | 24 676 725 | 430 195 134 | 265 029 289 | 488 372 783 | 1 423 098 965 | |
cs | čeština | 84 718 325 | 3 416 272 | 2 315 118 | 20 303 101 | 12 922 658 | 50 688 186 | 174 363 660 |
CELKEM | 278 773 665 | 24 185 966 | 26 991 843 | 450 498 235 | 277 951 947 | 539 060 969 | 1 597 462 625 |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
Jazyk | Značky | Lemmata | Stručný popis | Podrobný popis | Nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky | anglicky | Morče |
estonština | ✔ | ✔ | estonsky a anglicky | TreeTagger | |
finština | ✔ | ✔ | anglicky *) | OMorFi+HunPOS | |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
islandština | ✔ | ✔ | IceStagger | ||
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | anglicky | Autor: Vidas Daudaravičius |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | anglicky **) | německy | RFTagger |
nizozemština | ✔ | nizozemsky | TreeTagger | ||
norština | ✔ | ✔ | anglicky norsky | Oslo Bergen Tagger | |
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
portugalština | ✔ | ✔ | španělsky | TreeTagger | |
ruština | ✔ | ✔ | anglicky | anglicky ***) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
slovinština | ✔ | ✔ | anglicky | totale | |
španělština | ✔ | ✔ | anglicky | TreeTagger | |
švédština | ✔ | ✔ | Stagger |
*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].
**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.
***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. V tomto kontextu gdzieś není spřežka. Dotaz na celou spřežku je nutné zadat jako Fráze a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.
Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".
... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v Poradně nebo na adrese
.
Děkujeme za možnost využívat následující texty a software:
Poslední aktualizace: 18. května 2015