UK | FFUK | webmaster

intercorp - logo

Korpus InterCorp

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.

Přístup k textům

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText. Kurs práce s rozhraním KonText najdete zde.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.

Odkazy

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde

Obsah korpusu

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. V současné verzi jsou k dispozici tyto kolekce:

Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 je 195 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.


Složení korpusu podle jednotlivých jazyků – jádro i kolekce

Graf složení korpusu podle jednotlivých jazyků – jádro i kolekce

Složení korpusu podle jednotlivých jazyků – jádro

Graf složení korpusu podle jednotlivých jazyků – jádro

Složení korpusu podle jednotlivých jazyků – kolekce

Graf složení korpusu podle jednotlivých jazyků – kolekce


Velikost korpusu ve slovech

Zkratka Jazyk Jádro Syndicate Presseurop Acquis Europarl Subtitles Celkem
ararabština34 3250000034 325
beběloruština2 152 724000002 152 724
bgbulharština5 240 8310013 816 4059 083 403028 140 639
cakatalánština4 632 696000004 632 696
dadánština3 016 8380021 679 99713 915 84114 429 77853 042 454
deněmčina27 681 8973 725 0022 482 92021 723 92913 089 2098 366 76577 069 722
elřečtina00025 069 61115 403 66223 714 59764 187 870
enangličtina15 488 1673 818 1272 670 15724 207 80115 580 10952 101 283113 865 644
esšpanělština17 475 7484 324 4282 816 40127 001 34315 885 39436 378 715103 882 029
etestonština00015 962 54410 899 55010 296 03137 158 125
fifinština3 426 2260016 455 14410 175 25615 097 65345 154 279
frfrancouzština9 170 0424 393 0512 928 22727 351 59117 178 44425 961 84886 983 203
hehebrejština0000016 221 23716 221 237
hihindština408 61600000408 616
hrchorvatština15 479 547000019 092 55934 572 106
humaďarština5 387 5330019 176 51412 306 69221 239 63458 110 373
isislandština000001 584 7581 584 758
ititalština7 247 545651 5022 707 64824 849 47715 489 46814 653 61365 599 253
jajaponština00000113 320113 320
ltlitevština358 2530018 392 64411 212 864557 96130 521 722
lvlotyština1 336 8880018 744 92711 688 597280 11732 050 529
mkmakedonština3 741 90000001 877 2105 619 110
msmalajština000003 520 7013 520 701
mtmaltština00014 133 1330014 133 133
nlnizozemština9 961 680313 9982 955 63724 746 14415 563 23129 362 82682 903 516
nonorština4 815 797000004 815 797
plpolština17 516 33202 378 02520 627 62712 811 14326 572 48379 905 610
ptportugalština2 393 287369 4342 999 90328 602 55616 484 69243 391 91994 241 791
rorumunština3 432 61502 737 8078 199 5659 446 36934 128 51157 944 867
ruruština3 337 5453 174 1520006 885 75313 397 450
skslovenština7 401 9980019 222 78412 734 4445 134 15044 493 376
slslovinština900 2210019 645 59812 240 54817 024 59349 810 960
sqalbánština000002 003 5792 003 579
srsrbština8 823 894000020 776 85029 600 744
svšvédština8 138 1610020 585 80013 840 37314 693 86157 258 195
trturečtina0000021 190 82821 190 828
ukukrajinština5 054 0340000246 0595 300 093
vivietnamština000001 473 5911 473 591
celkem194 055 34020 769 69424 676 725430 195 134265 029 289488 372 7831 423 098 965
csčeština84 718 3253 416 2722 315 11820 303 10112 922 65850 688 186174 363 660
CELKEM278 773 66524 185 96626 991 843450 498 235277 951 947539 060 9691 597 462 625

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

Jazyk Značky Lemmata Stručný popis Podrobný popis Nástroj
angličtina anglicky anglicky + dodatky TreeTagger
bulharština     anglicky TreeTagger
čeština česky anglicky anglicky Morče
estonština estonsky a anglicky   TreeTagger
finština   anglicky *) OMorFi+HunPOS
francouzština anglicky   TreeTagger
islandština     IceStagger
italština anglicky   TreeTagger
litevština česky a anglicky anglicky Autor: Vidas Daudaravičius
maďarština     anglicky HunPos
němčina anglicky **) německy RFTagger
nizozemština     nizozemsky TreeTagger
norština anglicky norsky   Oslo Bergen Tagger
polština anglicky polsky anglicky Morfeusz, TaKIPI
portugalština španělsky   TreeTagger
ruština anglicky anglicky ***) TreeTagger
slovenština slovensky slovensky Radovan Garabík, Morče
slovinština   anglicky totale
španělština anglicky   TreeTagger
švédština     Stagger

*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].

**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.

***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. V tomto kontextu gdzieś není spřežka. Dotaz na celou spřežku je nutné zadat jako Fráze a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".

Dotazy, připomínky a podněty

... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v Poradně nebo na adrese

.

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

Předzpracování

Značkovače / lematizátory:

Korpusový manažer a rozhraní:

Poslední aktualizace: 18. května 2015