Korpus InterCorp

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.

Přístup k textům

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText. Kurs práce s rozhraním KonText najdete zde.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.

Odkazy

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde

Obsah korpusu

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. V současné verzi jsou k dispozici tyto kolekce:

publistické články a zpravodajství z webových stránek Project Syndicate a Presseurop
právní texty Evropské Unie z korpusu Acquis Communautaire
zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu Europarl
filmové titulky ze databáze Open Subtitles

Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 je 195 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

Složení korpusu podle jednotlivých jazyků – jádro i kolekce

Složení korpusu podle jednotlivých jazyků – jádro

Složení korpusu podle jednotlivých jazyků – kolekce

Velikost korpusu ve slovech
Zkratka	Jazyk	Jádro	Syndicate	Presseurop	Acquis	Europarl	Subtitles	Celkem
ar	arabština	34 325	0	0	0	0	0	34 325
be	běloruština	2 152 724	0	0	0	0	0	2 152 724
bg	bulharština	5 240 831	0	0	13 816 405	9 083 403	0	28 140 639
ca	katalánština	4 632 696	0	0	0	0	0	4 632 696
da	dánština	3 016 838	0	0	21 679 997	13 915 841	14 429 778	53 042 454
de	němčina	27 681 897	3 725 002	2 482 920	21 723 929	13 089 209	8 366 765	77 069 722
el	řečtina	0	0	0	25 069 611	15 403 662	23 714 597	64 187 870
en	angličtina	15 488 167	3 818 127	2 670 157	24 207 801	15 580 109	52 101 283	113 865 644
es	španělština	17 475 748	4 324 428	2 816 401	27 001 343	15 885 394	36 378 715	103 882 029
et	estonština	0	0	0	15 962 544	10 899 550	10 296 031	37 158 125
fi	finština	3 426 226	0	0	16 455 144	10 175 256	15 097 653	45 154 279
fr	francouzština	9 170 042	4 393 051	2 928 227	27 351 591	17 178 444	25 961 848	86 983 203
he	hebrejština	0	0	0	0	0	16 221 237	16 221 237
hi	hindština	408 616	0	0	0	0	0	408 616
hr	chorvatština	15 479 547	0	0	0	0	19 092 559	34 572 106
hu	maďarština	5 387 533	0	0	19 176 514	12 306 692	21 239 634	58 110 373
is	islandština	0	0	0	0	0	1 584 758	1 584 758
it	italština	7 247 545	651 502	2 707 648	24 849 477	15 489 468	14 653 613	65 599 253
ja	japonština	0	0	0	0	0	113 320	113 320
lt	litevština	358 253	0	0	18 392 644	11 212 864	557 961	30 521 722
lv	lotyština	1 336 888	0	0	18 744 927	11 688 597	280 117	32 050 529
mk	makedonština	3 741 900	0	0	0	0	1 877 210	5 619 110
ms	malajština	0	0	0	0	0	3 520 701	3 520 701
mt	maltština	0	0	0	14 133 133	0	0	14 133 133
nl	nizozemština	9 961 680	313 998	2 955 637	24 746 144	15 563 231	29 362 826	82 903 516
no	norština	4 815 797	0	0	0	0	0	4 815 797
pl	polština	17 516 332	0	2 378 025	20 627 627	12 811 143	26 572 483	79 905 610
pt	portugalština	2 393 287	369 434	2 999 903	28 602 556	16 484 692	43 391 919	94 241 791
ro	rumunština	3 432 615	0	2 737 807	8 199 565	9 446 369	34 128 511	57 944 867
ru	ruština	3 337 545	3 174 152	0	0	0	6 885 753	13 397 450
sk	slovenština	7 401 998	0	0	19 222 784	12 734 444	5 134 150	44 493 376
sl	slovinština	900 221	0	0	19 645 598	12 240 548	17 024 593	49 810 960
sq	albánština	0	0	0	0	0	2 003 579	2 003 579
sr	srbština	8 823 894	0	0	0	0	20 776 850	29 600 744
sv	švédština	8 138 161	0	0	20 585 800	13 840 373	14 693 861	57 258 195
tr	turečtina	0	0	0	0	0	21 190 828	21 190 828
uk	ukrajinština	5 054 034	0	0	0	0	246 059	5 300 093
vi	vietnamština	0	0	0	0	0	1 473 591	1 473 591
celkem		194 055 340	20 769 694	24 676 725	430 195 134	265 029 289	488 372 783	1 423 098 965
cs	čeština	84 718 325	3 416 272	2 315 118	20 303 101	12 922 658	50 688 186	174 363 660
CELKEM		278 773 665	24 185 966	26 991 843	450 498 235	277 951 947	539 060 969	1 597 462 625

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

Jazyk	Značky	Lemmata	Stručný popis	Podrobný popis	Nástroj
angličtina	✔	✔	anglicky	anglicky + dodatky	TreeTagger
bulharština	✔			anglicky	TreeTagger
čeština	✔	✔	česky anglicky	anglicky	Morče
estonština	✔	✔	estonsky a anglicky		TreeTagger
finština	✔	✔		anglicky *)	OMorFi+HunPOS
francouzština	✔	✔	anglicky		TreeTagger
islandština	✔	✔			IceStagger
italština	✔	✔	anglicky		TreeTagger
litevština	✔	✔	česky a anglicky	anglicky	Autor: Vidas Daudaravičius
maďarština	✔			anglicky	HunPos
němčina	✔	✔	anglicky **)	německy	RFTagger
nizozemština	✔			nizozemsky	TreeTagger
norština	✔	✔	anglicky norsky		Oslo Bergen Tagger
polština	✔	✔	anglicky polsky	anglicky	Morfeusz, TaKIPI
portugalština	✔	✔	španělsky		TreeTagger
ruština	✔	✔	anglicky	anglicky ***)	TreeTagger
slovenština	✔	✔	slovensky	slovensky	Radovan Garabík, Morče
slovinština	✔	✔		anglicky	totale
španělština	✔	✔	anglicky		TreeTagger
švédština	✔	✔			Stagger

*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].

**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.

***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. V tomto kontextu gdzieś není spřežka. Dotaz na celou spřežku je nutné zadat jako Fráze a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".

Dotazy, připomínky a podněty

... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v Poradně nebo na adrese

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
publicistické texty ve více jazycích z webových stránek Project Syndicate
publicistické texty ve více jazycích ze serveru Presseurop/VoxEurop
právnické texty v jazycích EU z korpusu JRC-ACQUIS
jednání Evropského parlamentu z korpusu EuroParl
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr
norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
filmové titulky z databáze Open Subtitles

Předzpracování

editor paralelních textů InterText (autor Pavel Vondřička)
zarovnávač Hunalign
větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

Značkovače / lematizátory:

MorfFlex, Morče a LanGr pro češtinu
TreeTagger pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
Morfeusz a TaKIPI pro polštinu
HunPOS pro maďarštinu a další jazyky
tagger pro slovenštinu (s poděkováním Radovanu Garabíkovi)
tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
tagger pro norštinu
totale pro slovinštinu (s poděkováním Tomaži Erjavcovi)
RFTagger pro němčinu
OMorFi+HunPOS pro finštinu (s poděkováním Filipu Ginterovi)
Stagger a IceStagger pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)

Korpusový manažer a rozhraní:

Poslední aktualizace: 18. května 2015

O PROJEKTU

HLEDÁNÍ V KORPUSU

ODKAZY