Stručný návod pro práci s uživatelským rozhraním korpusu InterCorp – Park

Přístup ke korpusu Intercorp je možný s přístupovými údaji, které jsou platné i pro ostatní korpusy ČNK. Pokud zatím nemáte přístup ke korpusům ČNK, můžete si ho zřídit zdarma po registraci na stránce: Registrace nebo můžete použít odkaz v horní části přihlašovací stránky.

Po zadání uživatelského jména a hesla se otevře stránka s odkazem k založení nového dotazu a přepínačem z aktuální verze korpusu na verzi předchozí. Pokud se na tuto stránku vrátíte později kliknutím na Domů, najdete zde také seznam dosud aktivních dotazů, které si můžete znovu vyvolat.

specifikace prohledávané části korpusu

Po založení dotazu kliknutím na Nový dotaz budete přesměrováni na stránku se seznamem jazyků a textů, které jsou v současné době k dispozici. Nejprve je třeba levým tlačítkem myši označit alespoň dva jazyky pomocí zaškrtávacího okénka u každého z nich.

Pokud chcete hledat ve všech textech v jádru a nezajímají Vás kolekce automaticky zpracovaných textů ani výběr konkrétních textů, se kterými chcete pracovat, můžete v tomto okamžiku rovnou přejít k zadání dotazu.

Jestliže chcete kromě jádra ručně zkontrolovaných textů hledat i v kolekcích automaticky zpracovaných textů, můžete u jednotlivých balíčků nastavit Zařadit, pokud je daný balíček k dispozici pro Váš výběr jazyků. Tím přidáte k celému jádru i konkrétní balíčky a můžete opět jít přímo k dotazu.

Chcete-li z dostupných souborů vybrat na základě známých parametrů pouze některé, můžete použít filtr. Při jeho nastavování postupujte následovně:

Nejprve se ujistěte, že máte vybrány jazyky, které chcete prohledávat
Potom musíte zvolit jazyk, podle kterého budete chtít filtrovat. (To se provede opět levým tlačítkem myši, tentokrát ale poklepem přímo na nápis jazyka, podle kterého chcete filtrovat. Ten by se měl označit tmavší šedou barvou. Pokud zvolíte za jazyk filtru např. angličtinu, zobrazí se v seznamu textů informace o anglických verzích, a pokud zvolíte například filtr rok vydání do r. 2001, řídí se filtr rokem vydání anglické verze textu.)
Potom můžete v oblasti filtrů zaškrtat nebo naopak odebrat typy textů, podle známých bibliografických údajů.
Následně můžete použít filtr i na kolekce automaticky zpracovaných textů – volba: Podle filtru. (Pokud použijete volbu Zařadit, budou vybrány texty z jádra podle filtru, ale daný balíček bude zařazen celý, nezávisle na filtru. Pokud použijete volbu Nezařazovat, daný balíček se prohledávat nebude, a to bez ohledu na nastavení filtru.)
Nakonec můžete ještě výběr podle filtru ručně doladit. Pokud si zapnete Ruční výběr textů, zobrazí se seznam konkrétních textů.
Když použijete Filtruj texty, zobrazí se zaškrtnutí pouze u textů, které odpovídají výše nastavenému filtru, ale toto nastavení můžete ještě ručně upravit podle Vašich požadavků

Přitom je potřeba dodržet určené pořadí operací, protože změna v předchozích krocích má obvykle za následek reset nastavení všech následujících kroků.

zadání dotazu

hledání v jednom jazyce nebo ve více jazycích současně
hledání podle slovního tvaru
hledání podle posloupnosti tvarů (Slovní spojení)
hledání podle výrazu jazyka CQL (analogicky jako v české části ČNK, viz např. zde)
hledání podle lemmatu (základního tvaru) - pro některé jazyky
hledání podle morfosyntaktické značky (tagu), je třeba zadat ve formátu CQL - pro některé jazyky
možnost využít při zadání dotazu regulární výrazy
možnost využít při zadání dotazu virtuální klávesnici

možnosti zobrazení paralelních konkordancí

zobrazení strukturních značek (Konkordance/Zobraz možnosti/Struktury)
zobrazení bibliografických údajů a identifikace konkordance (Konkordance/Zobraz možnosti/Reference)
zobrazení lemmatu a/nebo morfosyntaktické značky, pro klíčové slovo nebo všechna zobrazená slova - pro některé jazyky (Konkordance/Zobraz možnosti/Atributy)
"filtrování" výsledků na základě přítomnosti nebo nepřítomnosti zadaných výrazů v kontextu (Konkordance/Zobraz filtr)
zobrazení celých vět (Segment) nebo řádků s hledaným výrazem ve středu (Kwic)
zobrazení více jazyků ve sloupcích vedle sebe nebo v řádcích pod sebou (Pohled: vertikální/horizontální)
zobrazení širšího kontextu (zobraz kontext)
export konkordancí ve formátu tabulky (Export: xls1, xls2)

možnost návratu k zadaným dotazům a výsledkům

nahoře v navigaci klikněte na Domů

Problémy s tokenizací a značkováním

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat jako Slovní spojení a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".

Na stránce s popisem korpusu najdete o morfosyntaktických značkách podrobnější údaje.

Poslední aktualizace: 10. dubna 2013

O PROJEKTU