UK | FFUK | webmaster

intercorp - logo

Stručný návod pro práci s uživatelským rozhraním korpusu InterCorp – Park

Přístup ke korpusu Intercorp je možný s přístupovými údaji, které jsou platné i pro ostatní korpusy ČNK. Pokud zatím nemáte přístup ke korpusům ČNK, můžete si ho zřídit zdarma po registraci na stránce: Registrace nebo můžete použít odkaz v horní části přihlašovací stránky.

Po zadání uživatelského jména a hesla se otevře stránka s odkazem k založení nového dotazu a přepínačem z aktuální verze korpusu na verzi předchozí. Pokud se na tuto stránku vrátíte později kliknutím na Domů, najdete zde také seznam dosud aktivních dotazů, které si můžete znovu vyvolat.

specifikace prohledávané části korpusu

Po založení dotazu kliknutím na Nový dotaz budete přesměrováni na stránku se seznamem jazyků a textů, které jsou v současné době k dispozici. Nejprve je třeba levým tlačítkem myši označit alespoň dva jazyky pomocí zaškrtávacího okénka u každého z nich.

Pokud chcete hledat ve všech textech v jádru a nezajímají Vás kolekce automaticky zpracovaných textů ani výběr konkrétních textů, se kterými chcete pracovat, můžete v tomto okamžiku rovnou přejít k zadání dotazu.

Jestliže chcete kromě jádra ručně zkontrolovaných textů hledat i v kolekcích automaticky zpracovaných textů, můžete u jednotlivých balíčků nastavit Zařadit, pokud je daný balíček k dispozici pro Váš výběr jazyků. Tím přidáte k celému jádru i konkrétní balíčky a můžete opět jít přímo k dotazu.

Chcete-li z dostupných souborů vybrat na základě známých parametrů pouze některé, můžete použít filtr. Při jeho nastavování postupujte následovně:

Přitom je potřeba dodržet určené pořadí operací, protože změna v předchozích krocích má obvykle za následek reset nastavení všech následujících kroků.

zadání dotazu

možnosti zobrazení paralelních konkordancí

možnost návratu k zadaným dotazům a výsledkům

Problémy s tokenizací a značkováním

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat jako Slovní spojení a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".

Na stránce s popisem korpusu najdete o morfosyntaktických značkách podrobnější údaje.

Poslední aktualizace: 10. dubna 2013