UK | FFUK | webmaster

intercorp - logo

Stručný návod na hledání v korpusu InterCorp přes uživatelské rozhraní NoSketch Engine

I když se snažíme o to, aby níže uvedené pokyny odpovídaly aktuálnímu stavu, rozhraní NoSketch Engine se stále vyvíjí a nesrovnalosti se mohou vyskytnout. Za případné problémy se omlouváme. S dotazy a připomínky se můžete obrátit na koordinátora projektu - viz Kontakty.

Hlavní rozdíly ve srovnání s rozhraním Park

Přístup k textům v korpusu

Korpus InterCorp si můžete prohlížet s přístupovými údaji, které platí i pro ostatní korpusy ČNK. Pokud zatím nemáte přístup ke korpusům ČNK, můžete si ho zřídit zdarma po registraci na stránce Registrace.

Přes rozhraní NoSketch Engine můžete hledat v jednojazykových i paralelních korpusech. Po zadání uživatelského jména a hesla se otevře stránka s implicitně nastaveným korpusem (např. syn2010). Po kliknutí na tlačítko s názvem implicitně nastaveného korpusu se objeví nabídka s dostupnými typy korpusů. Klikneme na šipku u položky Paralelní korpus InterCorp a objeví se seznam částí korpusu podle jazyků.

Volba jazyků

Kliknutím na některý z jazyků u položky Paralelní korpus InterCorp zvolíme první prohledávaný jazyk. Musí to být jazyk, ve kterém budeme zadávat dotaz. Okénko s dotazem v tomto jazyce nemůže zůstat prázdné. Kromě toho je pořadí jazyků důležité ještě při vytváření subkorpusů (viz níže). Rozsah textů, které mají tvořit subkorpus, lze omezit jen podle textů prvního jazyka. V ostatních ohledech na pořadí jazyků nezáleží.

Po volbě prvního jazyka se v záhlaví stránky objeví stručný popis zvolené části korpusu a jeho velikost v počtu pozic (slovních forem včetně interpunkce). Další jazyk přidáme tak, že ho nejprve v rámečku Zarovnané korpusy vybereme, a pak klikneme na Přidat. V přidaném jazyce můžeme a nemusíme zadat další dotaz. Chceme-li, aby se v odpovědi na dotaz objevovaly i konkordance, které v daném jazyce nemají ekvivalent, klikneme na zobrazit prázdné řádky. Podobně můžeme přidávat další jazyky. Můžeme hledat také jen v jedné části paralelního korpusu, tedy jen v jednom jazyce. V tom případě další jazyky nevybíráme, ale vybereme si rovnou typ dotazu a odpovídající dotaz zapíšeme.

Zadání dotazu

Můžeme si vybrat ze šesti Typů dotazu (viz níže). U všech typů dotazu kromě Základního záleží na velikosti písmen a lze používat i regulární výrazy. U dotazu na Slovní tvar je implicitně nastaveno, že na velikosti písmen nezáleží, ale Shodu velikosti lze zapnout. U druhého a dalšího jazyka lze navíc určit, zda vyhledané konkordance mají či nemají obsahovat výrazy zadané v dotazovém okénku. Chceme-li např. v němčině najít jiné ekvivalenty slovesa milovat než odvozeniny od lieben, zaškrtneme NEobsahuje a zadáme

[word=".*[Ll]ieb.*"]
dostaneme výsledky (bez odvozenin) s příslušným základem. Necháme-li obsahuje a
[word!=".*[Ll]ieb.*"]
negace se vztahuje na první pozici daného segmentu a dostaneme výsledky, v nichž se lieb nevyskytuje v prvním slově věty.

Dotaz se vyhodnotí po kliknutí na tlačítko Vytvořit konkordanci.

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat jako Slovní spojení a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. "$" v anglické značce "wp$", je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: tag="wp\$".

Na stránce s popisem korpusu najdete o morfosyntaktických značkách podrobnější údaje.

Výsledky dotazu

Po vyhodnocení dotazu se objeví stránka s konkordancemi. V nabídce, umístěné v prvním sloupci stránky, lze měnit zobrazení, konkordance ukládat, třídit, filtrovat podle kontextu, vyhledávat kolokace a výsledek vyhodnocovat statisticky. Funkce z nabídky se týkají jazyka se světle modrým podkladem; parametry příslušné části korpusu jsou uvedeny v hlavičce. Kliknutím na záhlaví sloupce konkordancí z daného jazyka můžeme jazyk změnit, konkordance v obou jazycích však musí obsahovat klíčový výraz (tak tomu je vždy po paralelním dotazu do obou jazyků, jinak je po změně jazyka uživatel vyzván k zadání klíčového výrazu pozitivním filtrem). Sloupec nabídek lze přemístit nad konkordance kliknutím na Změnit umístění menu. Zpět k zadání dotazu se vrátíme kliknutím na položku Konkordance. K výsledkům skrytým za pravým okrajem okna se dostaneme jeho zvětšením nebo pomocí vodorovného posuvníku, který najdeme po srolování dolů na konec stránky s konkordancemi.

Popis nabídky v levém sloupci:

Subkorpusy - omezení rozsahu prohledávaných textů

Implicitně je rozsah prohledávaných textů nastaven na všechny texty zvolených jazyků. Rozsah lze omezit před vyhodnocením dotazu po kliknutí na položku Subkorpus v nabídce. Omezení se týká prvního jazyka. V rámečku Subkorpus pak můžeme vybírat podle jednotlivých atributů. Není-li ve sloupci daného atributu zaškrtnuta žádná volba, rozsah hledání není podle tohoto atributu omezen a rovná se zaškrtnutí všech voleb, což lze provést kliknutím na tlačítko Vybrat vše. U atributu div.id však výběr všech titulů tímto způsobem nebo i jen výběr jejich většího počtu vyvolá oznámení Podmínka generovaná vaším výběrem je příliš dlouhá. Vytvořte prosím místo ní subkorpus.

Výběr textů do subkorpusu provedeme po kliknutí na vytvořit nový v rámečku Subkorpus a specifikaci atributů v novém okně. Kromě zaškrtnutí příslušných políček u výběrových kritérií můžeme subkorpus specifikovat podrobněji pomocí Vlastní 'within' podmínky. Podmínku zadáváme v běžných případech pro atributy na úrovni části dokumentu (div). Soupis atributů a jejich hodnot najdete zde. Chceme-li např. do subkorpusu vybrat původní česká dramata, zvolíme z nabídky položku div a do rámečku pro zadání podmínky uvedeme:

txtype="drama" & srclang="cs"

Stejného výsledku bychom dosáhli zaškrtnutím políček drama a cs v odpovídajících seznamech atributů. Nový subkorpus je třeba v rámečku Jméno nového subkorpusu pojmenovat a kliknutím na tlačítko Vytvořit subkorpus se korpus vytvoří. K subkorpusu se můžeme vracet při zadávání dotazu výběrem Dostupného korpusu v rámečku Subkorpus.

Poslední aktualizace: 30 July 2013