Historie verzí

Verze 8, zveřejněná 4.6.2015

Data:

počet slov v cizojazyčných textech celkem 1423 mil., z toho 194 mil. jádro a 1229 mil. kolekce
počet slov v českých textech celkem 174 mil., z toho 84 mil. jádro a 89 mil. kolekce
kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2013–2014
byla opravena a doplněna metadata u stovek textů z jádra
Informace o korpusu

Vyhledávací rozhraní:

rozhraní Park a NoSketch Engine už nejsou přístupná, pro hledání v InterCorpu lze použít jen KonText
rozhraní KonText se průběžně zdokonaluje, např. lze označovat vybrané konkordance pro další zpracování

Verze 7, zveřejněná 19.12.2014

Data:

počet pozic v cizojazyčných textech celkem 1390 mil., z toho 173 mil. jádro a 1217 mil. kolekce
počet pozic v českých textech celkem 165 mil., z toho 77 mil. jádro a 85 mil. kolekce
počet cizích jazyků: 38 – přibyla albánština, hebrejština, islandština, japonština, malajština, turečtina a vietnamština
přibyl další balík textů: filmové titulky z databáze Open Subtitles
české texty jsou nově označkovány stejně jako jiné české texty v ČNK, tedy včetně slovesného vidu na 16. pozici značky a bez nespecifických kódů, např.Y nebo Z na 3. pozici
nově jsou morfologicky označkovány a lemmatizovány finské, islandské a švédské texty
německé texty jsou nově označkovány jiným nástrojem, spolehlivěji a podrobněji, včetně všech morfologických kategorií, sada značek však zůstává stejná
bylo opraveno zarovnání textů z korpusu ASPAC
u balíků Syndicate, Presseurop a Europarl byly podle možnosti doplněny některé metainformace, např. jazyk originálu a autor
Informace o korpusu

Vyhledávací rozhraní:

kromě hledání přes rozhraní Park a NoSketch Engine je teď možné hledat i přes rozhraní KonText; Park a NoSketch Engine bude pravděpodobně možné používat jen do konce března 2015
v rozhraní KonText a NoSketch Engine je možné hledat v předchozí verzi korpusu
v rozhraní KonText je nyní možné při filtrování textů, tedy při specifikování dotazu podle metainformací nebo při vytváření nového subkorpusu sledovat rozsah vyběru podle titulů; po zadání podmínek výběru stačí kliknout na tlačítko "zvýraznit strukturu výběru" a seznam vybraných titulů se objeví ve sloupci "div.title"
v rozhraní KonText je implicitně nastavena funkce promíchání konkordančních řádků; pokud nechcete při každém dotazu čekat na vypsání výsledků až po nalezení všech konkordancí, můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby zobrazení konkordance

Verze 6, zveřejněná 8.4.2013

Data:

počet slov v cizojazyčných textech: 138 779 000 – jádro, 728 508 000 - kolekce
počet cizích jazyků: 31 – přibyla arabština, katalánština, hindština a ukrajinština
přibyly beletristické texty z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří prof. Adrianu Barentsenovi
přibyl další balík textů z korpusu EuroParl (jednání Evropského Parlamentu)
balíky Syndicate a Presseurop byly doplněny o texty za poslední dva roky
Informace o korpusu

Vyhledávací rozhraní:

kromě hledání přes rozhraní Park je teď možné hledat i přes rozhraní NoSketch Engine
Park: možnost hledat v předchozí verzi korpusu

Verze 5, zveřejněná 14.6.2012

Data:

oddělení textů z jádra od textů v kolekcích
počet slov v cizojazyčných textech: 91 529 000 - jádro, 451 112 000 - kolekce
počet cizojazyčných textů: 1 287 + Syndicate, Presseurop a Acquis
počet cizích jazyků: 27
z toho označkovaných / lemmatizovaných: 17 / 14
přibyl další balík textů z Acquis Communautaire
Informace o korpusu

Park:

možnost filtrovat texty na základě bibliografických informací
oddělení textů z jádra od textů v kolekcích
přidána možnost vytvořit náhodný vzorek z konkordance
vylepšená podpora jazyků v rozhraní Park

Verze 4, zveřejněná 19.9.2011

Data:

počet slov v cizojazyčných textech: 92 290 000 (včetně Syndicate a Presseurop)
počet cizojazyčných textů: 1 045 + Syndicate a Presseurop
počet cizích jazyků: 22
z toho označkovaných / lemmatizovaných: 13 / 10
přibyly automaticky zarovnané texty ze serveru Presseurop
přibyl další balík textů z projektu Syndicate
doplnění dalších strukturních atributů (origyear, srclang, txtype)
Informace o korpusu

Park: beze změny

Verze 3.1, zveřejněná 18.5.2011

Data: beze změny

Park:

víceúrovňový filtr výsledků dotazu
vylepšení podpory cookies
další exportní formát

Verze 3, zveřejněná 21.2.2011

Data:

počet slov v cizojazyčných textech: 72 280 000 (včetně Syndicate)
počet cizojazyčných textů: 943 + Syndicate
počet cizích jazyků: 22
z toho označkovaných / lemmatizovaných: 13 / 10
přechod na stand-off alignment

Informace o korpusu

Park:

jednoúrovňový filtr výsledků dotazu
zobrazení vybrané stránky výsledku
přechod na stand-off alignment

Verze 2, zveřejněná 16.10.2009

Data:

počet slov v cizojazyčných textech: 49 293 000 (včetně Syndicate)
počet cizojazyčných textů: 572 + Syndicate
počet cizích jazyků: 21
z toho označkovaných / lemmatizovaných: 10 / 7
přibyly automaticky zarovnané texty z projektu Syndicate

Přístup ke korpusu:

zpřístupnění jednojazyčných verzí korpusu mimo Park

Verze 1, zveřejněná 29.4.2009

Data:

počet slov v cizojazyčných textech: 34 464 000
počet cizojazyčných textů: 505
počet cizích jazyků: 20
z toho označkovaných / lemmatizovaných: 10 / 7
lemmatizace a morfologické značkování některých jazyků

Park:

zobrazování velikosti subkorpusů

Verze 0, zveřejněná 19.11.2008

Data:

počet slov v cizojazyčných textech: 25 mil.
počet cizích jazyků: 19
z toho označkovaných / lemmatizovaných: 0 / 0

Park:

první stabilní verze

Poslední aktualizace: 8. června 2015

O PROJEKTU

HLEDÁNÍ V KORPUSU

ODKAZY

Historie verzí