Historie verzí
Verze 8, zveřejněná 4.6.2015
Data:
- počet slov v cizojazyčných textech celkem 1423 mil., z toho 194 mil. jádro a 1229 mil. kolekce
- počet slov v českých textech celkem 174 mil., z toho 84 mil. jádro a 89 mil. kolekce
- kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2013–2014
- byla opravena a doplněna metadata u stovek textů z jádra
- Informace o korpusu
Vyhledávací rozhraní:
- rozhraní Park a NoSketch Engine už nejsou přístupná, pro hledání v InterCorpu lze použít jen KonText
- rozhraní KonText se průběžně zdokonaluje, např. lze
označovat vybrané konkordance pro další zpracování
Verze 7, zveřejněná 19.12.2014
Data:
- počet pozic v cizojazyčných textech celkem 1390 mil., z
toho 173 mil. jádro a
1217 mil. kolekce
- počet pozic v českých textech celkem 165 mil., z toho
77 mil. jádro a 85 mil. kolekce
- počet cizích jazyků: 38 – přibyla albánština, hebrejština,
islandština, japonština, malajština, turečtina a
vietnamština
- přibyl další balík textů: filmové titulky z databáze Open
Subtitles
- české texty jsou nově označkovány stejně jako jiné české texty v
ČNK, tedy včetně slovesného vidu na 16. pozici značky a bez
nespecifických kódů, např.Y nebo Z na 3. pozici
- nově jsou morfologicky označkovány a lemmatizovány finské, islandské a
švédské texty
- německé texty jsou nově označkovány jiným nástrojem, spolehlivěji a
podrobněji, včetně všech morfologických kategorií,
sada značek však zůstává stejná
- bylo opraveno zarovnání textů z
korpusu ASPAC
- u balíků Syndicate, Presseurop a Europarl byly podle možnosti doplněny
některé metainformace, např. jazyk originálu a autor
- Informace o korpusu
Vyhledávací rozhraní:
- kromě hledání přes rozhraní Park a NoSketch Engine je teď možné hledat i
přes rozhraní KonText; Park a NoSketch Engine bude
pravděpodobně možné
používat jen do konce března 2015
- v rozhraní KonText a NoSketch Engine je možné hledat v
předchozí verzi korpusu
- v rozhraní KonText je nyní možné při filtrování textů, tedy při specifikování dotazu
podle metainformací nebo při vytváření nového subkorpusu
sledovat rozsah vyběru podle titulů; po zadání podmínek výběru
stačí kliknout na tlačítko "zvýraznit strukturu výběru" a
seznam vybraných titulů se objeví ve sloupci "div.title"
- v rozhraní KonText je implicitně nastavena funkce
promíchání konkordančních řádků; pokud nechcete při každém
dotazu čekat na vypsání výsledků až po nalezení všech konkordancí,
můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby
zobrazení konkordance
Verze 6, zveřejněná 8.4.2013
Data:
- počet slov v cizojazyčných textech: 138 779 000 – jádro, 728 508 000 - kolekce
- počet cizích jazyků: 31 – přibyla arabština,
katalánština, hindština a ukrajinština
- přibyly beletristické texty z
korpusu ASPAC – Amsterdam Slavic Parallel Aligned
Corpus – zvláštní poděkování patří prof. Adrianu
Barentsenovi
- přibyl další balík textů z korpusu
EuroParl (jednání Evropského Parlamentu)
- balíky Syndicate a Presseurop byly doplněny o texty za
poslední dva roky
- Informace o korpusu
Vyhledávací rozhraní:
- kromě hledání přes rozhraní Park je teď možné hledat i
přes rozhraní NoSketch Engine
- Park: možnost hledat v předchozí verzi korpusu
Verze 5, zveřejněná 14.6.2012
Data:
- oddělení textů z jádra od textů v kolekcích
- počet slov v cizojazyčných textech: 91 529 000 - jádro, 451 112 000 - kolekce
- počet cizojazyčných textů: 1 287 + Syndicate, Presseurop a Acquis
- počet cizích jazyků: 27
- z toho označkovaných / lemmatizovaných: 17 / 14
- přibyl další balík textů z Acquis Communautaire
- Informace o korpusu
Park:
- možnost filtrovat texty na základě bibliografických informací
- oddělení textů z jádra od textů v kolekcích
- přidána možnost vytvořit náhodný vzorek z konkordance
- vylepšená podpora jazyků v rozhraní Park
Verze 4, zveřejněná 19.9.2011
Data:
- počet slov v cizojazyčných textech: 92 290 000 (včetně Syndicate a Presseurop)
- počet cizojazyčných textů: 1 045 + Syndicate a Presseurop
- počet cizích jazyků: 22
- z toho označkovaných / lemmatizovaných: 13 / 10
- přibyly automaticky zarovnané texty ze serveru Presseurop
- přibyl další balík textů z projektu Syndicate
- doplnění dalších strukturních atributů (origyear, srclang, txtype)
- Informace o korpusu
Park: beze změny
Verze 3.1, zveřejněná 18.5.2011
Data: beze změny
Park:
- víceúrovňový filtr výsledků dotazu
- vylepšení podpory cookies
- další exportní formát
Verze 3, zveřejněná 21.2.2011
Data:
- počet slov v cizojazyčných textech: 72 280 000 (včetně Syndicate)
- počet cizojazyčných textů: 943 + Syndicate
- počet cizích jazyků: 22
- z toho označkovaných / lemmatizovaných: 13 / 10
- přechod na stand-off alignment
Informace o korpusu
Park:
- jednoúrovňový filtr výsledků dotazu
- zobrazení vybrané stránky výsledku
- přechod na stand-off alignment
Verze 2, zveřejněná 16.10.2009
Data:
- počet slov v cizojazyčných textech: 49 293 000 (včetně Syndicate)
- počet cizojazyčných textů: 572 + Syndicate
- počet cizích jazyků: 21
- z toho označkovaných / lemmatizovaných: 10 / 7
- přibyly automaticky zarovnané texty z projektu Syndicate
Přístup ke korpusu:
- zpřístupnění jednojazyčných verzí korpusu mimo Park
Verze 1, zveřejněná 29.4.2009
Data:
- počet slov v cizojazyčných textech: 34 464 000
- počet cizojazyčných textů: 505
- počet cizích jazyků: 20
- z toho označkovaných / lemmatizovaných: 10 / 7
- lemmatizace a morfologické značkování některých jazyků
Park:
- zobrazování velikosti subkorpusů
Verze 0, zveřejněná 19.11.2008
Data:
- počet slov v cizojazyčných textech: 25 mil.
- počet cizích jazyků: 19
- z toho označkovaných / lemmatizovaných: 0 / 0
Park:
Poslední aktualizace: 8. června 2015