Svobodné slovníky po roce existence
Naprostou náhodou na mě loni touto dobou spadla správa projektu GNU/FDL Anglicko-Českého slovníku, známého také jako slovnik.zcu.cz. Nabízí se tak drobné ohlédnutí za prvním rokem.
Dlouhé roky jsem slovník používal a zkraje září jsem si kvůli selhání disku instaloval na počítač nový systém, tak jsem to vzal jako příležitost stáhnout aktuální verzi slovníku. Ale web nejel… Kontaktoval jsem Milana Svobodu (původního správce), sháněl poslední verzi dat, psal na AbcLinuxu.cz. Nakonec jsem založil Svobodné slovníky.cz (s vizí, že nezůstane jen u angličtiny), trochu nejčerstvější data pročistil od náhodného balastu, dal na Github, sepsal několik skriptů na generování seznamu přispěvatelů a bylo.
K mému potěšení se našlo hned několik dalších lidí, kteří začali do slovníku přispívat. Kromě nových a vylepšených překladů také úklidem – kvalita dat totiž není zdaleka ideální a je tu velký prostor ke zlepšení. Kvalita dat totiž ovlivňuje možnosti jejich dalšího zpracování a využití.
Píší mi i další lidé, co mají nápady na další rozvoj slovníku. Kupříkladu je otevřená možnost přidat k překladům také výslovnost, která se dá získat z dalšího svobodného zdroje (takže žádný problém s licencí). Nutno říct, že takovou věc bych uvítal i já jako uživatel.
Nicméně bezesporu nejzajímavější byl e-mail od barmského mnicha Sarany. Sarana se totiž pustil do ohromujícího díla: barmsko-anglicko-českého slovníku. Data má v XML a exportuje je i do PDF. Vedle překladů má i velké množství fotografií (desítky tisíc). Řada slov je navíc zařazena do kategorií (trošku jinak pojatých než v současném anglicko-českém slovníku). Přidává i obohacení o gramatickou informaci a slova, která fungují jako synonyma, spolu provazuje. Zkrátka velká věc, klobouk dolů. Slovník bude patrně mít vlastní webové rozhraní pod doménou svobodneslovniky.cz. (Mimochodem, Sarana uvítá jakoukoli pomoc!)
Na základě podnětu jsou data slovníku také přístupnější a uchopitelnější pro česky nehovořící uživatele. Na IRC jsem už potkal finského studenta, který slovník využívá ke studiu češtiny (a jde mu to dobře!). Vylepšili jsme formát i o nativní podporu více autorů nad jedním překladem.
Velkým milníkem pro slovník(y) by mělo být webové rozhraní, které jeden dobrovolník připravuje. Bude tam prostor pro používání slovníku i pro jednoduché přispívání do něj – a změny by se pak měly umět synchronizovat do gitu a zpátky na web. Snad splní plán a do konce tohoto roku to bude. :c) Svým příspěvkem by pak mohl slovník vylepšit úplně každý a ne jen lidé s účtem na githubu (už jsem v tomhle směru i dostal jednu stížnost ;c)).
Další vývoj
V plánu pro anglický slovník mám vedle překlopení zásobníku nových překladů i oprav hlavně velké čištění, z části i poloautomatické. Na téměř čtvrt miliónu záznamů je zkrátka stále co vylepšovat. :c)
Přijít by v druhém roce mohly také další jazyky. Na jednom už dlouhodobě pracuji (3 tisíce záznamů), ale bude to chtít zmrazit, zapracovat na kvalitě a vyspecifikovat dobře formát. A druhým bude celkem přirozeně němčina, ke které sice existuje jakýsi GNU/FDL slovník, ale překladů je v něm opravdu málo a je naprosto neudržovaný. Takový celkem nemá cenu vůbec brát v potaz. Novou licencí by měla být Creative Commons a pokusím se zkontaktovat autory překladů, jestli jimi přispějí pod novou licencí do nového slovníku. A opět: hlavní bude formát. Angličtina je jednoduchá, ale další jazyky už mají podstatně bohatší gramatický systém, který se hodí ve slovníku zachytit.
Zaškatulkováno v kategorii: Projekty | 21. září 2017