tištěná kniha e-kniha
Česká morfologie a korpusy

Česká morfologie a korpusy

Osolsobě, Klára

témata: lingvistika

brožovaná, 236 str., 1. vydání
vydáno: říjen 2014
ISBN: 978-80-246-2562-1
doporučená cena: 250 Kč

E-shop

Anotace

Kniha Česká morfologie a korpusy podnítí studenty filologických oborů, bohemisty, korpusové lingvisty i všechny, které zajímá čeština a její gramatika, aby se nebáli používat metod korpusové lingvistiky a sami zkoušeli hledat postupy, jimiž lze z jazykových korpusů vycházet při řešení lingvistických problémů. Je zúročením mnohaleté pedagogické a badatelské praxe přední odbornice na poli počítačové lingvistiky, doc. PhDr. Kláry Osolsobě, Ph.D. Naučí čtenáře, jak při práci s korpusem kombinovat přístupy corpus based, jimiž hledáme doklady pro lingvistické hypotézy, a corpus driven, kterými optimalizujeme formalizované dotazy na základě pozorování korpusových dat. Vzorové úlohy z oblasti formálního tvarosloví a tvoření slov přivádějí ke zcela novým, alternativním pohledům na náš mateřský jazyk. Zároveň je lze široce aplikovat k nalézání odpovědí na analogické otázky při zpracování velkých dat i při studiu dalších jazyků.
Jak napsal Charles J. Fillmore, klasik americké komputační a kognitivní lingvistiky: „Nemyslím, že by někdy vznikly tak velké korpusy, abych v nich našel všechny možné informace o slovníku a gramatice jazyka, avšak i ten nejmenší korpus, s kterým jsem měl možnost pracovat, mě přivedl k objevům, na něž bych jinak nikdy nebyl býval přišel.“

Recenze

Předkládaná kniha je cvičebnicí morfologie a slovotvorby češtiny pro vysokoškolské studenty a zájemce o češtinu (zejména o její morfologii a slovotvorbu) a o její formální zpracování obecně. Je to kniha zkušené pedagožky, jež ukazuje, jak efektivně a šikovně se dá používat moderních počítačových nástrojů pro zjišťování skrytých informací o jazyce ve velkých textových datech. Z hlediska textového materiálu je totiž kniha založena na rozsáhlých korpusech (v řádech stovek milionů slovních výskytů) současné češtiny patřících do řady SYN projektu Český národní korpus. Podle slov autorky by se studenti měli naučit: (i) slovně formulovaná tvrzení o jazyce převést do podoby formálních pravidel, která lze zapsat např. jako posloupnost dotazů pro moderní korpusový manažer (konkrétně Kontext); (ii) efektivně pozorovat korpusová data tak, aby na základě těchto pozorování dokázali slovně zformulovat zákonitosti fungování jazyka vyplývající z učiněných pozorování jazyka v textech, z nichž jsou složeny korpusy; (iii) syntetizovat oba výše uvedené postupy tak, aby byli schopni co nejefektivněji používat korpusových nástrojů (konkordančních programů, statistických a vizualizačních modulů a dalších programů) pro vlastní lingvistický výzkum. Kdo si knihu pozorně prostuduje, ve svých schopnostech úspěšně plnit uvedené tři úkoly výrazně pokročí. Autorka seznamuje čtenáře s taji morfologie a slovotvorby češtiny projevující se ve velkých korpusech, předvádí svou hlubokou znalost české morfologie i suverénní obeznámenost s možnostmi poskytovanými počítačovými nástroji pro efektivní zjišťování netriviálních informací ve velkých textových datech. Zkušenosti ukazují, jak je taková kniha potřebná, a to nejen pro studenty, ale i - bohužel a běda! - pro některé zkušené jazykovědce-bohemisty (ti nejsou například schopni zformulovat efektivní dotaz pro korpusový manažer, aby jim vyhledal potřebná data: ani méně dat, ani více). Zvládnout zacházení s počítačovými programy je totiž často nesnadné a používat jich pro řešení konkrétních problémů ještě nesnazší.
Autorka v knize formuluje osm morfologických a slovotvorebných problémů, z nichž každý je rozebrán stejným sledem obecných kroků od motivačního úvodu, přes nastínění problému, otázky, formulaci dotazu směřující k získání dat z korpusů až po formulaci závěrů, dalších souvisejících otázek a specifikaci cvičení, při jejich řešení student může uplatnit obdobné postupy.
Autorka rovněž doplňuje některá fakta z oblasti korpusové lingvistiky, která se nenajdou v běžně dostupných manuálech pro uživatele jazykových korpusů. Zejména však uvádí studenta také do problematiky tvorby korpusů, konkrétně partií týkajících se tzv. tokenizace, automatické morfologické analýzy a zčásti též slovnědruhové a morfologické disambiguace. Popisuje tzv. pražský systém morfologických značek a tu a tam jej kriticky hodnotí, a to na základě problémů, které se studenty řeší.
Kniha je prostoupena příklady, názornými screenshoty (tento pojem se někdy nesprávně překládá jako „obrazovkový výstřel“) a grafy, které studentovi velmi usnadňují pochopení probírané látky. Na konci knihy jsou připojeny přílohy jakožto praktické pomůcky v podobě netriviálních algoritmů, které mají studentům pomoci podle slov autorky „osvěžit znalosti z české gramatiky“. V závěru knihy je uvedena relevantní bibliografie. Souhrnně lze říci, že kniha je velmi dobrou cvičebnicí české morfologie a výborným úvodem do problematiky, jak řešit jazykovědné problémy (zde předvedeno na morfologii/slovotvorbě češtiny) s pomocí jazykových elektronických korpusů obsahujících velké množství textových dat. Skvěle didakticky předvádí, jak snoubit používání počítačových nástrojů (lingware) s hlubšími znalostmi jazyka (úže: morfologie/slovotvorby) a jak případné šťastné spojení obou dovedností a znalostí vede k prohloubeným znalostem jazyka a k rozvoji studentova přemýšlení o jazyce.

Z recenzního posudku: doc. RNDr. Vladimír Petkevič, CSc.