Rime in skladnja: oblikoskladenjska analiza češke poezije
DOI:
https://doi.org/10.3986/pkn.v47.i2.04Ključne besede:
češka poezija, oddaljeno branje, besedilni korpusi, Universal Dependencies, obdelava naravnega jezika, odvisnostne drevesnicePovzetek
Oddaljeno branje, ki upošteva jezikoslovna spoznanja, predpostavlja ustrezno delovanje orodij za obdelavo naravnega jezika. Članek prikaže evalvacijo razčlenjevalnika UDPipe na primeru ročno označenega vzorca češke poezije 19. stoletja v naslednjih korakih: (1) ustvarjanje dokumentiranega nabora podatkov za to področje (poezija, 19. stoletje, češčina); (2) odločitve o označevanju, specifične za področje; (3) analiza napak. Vzorec je obsegal 29 naključno izbranih pesmi, ki so bile najprej samodejno označene in razčlenjene z razčlenjevalnikom UDPipe, nato pa so bile oznake ročno preverjene za vsako posamično besedo. Preverjene so bile naslednje značilnosti: segmentacija besed (razdelitev), lematizacija, dodelitev oblikoskladenjskih oznak, dodelitev natančnejših morfoloških oznak, dodelitev položaja v skladenjskem drevesu (izbor nadrejenega elementa) in oznaka skladenjskega razmerja med besedo in njenim nadrejenim elementom. Ugotovitve smo analizirali; najpogostejše napake razčlenjevalnika so povezane s kompleksnimi samostalniškimi besednimi zvezami, ki vsebujejo druge samostalnike kot modifikatorje, še posebej, če se ti pojavijo v besednem redu, specifičnem za poezijo, npr. kot določilo samostalniškega jedra. Po drugi strani niti arhaični pravopis niti neologizmi niso predstavljali bistvenih težav.
Literatura
Dobrovský, Josef. Ausführliches Lehrgebäude der Böhmischen Sprache, zur gründlichen Erlernung derselben für Deutsche, zur vollkommenern Kenntniß für Böhmen. Prague, Johann Herrl, 1809.
Hajič, Jan. “Complex Corpus Annotation: The Prague Dependency Treebank.” Jazykovedný ústav L. Štúra, SAV, 2004, https://ufal.mff.cuni.cz/pdt2.0/publications/Hajic2004.pdf. Accessed 24 Jan. 2024.
Hajič, Jan, et al. “MorfFlex CZ 2.0.” LINDAT/CLARIAH-CZ, 2020, http://hdl.handle.net/11234/1-3186. Accessed 24 Jan. 2024.
Hajič, Jan, et al. “The Prague Dependency Treebank 2.0.” Linguistic Data Consortium, 2006, https://ufal.mff.cuni.cz/pdt2.0/. Accessed 24 Jan. 2024.
Kampelík, František Cyril. Čechoslovan, čili národní jazyk v Čechách, na Moravě, ve Slezku a Slovensku. Prague, Jan Hostivít Pospíšil, 1842.
Kübler, Sandra, et al. Dependency Parsing. Springer, 2009.
Marneffe, Marie-Catherine de, et al. “Syntax: General Principles–The Status of Function Words.” Universal Dependencies Guidelines, 2017, https://universaldependencies.org/u/overview/syntax.html#the-status-of-function-words. Accessed 24 Jan. 2024.
Osolsobě, Klára. Česká morfologie a korpusy. Prague, Karolinum, 2014.
Kosek, Pavel, and Jana Pleskalová. “Spřežkový Pravopis.” CzechEncy–Nový encyklopedický slovník češtiny, edited by Petr Karlík et al., Brno, Masarykova univerzita, 2017, https://www.czechency.org/slovnik/SPŘEŽKOVÝ PRAVOPIS. Accessed 24 Jan. 2024.
Plecháč, Petr, and Robert Kolár. “The Corpus of Czech Verse.” Studia Metrica et Poetica, vol. 2, no. 1, 2015, pp. 107–118, https://doi.org/10.12697/smp.2015.2.1.05. Accessed 24 Jan. 2024.
Plecháč, Petr, et al. PoeTree: Poetry Treebanks in Czech, English, French, German, Hungarian, Italian, Portuguese, Russian and Spanish. 0.0.1. Zenodo, 2023, https://zenodo.org/records/10008459. Accessed 24 Jan. 2024.
Popel, Martin, et al. “Udapi: Universal API for Universal Dependencies.” Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies, edited by Marie-Catherine de Marneffe et al., Northern European Association for Language Technology, 2017, pp. 96–101.
Straka, Milan. “Universal Dependencies 2.12 Models for UDPipe 2.” LINDAT/CLARIAH-CZ, 2023, http://hdl.handle.net/11234/1-5200. Accessed 24 Jan. 2024.
Straka, Milan, and Martin Popel. “Eval.Py. 1.2.” GitHub, 2023, https://github.com/UniversalDependencies/tools/blob/master/eval.py. Accessed 24 Jan. 2024.
Straka, Milan, and Jana Straková. “UDPipe 2.” LINDAT/CLARIAH-CZ, 2022, http://hdl.handle.net/11234/1-4816. Accessed 24 Jan. 2024.
Straka, Milan, et al. “UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing.” Proceedings of the Tenth International Conference on Language Resources and Evaluation, edited by Nicoletta Calzolari et al., European Language Resources Association, Paris, 2016, pp. 4290–4297, https://aclanthology.org/L16-1680. Accessed 24 Jan. 2024.
Zeman, Daniel, et al. “CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies.” Proceedings of the CoNLL 2018 Shared Task, edited by Daniel Zeman and Jan Hajič, Kerrville (TX), The Association for Computational Linguistics, 2018, pp. 1–21, http://www.aclweb.org/anthology/K18-2001. Accessed 24 Jan. 2024.
Zeman, Daniel, et al. “Universal Dependencies 2.12.” LINDAT/CLARIAH-CZ, 2023, http://hdl.handle.net/11234/1-5150. Accessed 24 Jan. 2024.
Žižková, Hana. “Compound Adverbs as an Issue in Machine Analysis of Czech Language.” Journal of Linguistics / Jazykoedný časopis, vol. 68, no. 2, 2017, pp. 396–403, https://doi.org/10.1515/jazcas-2017-0049. Accessed 24 Jan. 2024.