Towards Automatic Definition Extraction for Serbian

Објеката

Тип
Рад у зборнику
Верзија рада
објављена
Језик
енглески
Креатор
Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić
Извор
Proceedings of the XIX EURALEX Congress of the European Assocition for Lexicography: Lexicography for Inclusion (Volume 2). 7-9 September (virtual)
Уредник
Gavriilidou, Z, Mitits L., Kiosses S.
Издавач
Democritus University of Thrace
Датум издавања
2021
Сажетак
U radu su prikazani preliminarni rezultati automatske ekstrakcije kandidata za definicije rečnika iz nestrukturiranih tekstova na srpskom jeziku u cilju ubrzanja razvoja rečnika. Definicije u rečniku Srpske akademije nauka i umetnosti (SANU) korišćene su za modelovanje različitih tipova definicija (opisnih, gramatičkih, referentnih i sinonimskih) koje imaju različite sintaksičke i leksičke karakteristike. Korpus istraživanja sastoji se od 61.213 definicija imenica, koje su analizirane korišćenjem morfoloških e-rečnika i lokalnih gramatika implementiranih kao pretvarači konačnih stanja u paketu za obradu korpusa otvorenog koda Unitek. 21 model razvijen do sadašnjeg trenutka pokriva 57% definicija rečnika, od kojih je 83% u potpunosti prepoznato. Analiza je pokazala da mnoge definicije imaju strukturu koja se može modelirati, o čemu svedoči statistika definicija grupisanih po tipu. Ovi modeli su korišćeni za preuzimanje definicija imenica iz korpusa od 1,4 miliona reči koji sadrži 25 udžbenika za osnovne i srednje škole koji pokrivaju različite domene. Dobijeni rezultati su detaljno analizirani i date smernice za njihovo unapređenje.
The paper presents preliminary results of the automatic extraction of candidates for dictionary definitions from unstructured texts in the Serbian language with the aim of accelerating dictionary development. Definitions in the Serbian Academy of Sciences and Arts (SASA) dictionary were used to model different definition types (descriptive, grammatical, reference-based and synonym-based) having different syntactic and lexical features. The research corpus consists of 61,213 definitions of nouns, which were analysed using Serbian morphological e-dictionaries and local grammars implemented as finite state transducers in an open-source corpus processing suite Unitex. The 21 models developed up to the present moment cover 57% of dictionary definitions, 83% of which were fully recognized. The analysis has shown that many definitions have a structure that can be modelled, as evidenced by the statistics of definitions grouped by type. These models were used to retrieve noun definitions from a 1.4-million-word corpus containing 25 primary and secondary school textbooks covering various domains. The obtained results were thoroughly analysed, and guidelines were offered for their improvement.
почетак странице
695
крај странице
704
isbn
978-618-85138-2-2
issn
2521-7100
Шира категорија рада
М30
Ужа категорија рада
М33
Права
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат
.pdf

Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić. "Towards Automatic Definition Extraction for Serbian" in Proceedings of the XIX EURALEX Congress of the European Assocition for Lexicography: Lexicography for Inclusion (Volume 2). 7-9 September (virtual), Democritus University of Thrace (2021)

This item was submitted on 22. новембар 2021. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://drug.rgf.bg.ac.rs/s/repo

Click here to view the collected data.