SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian
Објеката
- Тип
- Рад у зборнику
- Верзија рада
- објављена
- Језик
- енглески
- Креатор
- Ranka Stanković, Branislava Šandrih, Rada Stijović, Cvetana Krstev, Duško Vitas, Aleksandra Marković
- Извор
- Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference
- Уредник
- Kosem, I et. al.
- Издавач
- Lexical Computing CZ, s.r.o.
- Датум издавања
- 2019
- Сажетак
- У овом раду представљамо модел за избор добрих примера за речник српског језика и развој иницијалних компоненти модела. Метода која се користи заснива се на детаљној анализи различитих лексичких и синтактичких карактеристика у корпусу састављених од примера из пет дигитализованих свезака речника САНУ. Почетни скуп функција био је инспирисан сличним приступом и за друге језике. Дистрибуција карактеристика примера из овог корпуса упоређује се са карактеристиком дистрибуције узорака реченица ексцерпираних из корпуса који садрже различите текстове. Анализа је показала да постоји група карактеристика која су снажни показатељи да се реченица не треба користити као пример. Преостале карактеристике, укључујући детекцију нестандардних и других означених лексика из речника САНУ, користе се за рангирање. Изабрани примери кандидата, представљени као вектори, коришћени су помоћу алата за рангирање за примере српског кандидата и надгледани модел машинског учења за класификацију у стандардне и нестандардне српске лексике, ради даље интеграције у решење за садашње и будуће производне пројекте речника.
- In this paper we present a model for selection of good dictionary examples for Serbian and the development of initial model components. The method used is based on a thorough analysis of various lexical and syntactic features in a corpus compiled of examples from the five digitized volumes of the Serbian Academy of Sciences and Arts (SASA) dictionary. The initial set of features was inspired by a similar approach for other languages. The feature distribution of examples from this corpus is compared with the feature distribution of sentence samples extracted from corpora comprising various texts. The analysis showed that there is a group of features which are strong indicators that a sentence should not be used as an example. The remaining features, including detection of non-standard and other marked lexis from the SASA dictionary, are used for ranking. The selected candidate examples, represented as featurevectors, are used with the GDEX ranking tool for Serbian candidate examples and a supervised machine learning model for classification on standard and non-standard Serbian sentences, for further integration into a solution for present and future dictionary production projects.
- почетак странице
- 248
- крај странице
- 269
- Subject
- Српски, добри примери из речника, аутоматизација израде речника, издвајање својстава, Машинско учење
- Serbian, good dictionary examples, automatization of dictionary-making, feature extraction, machine learning
- Шира категорија рада
- М30
- Ужа категорија рада
- М33
- Је дио
- 47003
- Права
- Отворени приступ
- Лиценца
- Creative Commons – Attribution-Share Alike 4.0 International
- Формат
- Медија
- eLex_2019_14.pdf
Ranka Stanković, Branislava Šandrih, Rada Stijović, Cvetana Krstev, Duško Vitas, Aleksandra Marković. "SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian" in Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference , Lexical Computing CZ, s.r.o. (2019)
This item was submitted on 7. фебруар 2020. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://drug.rgf.bg.ac.rs/s/repo
Click here to view the collected data.