Collected Item: “Creation of a Training Dataset for Question-Answering Models in Serbian”
Врста публикације
Саопштење са скупа штампано у изводу
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Ranka Stanković, Jovana Rađenović, Maja Ristić, Dragan Stankov
Наслов рада (Наслов - поднаслов)
Creation of a Training Dataset for Question-Answering Models in Serbian
Назив конференције (зборника), место и датум одржавања
South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024.
Уредник/ци зборника
prof. dr Jasmina Moskovljević Popović, prof. dr Ranka Stanković
Издавач (Београд : Просвета)
University of Belgrade - Faculty of Philology
Година издавања
2024.
Сажетак рада на српском језику
Razvoj i primena veštačke inteligencije u jezičkim tehnologijama značajno su napredovali poslednjih godina, posebno u domenu zadatka odgovaranja na pitanja (Question Answering - QA). Dok su postojeći resursi za QA zadatke razvijeni za glavne svetske jezike, srpski jezik je relativno zanemaren u ovoj oblasti. Ovaj rad predstavlja inicijativu za kreiranje obimnog i raznovrsnog skupa podataka za obučavanje modela za odgovaranje na pitanja na srpskom jeziku, koji će doprineti unapređenju jezičkih tehnologija za srpski jezik.
Pored brojnih istraživanja o jezičkim modelima u poslednjih nekoliko godina, mnogo je urađeno i na referentnim skupovima podataka potrebnim za praćenje napretka modeliranja. Posebno je puno urađeno kada je reč o odgovaranju na pitanja i razumevanju pročitanog mada, uglavnom, kada je reč o velikim jezicima (Rogers et al. 2023). U radu se pruža pregled različitih formata i domena raspoloživih višejezičnih i jednojezičnih resursa, sa posebnim osvrtom na srpski jezik (Cenić & Stojković 2023; Cvetanović & Tadić 2024). Razmotrićemo i implikacije koje slede iz prekomernog fokusiranja na engleski jezik
U okviru projekta TESLA (Text Embeddings - Serbian Language Applications) radi se na pripremi skupa podataka: kontekst, pitanja i odgovori, prikupljenih iz različitih domena. Skup će biti sačinjen od tri manja. U cilju izrade prvog skupa, podskup Stanfordovog skupa SQuAD (Rajpurkar et al. 2018), gde je odgovor segment teksta, prevodi se i prilagođava, odabirući teme kao što su: Nikola Tesla, klimatske promene, građevina, geologija, itd. Podskup će imati oko 7000 pitanja sa pratećim odgovorima. Drugi skup koji se priprema će uglavnom biti vezan za zaštitu životne sredine, informatiku i energetiku i sadržaće oko 5000 pitanja sa odgovorima i datim kontekstom ekscerpiranim iz udžbenika. Treći skup će sadržati automatski generisane kontekste na osnovu sadržaja baze znanja Wikidata.
Pitanja su pažljivo formulisana kako bi pokrila različite tipove upita: pitanja koja zahtevaju konkretne činjenice, pitanja sa deskriptivnim odgovorom (koja traže objašnjenja ili opis), i proceduralna pitanja, odnosno pitanja koja kao odgovor zahtevaju niz uputstava ili koraka. Podaci se prikupljaju na različite načine i verifikuju kroz proces ručnog anotiranja kako bi se obezbedila tačnost i relevantnost odgovora. Nedostatak ručno anotiranih skupova podataka na srpskom jeziku čini da doprinos ovog istraživanja bude od posebnog značaja.
Zaključak rada ukazuje na značaj i potencijal primene ovog skupa podataka u različitim oblastima, uključujući obrazovne tehnologije, digitalne asistente, i sisteme za pretragu informacija. Predstavljeni rezultati doprinose unapređenju jezičkih tehnologija za srpski jezik, i nadamo se da će podstaći dalja istraživanja i razvoj u ovoj oblasti
Pored brojnih istraživanja o jezičkim modelima u poslednjih nekoliko godina, mnogo je urađeno i na referentnim skupovima podataka potrebnim za praćenje napretka modeliranja. Posebno je puno urađeno kada je reč o odgovaranju na pitanja i razumevanju pročitanog mada, uglavnom, kada je reč o velikim jezicima (Rogers et al. 2023). U radu se pruža pregled različitih formata i domena raspoloživih višejezičnih i jednojezičnih resursa, sa posebnim osvrtom na srpski jezik (Cenić & Stojković 2023; Cvetanović & Tadić 2024). Razmotrićemo i implikacije koje slede iz prekomernog fokusiranja na engleski jezik
U okviru projekta TESLA (Text Embeddings - Serbian Language Applications) radi se na pripremi skupa podataka: kontekst, pitanja i odgovori, prikupljenih iz različitih domena. Skup će biti sačinjen od tri manja. U cilju izrade prvog skupa, podskup Stanfordovog skupa SQuAD (Rajpurkar et al. 2018), gde je odgovor segment teksta, prevodi se i prilagođava, odabirući teme kao što su: Nikola Tesla, klimatske promene, građevina, geologija, itd. Podskup će imati oko 7000 pitanja sa pratećim odgovorima. Drugi skup koji se priprema će uglavnom biti vezan za zaštitu životne sredine, informatiku i energetiku i sadržaće oko 5000 pitanja sa odgovorima i datim kontekstom ekscerpiranim iz udžbenika. Treći skup će sadržati automatski generisane kontekste na osnovu sadržaja baze znanja Wikidata.
Pitanja su pažljivo formulisana kako bi pokrila različite tipove upita: pitanja koja zahtevaju konkretne činjenice, pitanja sa deskriptivnim odgovorom (koja traže objašnjenja ili opis), i proceduralna pitanja, odnosno pitanja koja kao odgovor zahtevaju niz uputstava ili koraka. Podaci se prikupljaju na različite načine i verifikuju kroz proces ručnog anotiranja kako bi se obezbedila tačnost i relevantnost odgovora. Nedostatak ručno anotiranih skupova podataka na srpskom jeziku čini da doprinos ovog istraživanja bude od posebnog značaja.
Zaključak rada ukazuje na značaj i potencijal primene ovog skupa podataka u različitim oblastima, uključujući obrazovne tehnologije, digitalne asistente, i sisteme za pretragu informacija. Predstavljeni rezultati doprinose unapređenju jezičkih tehnologija za srpski jezik, i nadamo se da će podstaći dalja istraživanja i razvoj u ovoj oblasti
Сажетак рада на енглеском језику
The development and application of artificial intelligence in language technologies have advanced significantly in recent years, especially in the domain of the task of answering questions (Question Answering - QA). While existing resources for QA tasks have been developed for major world languages, the Serbian language has been relatively neglected in this area. This work represents an initiative to create an extensive and diverse set of data for training models for answering questions in the Serbian language, which will contribute to the improvement of language technologies for the Serbian language.
In addition to the numerous research on language models in the last few years, much work has also been done on the reference datasets needed to track modeling progress. A lot has been done when it comes to answering questions and understanding what is read, although, mostly, when it comes to big languages (Rogers et al. 2023). The paper provides an overview of the various formats and domains of available multilingual and monolingual resources, with special reference to the Serbian language (Cenić & Stojković 2023; Cvetanović & Tadić 2024). We will also consider the implications that follow from an excessive focus on the English language
As part of the TESLA (Text Embeddings - Serbian Language Applications) project, we are working on the preparation of a set of data: context, questions and answers, collected from different domains. The set will be made up of three smaller ones. To create the first set, a subset of the Stanford set SQuAD (Rajpurkar et al. 2018), where the answer is a segment of text, is translated and adapted, choosing topics such as: Nikola Tesla, climate change, construction, geology, etc. The subset will have around 7000 questions with accompanying answers. The second set that is being prepared will mainly be related to environmental protection, informatics and energy and will contain about 5000 questions with answers and given context excerpted from the textbook. The third set will contain automatically generated contexts based on the content of the Wikidata knowledge base.
The questions are carefully formulated to cover different types of queries: questions that require specific facts, questions with descriptive answers (which seek explanations or descriptions), and procedural questions, that is, questions that require a series of instructions or steps as a response. Data is collected in a variety of ways and verified through a manual annotation process to ensure accuracy and relevance of responses. The lack of manually annotated datasets in the Serbian language makes the contribution of this research particularly important.
The conclusion of the paper indicates the importance and potential of the application of this data set in various fields, including educational technologies, digital assistants, and information retrieval systems. The presented results contribute to the improvement of language technologies for the Serbian language, and we hope that they will encourage further research and development in this area.
In addition to the numerous research on language models in the last few years, much work has also been done on the reference datasets needed to track modeling progress. A lot has been done when it comes to answering questions and understanding what is read, although, mostly, when it comes to big languages (Rogers et al. 2023). The paper provides an overview of the various formats and domains of available multilingual and monolingual resources, with special reference to the Serbian language (Cenić & Stojković 2023; Cvetanović & Tadić 2024). We will also consider the implications that follow from an excessive focus on the English language
As part of the TESLA (Text Embeddings - Serbian Language Applications) project, we are working on the preparation of a set of data: context, questions and answers, collected from different domains. The set will be made up of three smaller ones. To create the first set, a subset of the Stanford set SQuAD (Rajpurkar et al. 2018), where the answer is a segment of text, is translated and adapted, choosing topics such as: Nikola Tesla, climate change, construction, geology, etc. The subset will have around 7000 questions with accompanying answers. The second set that is being prepared will mainly be related to environmental protection, informatics and energy and will contain about 5000 questions with answers and given context excerpted from the textbook. The third set will contain automatically generated contexts based on the content of the Wikidata knowledge base.
The questions are carefully formulated to cover different types of queries: questions that require specific facts, questions with descriptive answers (which seek explanations or descriptions), and procedural questions, that is, questions that require a series of instructions or steps as a response. Data is collected in a variety of ways and verified through a manual annotation process to ensure accuracy and relevance of responses. The lack of manually annotated datasets in the Serbian language makes the contribution of this research particularly important.
The conclusion of the paper indicates the importance and potential of the application of this data set in various fields, including educational technologies, digital assistants, and information retrieval systems. The presented results contribute to the improvement of language technologies for the Serbian language, and we hope that they will encourage further research and development in this area.
Кључне речи на српском (одвојене знаком ", ")
veštačka inteligencija, obrada prirodnog jezika, jezički resursi, anotirani skupovi, ekstrakcija informacija, odgovaranje na pitanja
Кључне речи на енглеском (одвојене знаком ", ")
artificial intelligence, natural language processing, language resources, annotated sets, information extraction, question answering
Шира категорија рада према правилнику МПНТ
М60
Ужа категорија рада према правилнику МПНТ
М64
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат датотеке
.pdf