Претрага
56 items
-
Data from the Digital Repository of the Faculty of Mining and Geology in eScience (eNauka)
Biljana Rujević, Mihailo Škorić (2024)The paper describes linking the Digital Repository of the University of Belgrade, Faculty of Mining and Geology, with the eScience system in terms of transferring metadata about the results of researchers' scientific work. The steps taken to ensure a smooth harvesting of metadata are outlined. Additionally, a presentation of additional improvements to the OAI system is provided, aiming to contribute to the automatic linking of authors with their results in the eScience system.Biljana Rujević, Mihailo Škorić. "Data from the Digital Repository of the Faculty of Mining and Geology in eScience (eNauka)" in Infotheca, Faculty of Philology, University of Belgrade (2024). https://doi.org/10.18485/infotheca.2023.23.2.4
-
SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch
Serbian ELTeC collection (100 novels and extended) developed within COST action CA16204 Distant Reading for European Literary History comprises at this moment 111 novels published in the period 1840-1920. Such a valuable resource is and will be used for various lexical and linguistic research, by using different tools and methodologies. In this paper, three platforms on which these novels are published will be presented: “Udaljeno ˇcitanje”, Aurora and Sketch Engine.Ranka Stanković, Mihailo Škorić, Petar Popović. "SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch" in Infotheca, Faculty of Philology, University of Belgrade (2022). https://doi.org/10.18485/infotheca.2021.21.2.7
-
The Use of the Omeka Semantic Platform for the Development of the University of Belgrade, Faculty of Mining and Geology Digital Repository
Under the regulations of the Ministry of Education, Science and technological Development, a digital repository based on the Omeka S data storage platform has been developed for the Faculty of Mining and Geology. The platform has been upgraded with the required modular extensions, Solr index and automatic OCR. Furthermore, document indexing and search have been fine-tuned with the aid of e-dictionaries of the Serbian language, which has brought about outstanding results in terms of usage facilitation and overall ...Petar Popović, Mihailo Škorić, Biljana Rujević. "The Use of the Omeka Semantic Platform for the Development of the University of Belgrade, Faculty of Mining and Geology Digital Repository" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2020.20.1_2.9
-
Веб-алат за управљање грађом Речника САНУ и анотација листића
Грађа на основу које се израђује Речник српскохрватског књижевног и народног језика САНУ, а која садржи материјал из преко 4.500 писаних извора и 300 рукописних збирки речи са подручја народних говора штокавског наречја, забележена је на око 5.000.000 листића. Богат лексички материјал, који обухвата књижевни и народни језик у протекла два века и на основу кога треба да се напише још најмање 15 томова Речника, пружа могућност и за разноврсна лингвистичка и ванлингвистичка истраживања. Из тог разлога се приступило ...Рада Стијовић, Ранка Станковић, Михаило Шкорић. "Веб-алат за управљање грађом Речника САНУ и анотација листића" in Rasprave Instituta za hrvatski jezik i jezikoslovlje, Institute of Croatian Language and Linguistics (2020). https://doi.org/10.31724/rihjj.46.2.32
-
Transformer-Based Composite Language Models for Text Evaluation and Classification
Parallel natural language processing systems were previously successfully tested on the tasks of part-of-speech tagging and authorship attribution through mini-language modeling, for which they achieved significantly better results than independent methods in the cases of seven European languages. The aim of this paper is to present the advantages of using composite language models in the processing and evaluation of texts written in arbitrary highly inflective and morphology-rich natural language, particularly Serbian. A perplexity-based dataset, the main asset for the ...Mihailo Škorić, Miloš Utvić, Ranka Stanković. "Transformer-Based Composite Language Models for Text Evaluation and Classification" in Mathematics, MDPI AG (2023). https://doi.org/10.3390/math11224660
-
Parallel Bidirectionally Pretrained Taggers as Feature Generators
In a setting where multiple automatic annotation approaches coexist and advance separately but none completely solve a specific problem, the key might be in their combination and integration. This paper outlines a scalable architecture for Part-of-Speech tagging using multiple standalone annotation systems as feature generators for a stacked classifier. It also explores automatic resource expansion via dataset augmentation and bidirectional training in order to increase the number of taggers and to maximize the impact of the composite system, which ...Ranka Stanković, Mihailo Škorić, Branislava Šandrih Todorović. "Parallel Bidirectionally Pretrained Taggers as Feature Generators" in Applied Sciences, MDPI AG (2022). https://doi.org/10.3390/app12105028
-
Репозиторијум дигиталних идентификатора објеката – доиФил: изградња, стање и перспективе
Милош Утвић, Михаило Шкорић (2017)Филолошки факултет Универзитета у Београду је крајем јула 2015. године склопио уговор са агенцијом Crossref и тиме стекао право да својим публикацијама додељује дигитални идентификатор објекта (DOI), као и публикацијама других издавача које заступа. Истовремено, у склопу уговора, Филолошки факултет је развио репозиторијум доиФил који за све регистроване публикације чува њихове библиографске метаподатке, хипервезу ка комплетном тексту и сам DOI. После припремних радњи и разраде процеса на којима је заснован рад репозиторијума, у новембру 2016. године је репозиторијум доиФил ...... изградња, стање и перспективе Милош Утвић, Михаило Шкорић Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Репозиторијум дигиталних идентификатора објеката – доиФил: изградња, стање и перспективе | Милош Утвић, Михаило Шкорић | Научна конференција Библиоинфо — 55 ...
... http://www.citaliste.com/casopis/br17/9.pdf (приступано 1.3.2019). 90 BIBLIOINFO Miloš Utvić University of Belgrade Faculty of Philology Mihailo Škorić University of Belgrade Faculty of Mining and Geology REPOSITORY OF DIGITAL OBJECT IDENTIFIERS - DOIFIL : THE CONSTRUCTION, STATE AND PROSPECTS ...
... DOI-тима проширен Михаилом Шкорићем, тада студентом мастер академских студија на Катедри за библиотекарство и информатику Филолошког факул- тета. Шкорић је управо био положио курс Електронско издаваштво и дигиталне библиотеке код наставника Милоша Утвића и показивао је живо занимање за интернет т ...Милош Утвић, Михаило Шкорић. "Репозиторијум дигиталних идентификатора објеката – доиФил: изградња, стање и перспективе" in Научна конференција Библиоинфо — 55 година од покретања наставе библиотекарства на високошколском нивоу, Београд 18. мај 2017., Филолошки факултет Универзитета у Београду (2017). https://doi.org/10.18485/biblioinfo.2017.ch7
-
Дигиталне библиотеке у рударству и геологији са посебним освртом на представљање сиве литературе
Имајући у виду потребу за проналажењем информација похрањених у различитим облицима документације која се генерише у областима рударства и геологије на Рударско-геолошком факултету Универзитета у Београду, отпочет је процес развоја дигиталне библиотеке ROmeka@RGF, на платформи за приказивање дигиталних колекција - Омека. Значајан део документације представља такозвана сива литература која је претежно заступљена у виду вишетомне документацијe. Први савладани изазов представљало је повезивање различитих вишетомних делова пројектних извештаја у једну целину која би била лако доступна и претражива.... Александра Томашевић, Михаило Шкорић Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Дигиталне библиотеке у рударству и геологији са посебним освртом на представљање сиве литературе | Биљана Лазић, Александра Томашевић, Михаило Шкорић | Научна конференција ...
... :The European Language Resources Association (ELRA), 2016. 507-514. 158 BIBLIOINFO Томашевић, Александра, Биљана Лазић, Далибор Воркапић, Михаило Шкорић, Љиљана Колоња. „Употреба веб платформе Омека за дигиталне библиотеке из домена рударства“. Инфотека Год. 17, бр. 2 (2017): 27-51. Томашевић ...
... Ћирковић, Сњежана. „Сива литература – камелеон информационих ресурса“. Инфо- тека Год. 18, бр. 1 (2018): 78-87. Biljana Lazić Aleksandra Tomašević Mihailo Škorić DIGITAL LIBRARIES IN MINING AND GEOLOGY WITH SPECIAL REFERENCE TO THE GRAY LITERATURE Summary Having in mind the need for information retrieval ...Биљана Лазић, Александра Томашевић, Михаило Шкорић. "Дигиталне библиотеке у рударству и геологији са посебним освртом на представљање сиве литературе" in Научна конференција Библиоинфо — 55 година од покретања наставе библиотекарства на високошколском нивоу, Београд 18. мај 2017., Филолошки факултет Универзитета у Београду (2019). https://doi.org/10.18485/biblioinfo.2017.ch13
-
Football terminology: compilation and transformation into OntoLex-Lemon resource
У овом раду представља се пројекат који је у развоју, креирање првог дигиталног фудбалског речника на српском језику, као и да демонстрација примене модела OntoLex и љегових модула. OntoLex-FrAC модул укључује информације о учесталости и примерима употребе екстрахованих из корпуса. У овом случају, креиран је корпус за специфичан домен под називом СрФудКо, који садржи чланке вести о фудбалу на српском језику. Вишечлани термини аутоматски су екстраховани из српског корпуса, а затим ручно евалуирани и класификовани као спортски или ...Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević. "Football terminology: compilation and transformation into OntoLex-Lemon resource" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Classification of Terms on a Positive-Negative Feelings Polarity Scale Based on Emoticons
Mihailo Škorić (2017)The goal of this paper is to draw attention to the possibility of using emoticon-riddled text on the web in language-neutral sentiment analysis. It introduces several innovations in the existing framework of research and tests their effectiveness. It also presents a software tool especially made for that purpose, explains how it builds a database with sentimental value of terms and offers the user manual. Finally, it presents a software tool that tests the new database and gives some examples ...... Feelings Polarity Scale Based on Emoticons Mihailo Škorić Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Classification of Terms on a Positive-Negative Feelings Polarity Scale Based on Emoticons | Mihailo Škorić | Infotheca | 2017 | | 10.18485/infotheca.2017 ...
... results. KEYWORDS: data mining, information extraction, emotions, text on the web. PAPER SUBMITTED: 24 January 2017 PAPER ACCEPTED: 25 March 2017 Mihailo Škorić miks@tesla.rcub.bg.ac.rs University of Belgrade 1 Introduction When creating natural language understanding software, there are two widely ...Mihailo Škorić. "Classification of Terms on a Positive-Negative Feelings Polarity Scale Based on Emoticons" in Infotheca, Faculty of Philology, University of Belgrade (2017). https://doi.org/10.18485/infotheca.2017.17.1.4
-
It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text
Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić. "It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text" in Linköping Electronic Conference Proceedings, Linköping University Electronic Press (2023). https://doi.org/10.3384/ecp198010
-
It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map
The paper will present the results of the project `“It-Sr-NER: Web services for named entities recognition, linking and mapping,” in which teams from the University of Turin and the Society for Language Resources and Technologies JeRTeh participated, and whose goal was the development of the It-Sr-NER web service for named entity annotations in the text and displaying them on the map. Named entities in these services are names of persons, places, organizations, demonyms (ethnicities), events and works of art.Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić. "It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map" in Infotheca, Belgrade : Faculty of Philology, University of Belgrade (2023). https://doi.org/10.18485/infotheca.2023.23.1.3
-
Annotation of the Serbian ELTeC Collection
Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeCRanka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3
-
Medical Domain Document Classification via Extraction of Taxonomy Concepts from MeSH Ontology
Mihailo Škorić, Mauro Dragoni (2019)This paper is a result of a task that was presented to attendants of Keyword Search in Big Linked Data summer school, that was organized by Vienna University of Technology, under the Keystone COST action in the summer of 2017. It presents a specific approach to the classification via creation of minimal document surrogates based on the US National medical library’s MeSH ontology, which is derived from the Medical Subject Headings thesaurus. In a series of previously classified medically ...... Taxonomy Concepts from MeSH Ontology Mihailo Škorić, Mauro Dragoni Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Medical Domain Document Classification via Extraction of Taxonomy Concepts from MeSH Ontology | Mihailo Škorić, Mauro Dragoni | Infotheca | 2019 ...
... documents. KEYWORDS: document classification, MeSH, ontology, information extraction. PAPER SUBMITTED: 21 April 2019 PAPER ACCEPTED: 30 August 2019 Mihailo Škorić mihailo.skoric@rgf.bg.ac.rs University of Belgrade Belgrade, Serbia Mauro Dragoni dragoni@fbk.eu Fondazione Bruno Kessler Trento, Italy ...Mihailo Škorić, Mauro Dragoni. "Medical Domain Document Classification via Extraction of Taxonomy Concepts from MeSH Ontology" in Infotheca, Faculty of Philology, University of Belgrade (2019). https://doi.org/10.18485/infotheca.2019.19.1.3
-
An Italian-Serbian Sentence Aligned Parallel Literary Corpus
This article presents the construction and relevance of an Italian-Serbian sentence-aligned parallel corpus, delving into the aligned sentences in order to facilitate effective translation between the two languages. The parallel corpus serves as a valuable resource for language experts, researchers, and language enthusiasts, fostering a deeper understanding of linguistic nuances and cultural expressions. By bridging the gap between Serbian and Italian, this corpus opens new avenues for cross-cultural communication and collaboration, and ultimately contributes to the improvement of language-related ...Saša Moderc, Ranka Stanković, Aleksandra Tomašević, Mihailo Škorić. "An Italian-Serbian Sentence Aligned Parallel Literary Corpus" in Review of the National Center for Digitization, Belgrade : Faculty of Mathematics, University of Belgrade (2023). https://doi.org/10.5281/zenodo.11203388
-
From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)
In this paper we present the wikification of the ELTeC (European Literary Text Collection), developed within the COST Action ``Distant Reading for European Literary History'' (CA16204). ELTeC is a multilingual corpus of novels written in the time period 1840—1920, built to apply distant reading methods and tools to explore the European literary history. We present the pipeline that led to the production of the linked dataset, the novels’ metadata retrieval and named entity recognition, transformation, mapping and Wikidata population, ...Milica Ikonić Nešić, Ranka Stanković, Christof Schöch and Mihailo Škorić. "From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)" in Proceedings of The 8th Workshop on Linked Data in Linguistics within the 13th Language Resources and Evaluation Conference, June 2022, Marseille, France, European Language Resources Association (2022)
-
From DELA Based Dictionary to Leximirka Lexical Database
Biljana Lazić, Mihailo Škorić (2020)In this paper, we will present an approach in transforming Serbian language Morphological dictionaries from a DELA text format to a lexical database dubbed Leximirka. Considering the benefits of storing data within a database when compared to storing them in textual documents, we will outline some of the functionality that the database has made possible. We will also show how hand-made rules that use category labels lexical entries are marked with can be used to link lexical entries. ...... Dictionary to Leximirka Lexical Database Biljana Lazić, Mihailo Škorić Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] From DELA Based Dictionary to Leximirka Lexical Database | Biljana Lazić, Mihailo Škorić | Infotheca | 2020 | | 10.18485/infotheca.2019.19.2 ...
... s, language resources, Leximirka. PAPER SUBMITTED: 30 August 2019 PAPER ACCEPTED: 28 December 2019 Biljana Lazić biljana.lazic@rgf.bg.ac.rs Mihailo Škorić mihailo.skoric@rgf.bg.ac.rs University of Belgrade Faculty of Mining and Geology Belgrade, Serbia 1 Introduction Prof. Dr. Dusko Vitas ...
... December 2019 95 Lazić B., Škorić M., “From DELA based dictionary to . . . ”, pp. 81–98 Stanković, Ranka, Cvetana Krstev, Biljana Lazić and Mihailo Škorić. “Elec- tronic Dictionaries – from File System to lemon Based Lexical Database”. In Proceedings of the 11th International Conference on Language ...Biljana Lazić, Mihailo Škorić. "From DELA Based Dictionary to Leximirka Lexical Database" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.4
-
Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution
This paper explores the effectiveness of parallel stylometric document embeddings in solving the authorship attribution task by testing a novel approach on literary texts in 7 different languages, totaling in 7051 unique 10,000-token chunks from 700 PoS and lemma annotated documents. We used these documents to produce four document embedding models using Stylo R package (word-based, lemma-based, PoS-trigrams-based, and PoS-mask-based) and one document embedding model using mBERT for each of the seven languages. We created further derivations of these ...Mihailo Škorić, Ranka Stanković, Milica Ikonić Nešić, Joanna Byszuk, Maciej Eder. "Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution" in Mathematics, MDPI AG (2022). https://doi.org/10.3390/math10050838
-
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе ...... Александра Томашевић, Михаило Шкорић, Биљана Лазић Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса | Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић ...
... 18485/msc.2019.48.3.ch12 Милош В. УТВИЋ* Филолошки факултет Универзитета у Београду Ранка М. СТАНКОВИЋ** Александра Ђ. ТОМАШЕВИЋ* Михаило Ђ. ШКОРИЋ Биљана Ђ. ЛАЗИЋ Рударско-геолошки факултет Универзитета у Београду ПРЕТРАГА КОРПУСА ЗАСНОВАНА НА УПОТРЕБИ ЕКСТЕРНИХ ЛЕКСИЧКИХ РЕСУРСА ...
... Natural Language Processing Using Very Large Corpora, Dordrecht: Springer, 13–25. Miloš V. Utvić, Ranka M. Stanković, Aleksandra Đ. Tomašević, Mihailo Đ. Škorić, Biljana Đ. Lazić THE CORPUS SEARCH BASED ON USAGE OF EXTERNAL LEXICAL RESOURCES THROUGH WEB SERVICES Summary Тhis paper explores a hybrid ...Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12
-
Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection
Ranka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Duško Vitas, Mihailo Škorić, Milica Ikonić Nešić (2022)In this paper we present the Serbian part of the ELTeC multilingual corpus of novels written in the time period 1840-1920. The corpus is being built in order to test various distant reading methods and tools with the aim of re-thinking the European literary history. We present the various steps that led to the production of the Serbian sub-collection: the novel selection and retrieval, text preparation, structural annotation, POS-tagging, lemmatization and named entity recognition. The Serbian sub-collection was published ...Ranka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Duško Vitas, Mihailo Škorić, Milica Ikonić Nešić. "Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection" in Proceedings of the Language Resources and Evaluation Conference, June 2022, Marseille, France, European Language Resources Association (2022)