Претрага
52 items
-
Serbian ELTeC Sub-Collection in Wikidata
This paper presents an example of integration of Wikidata with digital libraries and external systems, as well as some best practices for speeding up the process of data preparation and import to Wikidata, on the use case of SrpELTeC, Serbian subcollection of the ELTeC multilingual collection (European Literary Text Collection). After preliminary work on the manual Wikidata population with SrpELTeC novels, the goal was to automate the process of preparing and importing information, so different solutions were analysed and ...Milica Ikonić Nešić, Ranka Stanković, Biljana Rujević. "Serbian ELTeC Sub-Collection in Wikidata" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.4
-
Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking
U radu se prikazuju rezultati istraživanja vezanih za pripremu paralelnih korpusa, fokusirajući se na transformaciju u RDF grafove koristeći NLP Interchange Format (NIF) za lingvističku anotaciju. Pružamo pregled paralelnog korpusa koji je korišćen u ovom studijskom slučaju, kao i proces označavanja delova govora, lematizacije i prepoznavanja imenovanih entiteta (NER). Zatim opisujemo povezivanje imenovanih entiteta (NEL), konverziju podataka u RDF, i uključivanje NIF anotacija. Proizvedene NIF datoteke su evaluirane kroz istraživanje triplestore-a korišćenjem SPARQL upita. Na kraju, razmatra se povezivanje Linked ...paralelni korpusi, povezivanje imenovanih entiteta, prepoznavanje imenovanih entiteta, NER, NEL, povezani podaci, NIF, VikipodaciRanka Stanković, Milica Ikonić Nešić, Olja Perisic, Mihailo Škorić, Olivera Kitanović. "Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking" in Proceedings of the 9th Workshop on Linked Data in Linguistics @ LREC-COLING 2024, Turin, 20-25 May 2024, ELRA and ICCL (2024)
-
Нове технологије за оживљавање старих текстова
удаљено читање, књижевни корпус, обрада српског језика, анотација врстом речи, лематизација, именовани ентитетиЦветана Крстев, Ранка Станковић, Бранислава Шандрих Тодоровић, Милица Иконић Нешић. "Нове технологије за оживљавање старих текстова" in Зборник радова Међународне научне конференције Дигитална хуманистика и словенско културно наслеђе II, Београд, 28-29 јуни 2021., Београд : Савез славистичких друштава Србије (2023)
-
Annotation of the Serbian ELTeC Collection
Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeCRanka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3
-
Увођење доменских и семантичких маркера за област рударства у српске електронске речнике
... техничког домена, конкретно рударства. За српски језик је развијен систем за препознавање именованих ентитета (Крстев и др., 2013), заснован на правилима, који ус- пешно препознаје различите типове именованих ентитета: имена особа, на- зиве локација и организација, временске и нумеричке изразе. За текстове ...
... глагола из кулинарског до- мена за српски језик дат је у (Крстев/Лазић, 2015). Један други пример употре- бе маркера јесте систем за екстракцију именованих ентитета НЕР осета (нази- ва установа, личних имена, улица...) (Крстев и др., 2016) (Крстев и др., 2014). Употребе маркера могућа је за потребе обраде ...
... времен- ски изрази. За различите области, односно домене је потребно допунити електронс- ке речнике специфичном лексиком и дефинисати нове типове ентитета. Како семантички маркери, интегрисани у графове, обезбеђују постављање комп- лексних упита за екстракцију конкорданци, то је за специфичне, доменски ...Иван Обрадовић, Александра Томашевић, Ранка Станковић, Биљана Лазић. "Увођење доменских и семантичких маркера за област рударства у српске електронске речнике" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и примене, Београд : Међународни славистички центар на Филолошком факултету, Филолошки факултет (2017). https://doi.org/10.18485/msc.2017.46.3.ch10
-
Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities
Овај рад представља активности на развоју корпуса ELEXIS-sr, српском додатку вишејезичном анотираном корпусу ELEXIS-а, који се састоји од семантичких анотација и репозиторија значења речи. ELEXIS је паралелни вишејезични анотирани корпус на десет европских језика, који може да се користи као вишејезички репер за евалуацију европских језика са мање и средње развијеним ресурсима. Фокус овог рада је на вишечланим изразима и именованим ентитетима, њиховом препознавању у скупу реченица ELEXIS-sr и поређењу са анотацијама на другим језицима. Разматрају се први кораци ...Cvetana Krstev, Ranka Stanković, Aleksandra Marković, Teodora Mihajlov. "Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)
-
Serbian NER&Beyond: The Archaic and the Modern Intertwinned
U ovom radu predstavljamo srpski književni korpus koji se razvija pod okriljem COST Akcije „Distant Reading for European Literary History” CA16204. Koristeći ovaj korpus romana napisanih pre više od jednog veka, razvili smo i učinili javno dostupnim Sistem za prepoznavanje imenovanih entiteta (NER) obučen da prepozna 7 različitih tipova imenovanih entiteta, sa konvolucionom neuronskom mrežom (CNN), koja ima F1 rezultat od ≈91% na test skupu podataka. Ovaj model je dalje ocenjen na posebnom skupu podataka za evaluaciju. Završavamo poređenje ...Branislava Šandrih Todorović, Cvetana Krstev, Ranka Stanković, Milica Ikonić Nešić. "Serbian NER&Beyond: The Archaic and the Modern Intertwinned" in Proceedings of the Conference Recent Advances in Natural Language Processing - Deep Learning for Natural Language Processing Methods and Applications, INCOMA Ltd. Shoumen, BULGARIA (2021). https://doi.org/10.26615/978-954-452-072-4_141
-
Development and Evaluation of Three Named Entity Recognition Systems for Serbian - The Case of Personal Names
In this paper we present a rule- and lexicon-based system for the recognition of Named Entities (NE) in Serbian news paper texts that was used to prepare a gold standard annotated with personal names. It was further used to prepare training sets for four different levels of annota tion, which were further used to train two Named Entity Recognition (NER) sys tems: Stanford and spaCy. All obtained models, together with a rule- and lexicon based system were evaluated on ...Branislava Šandrih, Cvetana Krstev, Ranka Stanković. "Development and Evaluation of Three Named Entity Recognition Systems for Serbian - The Case of Personal Names" in Proceedings - Natural Language Processing in a Deep Learning World, Incoma Ltd., Shoumen, Bulgaria (2019). https://doi.org/10.26615/978-954-452-056-4_122
-
Ontološki model upravljanja rizikom u rudarstvu
Olivera Kitanović (2021)Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i omogućava njihovo optimalno korišćenje. Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje. Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao ...rudarstvo, rizik, upravljanje rizikom, procena rizika, ontologija, semantička mreža, ekstrakcija informacija, upravljanje znanjem, računarska lingvistika... kroz postavljanje upita konstrukcijom automata sa složenijim zahtevima. Ekstrakcija domenske terminologije, mernih jedinica, za ekstrakciju imenovanih entiteta (naziva ustanova, ličnih imena, ulica...), za uspostavljanje relacija među rečima je uspešno rađena u brojnim istraživanjima (Krstev et al. ...
... rudarskih entiteta iz teksta .................................................................................................. 77 4.3.1. Entiteti rudarske opreme ...................................................................................................................... 77 4.3.2. Entiteti rudarskih ...
... 77 4.3. Ekstrakcija rudarskih entiteta iz teksta Ekstrakcija svih entiteta vrši se kroz okruženje Unitex uz pomoć prethodno pripremljenih rečnika srpskog jezika (Krstev 2008; Obradović et al. 2017; Tomašević et al. 2018). Za različite vrste i podvrste entiteta pripremljeni su različiti konačni automati ...Olivera Kitanović. Ontološki model upravljanja rizikom u rudarstvu, Beograd : [O. Kitanović], 2021
-
Развој геолошког информационог система Републике Србије
Геолошки информациони систем Србије (ГеолИСС) је пројектован, првенствено, са намером ефикасног дигиталног архивирања геолошких и њима сродних података. У овом раду је приказана структура базе података као основа за развој геолошки конципираног ГИС-а. Нови, објектно орјентисани (О-О) начин моделирања омогућио је дефинисање самосталних типова објеката, хијерархијски повезаних кроз тополошке и друге релације, чиме је обезбеђена њихова медјусобна интеракција. Објектно оријентисано моделирање извршено је коришћењем унифицираног језика моделирања (UML) и CASE алата, кроз концептуални и логички ниво. Физички модел ће ...... временским интервалима. Појаве и лежишта минералних сировина су моделиране као скуп тзв. Економско-геолошких карактеристика одређених ентитета одн. група ентитета дефинисаних кроз Koncept. Оне обезбеђују услове за дефинисање врсте одн. генетског типа лежишта, његове потенцијалности, тренутног статуса ...
... од тога у ГеолИСС-у је већ у првом кораку непосредно инволвирана методолошка зависност Концепта и Опсервација (Сл. 1). cd Realni geološki entiteti Geolog istraziv ac Geol. fenomen. Koncept Opserv acije Teorija - Metodologija +klasifikovanje +Saznavanje +kategorija Kategorizacija ...
... Brodaric, 2003). Обе класе деле Opis опсервираног и дедукованог – интерпретираног, којим се текстуално и нумерички описују својства просторних ентитета (сл. 2). cd Koncept Opservacije Opis GeolISS ProstorniEntitetiGeoloskiRecnik Katalog 0..1 * * * * * 10..*0..1 + validacija ...Бранислав Благојевић, Бранислав Тривић, Ненад Бањац, Ранка Станковић, Велизар Николић. "Развој геолошког информационог система Републике Србије" in 14. конгрес геолога Србије и Црне Горе са међународним учешћем, Нови Сад, 18-20. октобар 2005, Cpпско геолошко друштво и Caвeз геолошких друштава Србије и Црне Горе (2005)
-
Побољшање ефикасности одлучивања у рударству применом линеарних оптимизационих модела
Трајче Бошевски (2021)Одлучивање и управљање у рударству је захтеван и сложен задатак изложен ризицима. Конвенционални-искуствени приступи доношења одлука, у пракси често показују слабост која се огледа у недовољној поузданости и прецизности. Предмет истраживања докторске дисертације, под називом „Побољшање ефикасности одлучивања у рударству применом линеарних оптимизационих модела“ је да, сагледавањем научних метода линеарног програмирања, приступи формирању локацијских модела који би били засновани на анализи и прилагођавању постојећих и увођењу нових претпоставки за случајеве као што је експлоатација и потрошња кречњака. У дисертацији ...Трајче Бошевски. Побољшање ефикасности одлучивања у рударству применом линеарних оптимизационих модела, [Т. Бошевски], 2021
-
SrpELTeC: A Serbian Literary Corpus for Distant Reading
U članku je predstavljen SrpELTeC, korpus razvijen u okviru akcije COST Distant Reading for European Literary History (CA16204). Svi romani u SrpELTeC-u su odabrani, pripremljeni i obeleženi korišćenjem zajedničkih principa uspostavljenih za sve jezičke zbirke u Evropskoj zbirci književnog teksta (ELTeC). Navedeni su izazovi i rešenja u pripremi SrpELTeC od nule. Svi romani su ručno kodirani u TEI sa bogatim metapodacima i strukturnim napomenama. Automatska anotacija je uključivala POS-označavanje, lematizaciju i imenovane entitete, oslanjajući se na resurse za obradu ...digital humanities, Serbian literature, text corpora, distant reading , linked data, named entity recognition, text analyticsRanka Stanković, Cvetana Krstev, Duško Vitas. "SrpELTeC: A Serbian Literary Corpus for Distant Reading" in Primerjalna književnost, Research Centre of the Slovenian Academy of Sciences and Arts (2024). https://doi.org/10.3986/pkn.v47.i2.03
-
Povezivanje i detaljno snimanje donjeg potkopa rudnika ,,Crveni Breg“ na Avali
Jovan Obradović (2024)Cilj ovog Završnog rada na temu „Povezivanje i detaljno snimanje donjeg potkopa rudnika ,,Crveni Breg“ na Avali” jeste dobijanje koordinata tačaka jamskog poligonskog vlaka, kao i prikaz samog rudnika na osnovu detaljnog snimanja jame, kao poprečnih profila podzemne rudničke prostorije. U datom radu biće predstavljene metode koje su primenjene prilikom snimanja, kao i rezultati samih merenja i sva potrebna računanja da bi se došlo do potrebnih koordinata.Merenja za završni rad obavljena su tokom terenske nastave održane u junu 2024. godine ...... umetnutog i zatvorenog poligonskog vlaka ..26 3 POVEZIVANJE JAMSKIH RUDNIČKIH PROSTORIJA....aaaaaaannennaaeeenaaiaaecnaata 27 3.1 Povezivanje kroz horizontalne i kose prostorije .............................aaaaaaaaeaeaeeeaeaaeaaeaeaeeeeee 28 3.2 Povezivanje kroz jedno okno ................aaaaaaaaaa ...
... jedina mogućnost za povezivanje Jamskih poligonskih vlakova, tako da Je više generacija rudarskih merača radilo na njihovom usavršavanju. Od 1950. godine za povezivanje se koristi žiroteodolit, tako da geometrijske metode postaju postupno prevaziđene. 3.2.2 Povezivanje priključnim trouglovima ...
... Измењено: 2024-10-01 12:39:19 Povezivanje i detaljno snimanje donjeg potkopa rudnika ,,Crveni Breg“ na Avali Jovan Obradović Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Povezivanje i detaljno snimanje donjeg potkopa rudnika ,,Crveni ...Jovan Obradović. Povezivanje i detaljno snimanje donjeg potkopa rudnika ,,Crveni Breg“ na Avali, 2024
-
Named Entity Recognition for Distant Reading in ELTeC
Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, Ranka Stanković (2020)Akcija COST „Udaljeno čitanje za evropsku književnu istoriju“, koja je počela 2017. godine, ima među svojim glavnim ciljevima stvaranje višejezične zbirke evropskih književnih tekstova (ELTeC) otvorenog koda. U ovom radu predstavljamo rad koji je obavljen na ručnom označavanju selekcije ELTeC kolekcije za imenovane entitete, kao i na proceni postojećih alata za prepoznavanje imenovanih entiteta u pogledu njihove sposobnosti da automatski urade takve anotacije. U poslednjem paragrafu se razmatraju zajedničke tačke između ove inicijative i CLARIN-a.Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC" in CLARIN Annual Conference 2020, Oct 2020, Virtual Event, France, CLARIN (2020)
-
Two approaches to compilation of bilingual multi-word terminology lists from lexical resources
In this paper, we present two approaches and the implemented system for bilingual terminology extraction that rely on an aligned bilingual domain corpus, a terminology extractor for a target language, and a tool for chunk alignment. The two approaches differ in the way terminology for the source language is obtained: the first relies on an existing domain terminology lexicon, while the second one uses a term extraction tool. For both approaches, four experiments were performed with two parameters being ...Branislava Šandrih, Cvetana Krstev, Ranka Stanković. "Two approaches to compilation of bilingual multi-word terminology lists from lexical resources" in Natural Language Engineering, Cambridge University Press (CUP) (2020). https://doi.org/10.1017/S1351324919000615
-
Чији је пример? Анализа лексичких обележја на примерима Речника САНУ
У овом раду поставља се питање: да ли се може утврдити ко је аутор неког текста уколико се анализирају искључиво његова лексичка обележја? Како бисмо покушали да добијемо одговор на ово питање, посматрали смо примере у оквиру речничког чланка појединачне лексеме Речника САНУ, који су забележени у пет томова (и то: I, II, XVIII, XIX и XX). Сваки пример је преузет из неког извора на шта упућују скраћенице, наведене у заградама. Од преко 5.000 понуђених извора, определили смо се ...... Dependency Parsing), обележавања текста према врсти речи (енгл. Part-of-Speech Tagging), лематизације (енгл. Lemmatization), препозна- вања именованих ентитета (енгл. Named Entity Recognition), класификације текста (енгл. Text Classification) и многих других. Под класификовањем текста подразумева се ...Бранислава Б. Шандрих, Ранка М. Станковић, Мирјана С. Гочанин. "Чији је пример? Анализа лексичких обележја на примерима Речника САНУ" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch13
-
Развој геолошког терминолошког речника ГеолИССТерм
... the class Entitet (Entity) comprises instances of all spatial and classes of attributes and also their subclasses, namely sub- types. Among the metadata provided by the rela- tionship class SvojstvoEntiteta (EntityProperty) is the domain (Figure4). The instances of the class Entitet (Entity) are ...
... -NazivAtributaPK -Vrednost -VrednostStart -PreuzetPKOdEntiteta -TipEntiteta -Implementacija -NadInstancaID -RedniBroj -NazivAtributaSubtip Entitet -EntitetID -SvojstvoID -RedniBroj -Dozvoljen_NULL -Implementacija -Kardinalnost -TipRelacijeMetazapisa -PodrazumevanaVrednost -Domen Svoj ...Ranka Stanković, Branislav Trivić, Olivera Kitanović, Branislav Blagojević, Velizar Nikolić. "Развој геолошког терминолошког речника ГеолИССТерм" in INFOteka: časopis za informatiku i bibliotekarstvo, Beograd : Zajednica biblioteka univerziteta u Srbiji (2011)
-
Praktikum za vežbe iz Informatike 1
Ranka Stanković, Ivan Obradović, Olivera Kitanović, Mirjana Banković. Praktikum za vežbe iz Informatike 1, Beograd : Univerzitet u Beogradu, Rudarsko-geološki fakultet, 2014
-
Integrisanje heterogenih leksičkih resursa
Osnovna aktivnost Grupe za obradu prirodnih jezika na Matematičkom fakulteta Univeziteta u Beogradu je usmerena na razvoj različitih resursa za obradu srpskog jezika. Među njima su posebno značajni sistem morfoloških rečnika srpskog jezika razvijenih u okviru mreže RELEX [1] i semantička mreža (tipa wordnet) za srpski jezik razvijena u okviru međunarodnog projekta Balkanet. Radi se o dva heterogena leksička resursa, razvijena na osnovu sasvim različitih modela, koji samim tim sadrže i različite vrste leksičkih informacija. Integracijom ovih resursa, informacije ...... međusobno povezanih grana i čvorova. Čvor XML dokumenta može biti element, atribut, instrukcija za obradu, komentar, tekstualni sadržaj, namespace (imenovani domen), ili sam dokument. Model XPath drveta se ne bazira na samim čvorovima, već na njihovim međusobnim vezama. Na primer, načinu na koji su elementi ...
... kratak opis softvera koji je razvijen da bi se omogućilo integrisanje ovih resursa, kao i mogućnosti njegove primene kao što su definisanje i povezivanje leksičkih podataka na način koji će omogućiti njihovo efikasnije pretraživanje, integrisanje i ponovno korišćenje u aplikacijama usmerenim ka web-u ...
... BE_IN_STATE (biti u stanju) sa sinsetom [bolest:1x]. Svi WN koji su razvijeni u okviru projekta Balkanet koriste zajednički format za razmenu i povezivanje podataka u XML-u. Osnovna XML šema je ista za sve WN, ali je svakom WN dozvoljeno da je proširi za pojedine namene. Bez obzira na činjenicu ...Ranka Stanković, Cvetana Krstev, Duško Vitas, Ivan Obradović, Gordana Pavlović-Lažetić. "Integrisanje heterogenih leksičkih resursa" in Festivalski katalog 11. Festivala informatičkih dostignuća INFOFEST 2004, 26th September - 2nd October, 2004, Budva, Montenegro, INFOFEST (2004)
-
Српски језик у дигиталном добу -- The Serbian Language in the Digital Age
Duško Vitas, Ljubomir Popović, Cvetana Krstev, Ivan Obradović, Gordana Pavlović-Lažetić, Mladen Stanojević (2012)... примена резимирања текста. Унутар ових поменутих подручја се, кад је реч о срп- ском, спроводе врло успешни експерименти везани за препознавање именованих ентитета, као дела про- лема екстракције информација. Очекује се урзани развој система за екстракцију информација и одго- варање на питања, имајући ...
... паралелни француско-српски и енглеско- српски корпус литерарних текстова, описане су ло- калне граматике за поједине сегменте српског (по- сено за именоване ентитете), као и различити соф- 32 тверски алати, од којих посеан значај има радна ста- ница LeXimir, која омогућава интеграцију и транс- формацију ...
... српског језика је различита, али значајан напредак постоји у развоју корпуса, морфолошкој анализи, електронским речницима, као и у екстракцији именованих ентитета. По укидању санкција, посено је значајан ио про- јекат BalkaNet [54], који је омогућио развој семан- тичке мреже типа WordNet за српски. Кроз ...Duško Vitas, Ljubomir Popović, Cvetana Krstev, Ivan Obradović, Gordana Pavlović-Lažetić, Mladen Stanojević. "Српски језик у дигиталном добу -- The Serbian Language in the Digital Age" in META-NET White Paper Series, G. Rehm, H. Uszkoreit (eds.), Springer (2012)