Part of Speech Tagging for Serbian language using Natural Language Toolkit

Објеката

Тип
Рад у зборнику
Верзија рада
објављена
Језик
енглески
Креатор
Ranka Stanković, Boro Milovanović
Извор
7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020
Уредник
Dejan Popović
Издавач
Academic Mind, Belgrade
Датум издавања
2020
Сажетак
Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom skupu podataka koji broji 180.000 tokena. Najbolji rezultati na test skupu od 20.000 tokena su demonstrirani sa Perceptron tagerom: tačnost od 92,52-95,76% za različite skupove oznaka.
While complex algorithms for NLP (Natural language processing) are being developed, base tasks such as tagging remain very important and still challenging. NLTK (Natural Language Toolkit) is a powerful Python library for developing programs based on NLP. We try to leverage this library to create a PoS (Part of Speech) tagger for a contemporary Serbian language. Eleven different models were created by using NLTK tagging API. The best models are transformed with the Brill tagger to improve the accuracy. We trained the models on the tagged dataset counting 180,000 tokens. The best results on the test set of 20,000 tokens were demonstrated with the Perceptron tagger: 92,52-95,76% accuracy for the different tagsets.
почетак странице
AII 1.1.1
крај странице
AII 1.1.5
број страница
5
isbn
978‐86‐7466‐894‐8
Subject
obrada prirodnog jezika, mašinsko učenje, neuronske mreže
Natural Language Processing, Machine Learning, Neural Network
Шира категорија рада
М30
Ужа категорија рада
М33
Права
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат
.pdf
Скупови објеката
Ранка Станковић
Radovi istraživača
Медија
001_AII1.1.pdf

Ranka Stanković, Boro Milovanović. "Part of Speech Tagging for Serbian language using Natural Language Toolkit" in 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020, Academic Mind, Belgrade (2020)

This item was submitted on 23. новембар 2021. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://drug.rgf.bg.ac.rs/s/repo

Click here to view the collected data.