Part of Speech Tagging for Serbian language using Natural Language Toolkit
Објеката
- Тип
- Рад у зборнику
- Верзија рада
- објављена
- Језик
- енглески
- Креатор
- Ranka Stanković, Boro Milovanović
- Извор
- 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020
- Уредник
- Dejan Popović
- Издавач
- Academic Mind, Belgrade
- Датум издавања
- 2020
- Сажетак
- Dok se razvijaju složeni algoritmi za NLP (obrada prirodnog jezika), osnovni zadaci kao što je označavanje ostaju veoma važni i još uvek izazovni. NLTK (Natural Language Toolkit) je moćna Python biblioteka za razvoj programa zasnovanih na NLP-u. Pokušavamo da iskoristimo ovu biblioteku za kreiranje PoS (vrsta reči) oznake za savremeni srpski jezik. Jedanaest različitih modela je kreirano korišćenjem NLTK API-ja za označavanje. Najbolji modeli se transformišu sa Brill tagerom da bi se poboljšala tačnost. Obučili smo modele na označenom skupu podataka koji broji 180.000 tokena. Najbolji rezultati na test skupu od 20.000 tokena su demonstrirani sa Perceptron tagerom: tačnost od 92,52-95,76% za različite skupove oznaka.
- While complex algorithms for NLP (Natural language processing) are being developed, base tasks such as tagging remain very important and still challenging. NLTK (Natural Language Toolkit) is a powerful Python library for developing programs based on NLP. We try to leverage this library to create a PoS (Part of Speech) tagger for a contemporary Serbian language. Eleven different models were created by using NLTK tagging API. The best models are transformed with the Brill tagger to improve the accuracy. We trained the models on the tagged dataset counting 180,000 tokens. The best results on the test set of 20,000 tokens were demonstrated with the Perceptron tagger: 92,52-95,76% accuracy for the different tagsets.
- почетак странице
- AII 1.1.1
- крај странице
- AII 1.1.5
- број страница
- 5
- isbn
- 978‐86‐7466‐894‐8
- Subject
- obrada prirodnog jezika, mašinsko učenje, neuronske mreže
- Natural Language Processing, Machine Learning, Neural Network
- Шира категорија рада
- М30
- Ужа категорија рада
- М33
- Права
- Отворени приступ
- Лиценца
- Creative Commons – Attribution-Share Alike 4.0 International
- Формат
- Медија
- 001_AII1.1.pdf
Ranka Stanković, Boro Milovanović. "Part of Speech Tagging for Serbian language using Natural Language Toolkit" in 7th International Conference on Electrical, Electronic and Computing Engineering IcETRAN 2020, Academic Mind, Belgrade (2020)
This item was submitted on 23. новембар 2021. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://drug.rgf.bg.ac.rs/s/repo
Click here to view the collected data.