کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
485457 703327 2016 6 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Dictionary-based Word Segmentation for Javanese
ترجمه فارسی عنوان
تقسیم کلمه وردپرس برای یوان
کلمات کلیدی
شخصیت یوآبون، تقسیم بندی کلمه
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر علوم کامپیوتر (عمومی)
چکیده انگلیسی

Word segmentation is the first step to process language that written in non-Latin letters such as such as Javanese script. In this study, we report our work on word segmentation based on dictionary approach. In the first phase, we generate all possible segmented word series using a word dictionary. The correct word is selected based on the last character in a word, the last two characters in a word, the difference of two consecutive words, and the frequency of the word in the additional corpus. The experimental results show that identifying words using the frequency of words in the additional corpus yield the best accuracy that is 91.08%.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Procedia Computer Science - Volume 81, 2016, Pages 208–213
نویسندگان
, ,