کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
1110968 | 1488361 | 2015 | 9 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
The Making of Lingala Corpus: An Under-resourced Language and the Internet
ترجمه فارسی عنوان
ساختن زبان لنگالا: یک زبان با منابع پایین و اینترنت؟
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
موضوعات مرتبط
علوم انسانی و اجتماعی
علوم انسانی و هنر
هنر و علوم انسانی (عمومی)
چکیده انگلیسی
Lingala is now the most widespread language in Congo. The Internet provides a great amount of data. This paper has attempted to elucidate the issues that are involved with building a corpus for an under-resourced language where access to internet texts is difficult. To extract Lingala text from a mass of French text, it has been necessary to go through a process of selection by seed words list. The raw corpus is composed of 6,080,426 tokens. I have intervened on the data from internet sources by standardizing the spelling. This standardized corpus is stored separately from the raw corpus.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Procedia - Social and Behavioral Sciences - Volume 198, 24 July 2015, Pages 442-450
Journal: Procedia - Social and Behavioral Sciences - Volume 198, 24 July 2015, Pages 442-450