کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
9952411 | 1451674 | 2019 | 23 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Extracting parallel fragments from comparable documents using a generative model
ترجمه فارسی عنوان
استخراج قطعات موازی از اسناد قابل مقایسه با استفاده از یک مدل نسبی
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
استخراج قطعه، مقادیر قابل مقایسه مدل تولیدی ترجمه ماشین آماری، فارسی، انگلیسی، آلمانی،
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
پردازش سیگنال
چکیده انگلیسی
Although parallel corpora are essential language resources for many natural language processing tasks, they are rare or even not available for many language pairs. Instead, comparable corpora are widely available and contain parallel fragments of information that can be used in applications like statistical machine translation systems. In this research, we propose a generative latent Dirichlet allocation based model for extracting parallel fragments from comparable documents without using any initial parallel data or bilingual lexicon. The experimental results show significant improvement if the extracted fragments generated by the proposed method are used for augmenting an existing parallel corpus in an statistical machine translation system. According to the human judgment, the accuracy of the proposed method for an English-Persian task is about 59.7%. Also, the out of vocabulary error rate for the same task is reduced by 28%.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 53, January 2019, Pages 25-42
Journal: Computer Speech & Language - Volume 53, January 2019, Pages 25-42
نویسندگان
Somayeh Bakhshaei, Reza Safabakhsh, Shahram Khadivi,