کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
9952411 1451674 2019 23 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Extracting parallel fragments from comparable documents using a generative model
ترجمه فارسی عنوان
استخراج قطعات موازی از اسناد قابل مقایسه با استفاده از یک مدل نسبی
کلمات کلیدی
استخراج قطعه، مقادیر قابل مقایسه مدل تولیدی ترجمه ماشین آماری، فارسی، انگلیسی، آلمانی،
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال
چکیده انگلیسی
Although parallel corpora are essential language resources for many natural language processing tasks, they are rare or even not available for many language pairs. Instead, comparable corpora are widely available and contain parallel fragments of information that can be used in applications like statistical machine translation systems. In this research, we propose a generative latent Dirichlet allocation based model for extracting parallel fragments from comparable documents without using any initial parallel data or bilingual lexicon. The experimental results show significant improvement if the extracted fragments generated by the proposed method are used for augmenting an existing parallel corpus in an statistical machine translation system. According to the human judgment, the accuracy of the proposed method for an English-Persian task is about 59.7%. Also, the out of vocabulary error rate for the same task is reduced by 28%.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 53, January 2019, Pages 25-42
نویسندگان
, , ,