کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6951529 1451686 2017 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Divergence-based fine pruning of phrase-based statistical translation model
ترجمه فارسی عنوان
هرس خوب مبتنی بر واگرایی مدل ترجمه آماری مبتنی بر عبارت
کلمات کلیدی
ترجمه ماشین آماری، تجدید مدل جدول عبارت، هرس بر اساس آنتروپی، آنتروپی نسبی،
ترجمه چکیده
یک رویکرد ترجمه خودکار به کار رفته، ترجمه آماری ماشین حساب مبتنی بر اصطلاح، یک مدل ترجمه احتمالی را که شامل عبارات از یک ساختار موازی بزرگ با یک مدل زبان بزرگ است یاد می گیرد. مدل ترجمه اغلب به دلیل ترکیبی از عبارات منبع و هدف بسیار زیاد است که منجر به محدود کردن برنامه ها به محیط محاسبات محدود می شود. هرس بر اساس آنتروپی، با کاهش اندازه مدل و حفظ کیفیت ترجمه، این مسئله را حل می کند. برای به خطر افتادن اندازه، این روش اجزای خالی را با ارزیابی یک آنتروپی نسبی مدل قبل و بعد از برش اجزاء تشخیص می دهد. در ادبیات، این روش موثر است، اما ما مشاهده کرده ایم که می توان آن را با تنظیم توزیع واگرایی تعیین شده توسط آنتروپی نسبی بهبود بخشید. در نتایج آزمایش های اولیه، ما دو عامل را برای محدود کردن کارایی هرس کردن هرس بر اساس آنتروپی به دست می آوریم. فاکتور اول نسبت جفتسازی مدلهای ترجمه با توجه به احتمال ترجمه و برآورد آن است. فاکتور دوم افزایش چشمگیر واگرا بودن برای جفت با احتمال ترجمه و تخمین کم است. برای کنترل عوامل، ما با استفاده از یک متریک واگرایی، یک هنجاره خوب مبتنی بر واگرایی پیشنهاد می کنیم تا انحنا انحنای شرایط مرزی برای صاف کردن هرس و لاپلاس را تطبیق دهیم. در کارهای عملی ترجمه برای جفت زبان انگلیسی-اسپانیایی و انگلیسی-فرانسوی، این روش بهبود آماری قابل توجهی را در بهره وری تا 50٪ و به طور متوسط ​​12٪ بیشتر هرس نسبت به هرس بر اساس آنتروپی برای نشان دادن همان کیفیت ترجمه است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال
چکیده انگلیسی
A widely used automatic translation approach, phrase-based statistical machine translation, learns a probabilistic translation model composed of phrases from a large parallel corpus with a large language model. The translation model is often enormous because of many combinations of source and target phrases, which leads to the restriction of applications to limited computing environments. Entropy-based pruning resolves this issue by reducing the model size while retaining the translation quality. To safely reduce the size, this method detects redundant components by evaluating a relative entropy of models before and after pruning the components. In the literature, this method is effective, but we have observed that it can be improved more by adjusting the divergence distribution determined by the relative entropy. In the results of preliminary experiments, we derive two factors responsible for limiting pruning efficiency of entropy-based pruning. The first factor is proportion of pairs composing translation models with respect to their translation probability and its estimate. The second factor is the exponential increase of the divergence for pairs with low translation probability and estimate. To control the factors, we propose a divergence-based fine pruning using a divergence metric to adapt the curvature change of the boundary conditions for pruning and Laplace smoothing. In practical translation tasks for English-Spanish and English-French language pairs, this method shows statistically significant improvement on the efficiency up to 50% and average 12% more pruning compared to entropy-based pruning to show the same translation quality.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 41, January 2017, Pages 146-160
نویسندگان
, , , , ,