دانلود رایگان مقاله: انتخاب داده های متنی برای مدل سازی زبان در حوزه شناخت خودکار گفتار

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6900388	1446488	2018	10 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Textual Data Selection for Language Modelling in the Scope of Automatic Speech Recognition

ترجمه فارسی عنوان

انتخاب داده های متنی برای مدل سازی زبان در حوزه شناخت خودکار گفتار

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

انتخاب داده ها، کپی متنی مدل زبان، متقابل آنتروپی، ناراحتی تشخیص گفتار،

Data selection - انتخاب داده ها Speech recognition - تشخیص گفتار Cross-Entropy - متقاطع آنتروپی Language model - مدل زبان Perplexity - ناراحتی

ترجمه چکیده

مدل زبان یک ماژول مهم در بسیاری از برنامه های کاربردی است که متن طبیعی را به ویژه در تشخیص گفتار ایجاد می کنند. آموزش مدل های زبان نیاز به مقادیر زیادی داده های متنی دارد که با دامنه مورد نظر منطبق است. انتخاب دامنه هدف (یا دامنه) در گذشته مورد بررسی قرار گرفته است. به عنوان مثال [1] یک معیار را بر اساس تفاوت متقابل آنتروپی بین مدل های ارائه داده های خاص در دامنه و غیر دامنه پیشنهاد کرده است. با این حال، ارزیابی ها با استفاده از دو منبع داده انجام می شود، یکی مربوط به در دامنه، و دیگری یکی به داده های عمومی که از جملات انتخاب شده است. در حوزه های پخش اخبار و تلویزیون، سیستم های رونویسی را نشان می دهد، مدل های زبان با استفاده از مدل های مختلف زبان که با استفاده از منابع مختلف داده می شوند، درونی می شوند. در این مقاله فرآیند انتخاب داده ها در این زمینه ساخت مدل های زبانی درون رشته ای برای رونویسی گفتار مورد بررسی قرار گرفته است. نتایج نشان می دهد که در انتخاب فرایند، انتخاب مدل های زبان برای نشان دادن اطلاعات در دامنه و غیر دامنه حیاتی است. علاوه بر این، بهتر است که انتخاب داده ها را فقط بر روی برخی از منابع داده شده انتخاب کنید. به این ترتیب، فرآیند انتخاب منجر به بهبود 8.3 از نظر اختلال و 2/0٪ در نظر از میزان خطای کلمه در کار رونویسی فرانسوی فرانسوی است.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر علوم کامپیوتر (عمومی)

پیش نمایش مقاله

انتخاب داده های متنی برای مدل سازی زبان در حوزه شناخت خودکار گفتار

چکیده انگلیسی

The language model is an important module in many applications that produce natural language text, in particular speech recognition. Training of language models requires large amounts of textual data that matches with the target domain. Selection of target domain (or in-domain) data has been investigated in the past. For example [1] has proposed a criterion based on the difference of cross-entropy between models representing in-domain and non-domain-specific data. However evaluations were conducted using only two sources of data, one corresponding to the in-domain, and another one to generic data from which sentences are selected. In the scope of broadcast news and TV shows transcription systems, language models are built by interpolating several language models estimated from various data sources. This paper investigates the data selection process in this context of building interpolated language models for speech transcription. Results show that, in the selection process, the choice of the language models for representing in-domain and non-domain-specific data is critical. Moreover, it is better to apply the data selection only on some selected data sources. This way, the selection process leads to an improvement of 8.3 in terms of perplexity and 0.2% in terms of word-error rate on the French broadcast transcription task.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Procedia Computer Science - Volume 128, 2018, Pages 55-64

نویسندگان

Freha Mezzoudj, David Langlois, Denis Jouvet, Abdelkader Benyettou,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : انتخاب داده های متنی برای مدل سازی زبان در حوزه شناخت خودکار گفتار

دسترسی سریع

ارتباط

English Website