کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
6960895 | 1452017 | 2016 | 17 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Phase modification for increasing the intelligibility of telephone speech in near-end noise conditions - evaluation of two methods
ترجمه فارسی عنوان
اصلاح فاز برای افزایش قابلیت اطمینان گفتار تلفن در شرایط سر و صدا نزدیک به پایان - ارزیابی دو روش
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
اصلاح فاز، تلاش گوش دادن، صدای بلند، افزایش قابلیت اطمینان، سخنرانی تلفنی،
ترجمه چکیده
در این مطالعه، دو روش پس پردازش پذیری قابل فهم بر مبنای اصلاح طیف فاز گفتار برای شرایط سر و صدا کم نور پیشنهاد شده است. یکی از الگوریتم ها، هدف از کاهش دامنه دینامیکی سیگنال است و از مزایای افزایش انرژی حاصل از نرمال شدن دامنه برای افزایش میزان بلندی استفاده می کند، در حالی که الگوریتم دیگر برای تیز کردن قله های دامنه بالا در سیگنال دامنه زمانی تولید شده توسط انعطاف پذیری دوره ای به منظور ایجاد صدای سخنرانی روشن تر است. هر دو روش بر اساس اولین اصلاح فقط طیف فاز است، پس از آن سیگنال زمان دامنه با استفاده از تبدیل فوریه معکوس محاسبه می شود. در نهایت، سیگنال دامنه زمانی دامنه ای را با مقیاس دادن مقادیر نمونه آن به طوری که آنها محدوده دامنه اصلی فرایند پردازش را اشغال می کنند. عملکرد روشهای پیشنهادی ابتدا با استفاده از روشهای کیفی عینی و همچنین میزان صدای ذهنی و آزمونهای ترجیحی گوش دادن مقایسه شده است. بر اساس نتایج این ارزیابی ها، روش های اصلاح فاز بیشتر با فشرده سازی رگه های پردازش نشده و دینامیکی، با استفاده از آزمون های کلامی و کلامی ذهنی، مقایسه شد. هر دو سخنرانی باند باند و باند پهن از چندین سخنرانی در هر دو ارزیابی صورت گرفت. هر دو روش قادر به افزایش میزان بسامد در برخی از شرایط پهنای باند و همچنین بیان فرآیند بدون پردازش و فشرده سازی دامنه دینامیکی از لحاظ قابلیت تشخیص در سطوح سر و صدا بودند. هر دو روش در کیفیت پایین تر از کیفیت بی نظیر در شرایط پایداری رتبه بندی شده اند. با این حال، در سر و صدا پس زمینه، که در آن الگوریتم های افزایش قابلیت اطمینان بیشتر مورد استفاده قرار می گیرند، هر دو روش نتایج مشابهی را به بیان غیر پردازش از لحاظ ترجیح گوش دادن در برخی از شرایط پهنای باند تست شده است.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
پردازش سیگنال
چکیده انگلیسی
In this study, two intelligibility-increasing post-processing methods based on the modification of the phase spectrum of speech are proposed for near-end noise conditions. One of the algorithms aims to reduce the dynamic range of the signal and take advantage of the energy gain resulting from amplitude normalization to increase the loudness, while the other algorithm is designed to sharpen the high-amplitude peaks in the time-domain signal generated by the periodic glottal excitation to make the speech sound more clear. Both methods are based on first modifying only the phase spectrum, after which the time-domain signal is computed using the inverse Fourier transform. Finally, the time-domain signal is amplitude normalized by scaling its sample values so that they occupy the original amplitude range of the processed frame. The performance of the proposed methods was evaluated by first comparing them to unprocessed speech using objective quality measures as well as subjective loudness and listening preference tests. Based on the results of these evaluations, the phase-modification methods were further compared to unprocessed speech and dynamic range compression using subjective word-error rate and quality tests. Both narrowband and wideband speech from several talkers were included in both evaluations. Both of the methods were able to increase loudness in some bandwidth conditions as well as outperform unprocessed speech and dynamic range compression in terms of intelligibility in high-noise levels. Both of the methods were rated lower in quality than unprocessed speech in clean conditions. In background noise, however, where intelligibility enhancement algorithms are mostly used, both methods achieved similar results to unprocessed speech in terms of listening preference in some of the bandwidth conditions tested.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Speech Communication - Volume 83, October 2016, Pages 64-80
Journal: Speech Communication - Volume 83, October 2016, Pages 64-80
نویسندگان
Emma Jokinen, Hannu Pulakka, Paavo Alku,