کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4973657 1451683 2017 26 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Speech enhancement using sparse dictionary learning in wavelet packet transform domain
ترجمه فارسی عنوان
تقویت گفتار با استفاده از یادگیری فرهنگ لغت در حوزه تبدیل ویولت بسته
کلمات کلیدی
تقویت گفتار، یادگیری فرهنگ لغت نمایندگی انحصاری، انطباق دامنه، آشکارساز فعالیت صوتی، تبدیل بسته ویولت،
ترجمه چکیده
برنامه نویسی انعطاف پذیر، به عنوان یک روش بازتوی موفقیت برای بسیاری از سیگنال ها، اخیرا در تقویت گفتار استفاده شده است. این مقاله یک الگوریتم تقویت گفتار مبتنی بر یادگیری را با استفاده از نمایندگی نادر در دامنه تبدیل بسته های موجک ارائه می دهد. ما پیشنهاد روش های یادگیری دیکشنری را برای آموزش داده های سیگنال گفتار و نویز براساس معیار انسجام برای هر زیر باند سطح تجزیه پیشنهاد می کنیم. با استفاده از این الگوریتم های یادگیری، همبستگی بین اتم های هر فرهنگ لغت و همبستگی متقابل بین اتم های فرهنگ لغت گفتار و نویز همراه با خطای تقریبی به حداقل می رسد. الگوریتم تقویت گفتار در دو سناریو تحت نظارت و نیمه نظارت معرفی شده است. در هر سناریو، یک روش تشخیص فعالیت های صوتی بر اساس انرژی ماتریس ضریب پراکندگی زمانی که داده های مشاهدات بیش از واژه نامه های مربوطه کد گذاری می شود، استفاده می شود. در سناریو تحت نظارت پیشنهادی، ما از تکنیک های انطباق دامنه برای تبدیل یک فرهنگ لغت سر و صدا آموخته به یک فرهنگ لغت سازگار با شرایط سر و صدا گرفته شده بر اساس شرایط محیط آزمایش استفاده می کنیم. با استفاده از این مرحله، داده های مشاهدات به طور ضمنی با توجه به وضعیت فعلی فضای پر سر و صدا با خطای تقریبی پراکنده کم نوشته می شوند. این تکنیک نقش مهمی در به دست آوردن نتایج بهبود بهتر دارد، مخصوصا وقتی که نویز غیر ثابت باشد. در سناریو نیمه نظارت پیشنهادی، آستانه سازگاری ضرایب موجک بر اساس واریانس صدای تخمینی در هر فریم زیربناهای مختلف انجام می شود. رویکردهای پیشنهادی به نتایج قابل توجهی بهتر در بهبود گفتار منجر می شود در مقایسه با روش های قبلی در این زمینه و روش های سنتی براساس معیارهای مختلف هدف و ذهنی و نیز آزمون آماری.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال
چکیده انگلیسی
Sparse coding, as a successful representation method for many signals, has been recently employed in speech enhancement. This paper presents a new learning-based speech enhancement algorithm via sparse representation in the wavelet packet transform domain. We propose sparse dictionary learning procedures for training data of speech and noise signals based on a coherence criterion, for each subband of decomposition level. Using these learning algorithms, self-coherence between atoms of each dictionary and mutual coherence between speech and noise dictionary atoms are minimized along with the approximation error. The speech enhancement algorithm is introduced in two scenarios, supervised and semi-supervised. In each scenario, a voice activity detector scheme is employed based on the energy of sparse coefficient matrices when the observation data is coded over corresponding dictionaries. In the proposed supervised scenario, we take advantage of domain adaptation techniques to transform a learned noise dictionary to a dictionary adapted to noise conditions captured based on the test environment circumstances. Using this step, observation data is sparsely coded, based on the current situation of the noisy space, with low sparse approximation error. This technique has a prominent role in obtaining better enhancement results particularly when the noise is non-stationary. In the proposed semi-supervised scenario, adaptive thresholding of wavelet coefficients is carried out based on the variance of the estimated noise in each frame of different subbands. The proposed approaches lead to significantly better speech enhancement results in comparison with the earlier methods in this context and the traditional procedures, based on different objective and subjective measures as well as a statistical test.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 44, July 2017, Pages 22-47
نویسندگان
, , ,