کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4955129 1444178 2017 14 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Feature joint-state posterior estimation in factorial speech processing models using deep neural networks
ترجمه فارسی عنوان
تخمین خلفی مشترک دولت در مدل پردازش گفتار فاکتوریل با استفاده از شبکه های عصبی عمیق
کلمات کلیدی
مدل پردازش گفتار فاکتوریل، شبکه های عمیق عصبی، مدل مارکف مخفی فاکتوریل، توزیع مشاهده حالت شرطی، ترکیبی از مدل با استفاده از سری بردار تیلور، ویژگی حالت مشترک خلف،
ترجمه چکیده
این مقاله روش جدیدی برای محاسبه صحت اتصالات دولتی ویژگی های ترکیبی صوتی با استفاده از شبکه های عصبی عمیق برای استفاده در مدل های پردازش گفتار فاکتوریل ارائه می دهد. اطلاعات خلفی مشترک دولت در مدل های فاکتوریل برای انجام رمزگذاری مشترک مورد نیاز است. نوآوری این کار معماری آن است که شبکه را قادر می سازد پدیده های حالت مشترک را از جفت پس زمینه های دولت از ویژگی های استریو بیرون بیاورد. این مقاله یک تابع هدف را برای حل یک سیستم نامشخص معادلات تعریف می کند که توسط شبکه برای استخراج پسوندهای دولتی مشترک مورد استفاده قرار می گیرد. این اصطلاحات مورد نیاز برای تنظیم دقیق شبکه را به صورت یکپارچه توسعه می دهد. این آزمایشات نتایج رمزگشایی شبکه پیشنهادی را به روش سری تیرور تیلور مقایسه می کند و نشان می دهد که بهبود عملکرد مطلق 2.3٪ در چالش جدایی و تشخیص گفتار مونوئال است. این دستاورد زمانی قابل توجه است که سادگی در استخراج خلفی مفصل توسط شبکه های عصبی عمیق ارائه می شود.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر شبکه های کامپیوتری و ارتباطات
چکیده انگلیسی
This paper proposes a new method for calculating joint-state posteriors of mixed-audio features using deep neural networks to be used in factorial speech processing models. The joint-state posterior information is required in factorial models to perform joint-decoding. The novelty of this work is its architecture which enables the network to infer joint-state posteriors from the pairs of state posteriors of stereo features. This paper defines an objective function to solve an underdetermined system of equations, which is used by the network for extracting joint-state posteriors. It develops the required expressions for fine-tuning the network in a unified way. The experiments compare the proposed network decoding results to those of the vector Taylor series method and show 2.3% absolute performance improvement in the monaural speech separation and recognition challenge. This achievement is substantial when we consider the simplicity of joint-state posterior extraction provided by deep neural networks.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computers & Electrical Engineering - Volume 62, August 2017, Pages 574-587
نویسندگان
, ,