کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6961208 1452034 2015 36 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Audiovisual speech synthesis: An overview of the state-of-the-art
ترجمه فارسی عنوان
سنتز گفتار سمعی و بصری: خلاصه ای از هنر مدرن
کلمات کلیدی
سنتز گفتار سمعی و بصری، سنتز گفتار بصری، سنتز گفتار،
ترجمه چکیده
ما در دنیایی زندگی می کنیم که در هر روز، تعاملات بی شماری با سیستم های کامپیوتری وجود دارد. در مورد ایده آل ترین، این تعامل احساس می کند به عنوان آشنا و طبیعی به عنوان ارتباطی که ما با دیگران تجربه می کنیم. برای این منظور یک وسیله ایده آل برای برقراری ارتباط بین یک کاربر و یک سیستم کامپیوتری از سیگنال های گفتاری سمعی و بصری تشکیل شده است. فن آوری صوتی و تصویری به گفتار به سیستم کامپیوتری اجازه می دهد تا هر پیام گفتاری را نسبت به کاربران خود بیاموزد. در دهه های گذشته، طیف وسیعی از تکنیک های انجام سنتز گفتار سمعی و بصری توسعه یافته است. این مقاله یک مرور کلی از این روش ها را با استفاده از طبقه بندی سیستم ها بر اساس جنبه های مختلف مهم که ویژگی های سیگنال های گفتاری سنتز را تعیین می کند، ارائه می دهد. این مقاله تمایز روشنی بین تکنیک هایی که برای مدل سازی سخنران مجازی و تکنیک هایی که برای تولید حرکات گفتار مناسب استفاده می شود، ایجاد می کند. علاوه بر این مقاله در مورد ارزیابی سینت سایزرهای گفتار سمعی و بصری مورد بحث قرار می گیرد، در مورد نیازهای سخت افزاری برای انجام سنتز گفتار بصری توضیح می دهد و برخی از اهداف مهم آینده را تشریح می کند که باید از تکنولوژی سنتز گفتاری سمعی و بصری در برنامه های کاربردی واقعی استفاده کنند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال
چکیده انگلیسی
We live in a world where there are countless interactions with computer systems in every-day situations. In the most ideal case, this interaction feels as familiar and as natural as the communication we experience with other humans. To this end, an ideal means of communication between a user and a computer system consists of audiovisual speech signals. Audiovisual text-to-speech technology allows the computer system to utter any spoken message towards its users. Over the last decades, a wide range of techniques for performing audiovisual speech synthesis has been developed. This paper gives a comprehensive overview on these approaches using a categorization of the systems based on multiple important aspects that determine the properties of the synthesized speech signals. The paper makes a clear distinction between the techniques that are used to model the virtual speaker and the techniques that are used to generate the appropriate speech gestures. In addition, the paper discusses the evaluation of audiovisual speech synthesizers, it elaborates on the hardware requirements for performing visual speech synthesis and it describes some important future directions that should stimulate the use of audiovisual speech synthesis technology in real-life applications.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Speech Communication - Volume 66, February 2015, Pages 182-217
نویسندگان
, ,