دانلود رایگان مقاله: تشخیص بلندگو داخلی در شبکه های حسگرهای صوتی و تصویری

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6958227	1451938	2016	13 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Robust indoor speaker recognition in a network of audio and video sensors

ترجمه فارسی عنوان

تشخیص بلندگو داخلی در شبکه های حسگرهای صوتی و تصویری

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

نظارت، واژگانی بلندگو، بیومتریک امنیتی، صوتی ردیابی بلندگوی تصویری، تلفیق چندجملهای،

Multimodal fusion - تلفیق چندجملهای Surveillance - نظارت

ترجمه چکیده

آگاهی های موقعیتی به طور طبیعی توسط حواس های مختلف بینایی و شنوایی به دست می آید. درک فضای اتوماتیک هدف از تکرار این توانایی انسان با استفاده از میکروفون و دوربین در همکاری است. در این مقاله، سیگنال های صوتی و تصویری در هم ادغام می شوند و در سطوح مختلف انتزاعی معنایی ترکیب می شوند. ما یک سخنران را که نسبتا بدون محدودیت است شناسایی کرده و پیگیری می کنیم، یعنی به صورت رایگان در داخل محوطه بزرگتر از کار گزارش شده قابل مقایسه، که معمولا محدود به جلسات میزگرد محدود است. سیستم نسبتا ساده است: شامل فقط 4 جفت میکروفون و یک دوربین تک. نتایج نشان می دهد که کل ردیاب چند منظوره قابل اعتماد تر از سیستم های تک محور است، تحمل انسداد بزرگ و صحبت متقابل. ارزیابی سیستم در هر دو ردیابی تک و چند مدلی انجام می شود. بهبود عملکرد توسط یکپارچه سازی و فیوژن صوتی و تصویری از لحاظ دقت و دقت ردیابی و همچنین نرخ خطای رندر کردن صدا و دقت یادآوری (تشخیص) کم است. بهبود در مقایسه با نزدیکترین آثار ارزیابی می شود: 56٪ هزینه منبع محاسبه منابع صوتی بیش از یک سیستم صوتی، 8٪ نرخ خطای اریاسیون سخنرانی بیش از یک واحد تشخیص بلندگو و 36٪ در معیار دقیق یادآوری بیش از یک صوتی و تصویری غالب روش تشخیص بلندگو

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال

پیش نمایش مقاله

تشخیص بلندگو داخلی در شبکه های حسگرهای صوتی و تصویری

چکیده انگلیسی

Situational awareness is achieved naturally by the human senses of sight and hearing in combination. Automatic scene understanding aims at replicating this human ability using microphones and cameras in cooperation. In this paper, audio and video signals are fused and integrated at different levels of semantic abstractions. We detect and track a speaker who is relatively unconstrained, i.e., free to move indoors within an area larger than the comparable reported work, which is usually limited to round table meetings. The system is relatively simple: consisting of just 4 microphone pairs and a single camera. Results show that the overall multimodal tracker is more reliable than single modality systems, tolerating large occlusions and cross-talk. System evaluation is performed on both single and multi-modality tracking. The performance improvement given by the audio-video integration and fusion is quantified in terms of tracking precision and accuracy as well as speaker diarisation error rate and precision-recall (recognition). Improvements vs. the closest works are evaluated: 56% sound source localisation computational cost over an audio only system, 8% speaker diarisation error rate over an audio only speaker recognition unit and 36% on the precision-recall metric over an audio-video dominant speaker recognition method.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Signal Processing - Volume 129, December 2016, Pages 137-149

نویسندگان

Eleonora D'Arca, Neil M. Robertson, James R. Hopgood,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : تشخیص بلندگو داخلی در شبکه های حسگرهای صوتی و تصویری

دسترسی سریع

ارتباط

English Website