کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
6938915 | 1449966 | 2018 | 46 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Handling data irregularities in classification: Foundations, trends, and future challenges
ترجمه فارسی عنوان
مدیریت بی نظمی داده ها در طبقه بندی: مبانی، روند و چالش های آینده
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
بی نظمی داده ها، عدم تعادل کلاس، اختلالات کوچک، توزیع کلاس توزیع، ویژگی های گمشده، ویژگی های موجود،
ترجمه چکیده
اکثر طبقه بندی های الگوی سنتی، داده های ورودی خود را با توجه به توزیع کلاس های مشابه، اندازه متعادل کلاس ها، حضور مجموعه ای کامل از ویژگی های مشاهده شده در تمام نمونه های داده، رفتار می کنند و غیره. اما مجموعه داده های عملی، نشان می دهد با اشکال مختلف بی نظمی که اغلب به اشتباه طبقه بندی کننده می انجامد، به طوری که توانایی آن را در یادگیری از داده کاهش می دهد. در این مقاله، چشم انداز پرنده ای از این نوع بی نظمی ها را ارائه می دهیم، که با طبقه بندی و مشخص کردن بی نظمی های مختلف مبتنی بر توزیع و ویژگی ها آغاز می شود. در ادامه، ما در مورد رویکردهای قابل توجه و اخیر که برای ایجاد موجود مستقل و همچنین طبقه بندی های گروهی علیه چنین بی نظمی هایی صورت گرفته است، بحث می کنیم. ما همچنین در مورد ارتباطات و رخدادهای مشترک بی نظمیهای داده ها، از جمله عدم تعادل کلاس، اختلافات کوچک، شکاف طبقاتی، ویژگی های از دست رفته و ویژگی های موجود (غیر موجود یا نامرئی) بحث می کنیم. در نهایت، ما تعدادی از راه های پژوهشی جالب آینده را کشف می کنیم که با توجه به پارادایم های به طور منظم و عمیق یادگیری ماشین به طور مساوی است.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Most of the traditional pattern classifiers assume their input data to be well-behaved in terms of similar underlying class distributions, balanced size of classes, the presence of a full set of observed features in all data instances, etc. Practical datasets, however, show up with various forms of irregularities that are, very often, sufficient to confuse a classifier, thus degrading its ability to learn from the data. In this article, we provide a bird's eye view of such data irregularities, beginning with a taxonomy and characterization of various distribution-based and feature-based irregularities. Subsequently, we discuss the notable and recent approaches that have been taken to make the existing stand-alone as well as ensemble classifiers robust against such irregularities. We also discuss the interrelation and co-occurrences of the data irregularities including class imbalance, small disjuncts, class skew, missing features, and absent (non-existing or undefined) features. Finally, we uncover a number of interesting future research avenues that are equally contextual with respect to the regular as well as deep machine learning paradigms.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 81, September 2018, Pages 674-693
Journal: Pattern Recognition - Volume 81, September 2018, Pages 674-693
نویسندگان
Swagatam Das, Shounak Datta, Bidyut B. Chaudhuri,