کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4943205 1437617 2017 14 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
An extensive analysis of the interaction between missing data types, imputation methods, and supervised classifiers
ترجمه فارسی عنوان
تجزیه و تحلیل گسترده ای از تعامل بین نوع داده های از دست رفته، روش های جبران ناپذیر و طبقه بندی های تحت نظارت
کلمات کلیدی
داده های گم شده، روش های تقلب طبقه بندی تحت نظارت، فراگیری ماشین،
ترجمه چکیده
با استفاده از تکنیک های داده کاوی به داده های دنیای واقعی، ما اغلب خود را در معرض مشاهدات قرار می دهیم که برای برخی صفات ثبت نشده اند. این امر می تواند ناشی از پدیده های مختلفی نظیر ناتوانی دستگاه در ضبط خصوصیات خاص یا فردی که از پاسخ دادن به یک سوال در یک نظرسنجی رد شود، ایجاد می شود. با توجه به این انگیزه، ارزش های رفته از دست رفته ممکن است یک نوع الگوی دیگری را دنبال کنند یا هیچ منظوری را توصیف نکنند. یک روش برای کاهش تاثیر داده های از دست رفته در وظایف یادگیری ماشین، جایگزینی مشاهدات گم شده است. الگوریتم های تعویض تلاش برای محاسبه یک مقدار برای شکاف گم شده، با استفاده از اطلاعات مربوط به آن، به عنوان مثال، ویژگی و / یا مقادیر دیگر در همان مشاهدات. در حالی که چندین روش جسمانی در ادبیات ارائه شده است، تعداد کمی از آثار به مسئله ارتباط بین نوع داده های از دست رفته، انتخاب روش محاسبه و اثربخشی الگوریتم های طبقه بندی که از داده های محرمانه استفاده می کنند، پرداخته اند. در این مقاله، رابطه بین این سه عامل را بررسی می کنیم. با ساخت یک معیار صدها پایگاه داده حاوی انواع مختلف داده های گمشده و استفاده از چندین روش جبران ناپذیر و الگوریتم های طبقه بندی، ما تجربی نشان می دهیم که تعامل بین روش های محاسبه و طبقه بندی تحت نظارت می تواند نتیجه گیری شود. علاوه بر این، تفاوت های مربوط به عملکرد طبقه بندی برای یک روش جبران ناپذیر در الگوهای مختلف داده های گمشده یافت شده است. این به راحتی در نظر گرفتن انتخاب ترکیبی از روش جبران ناپذیر و الگوریتم طبقه بندی مطابق با نوع داده های گم شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
When applying data-mining techniques to real-world data, we often find ourselves facing observations that have no value recorded for some attributes. This can be caused by several phenomena, such as a machine's incapability to record certain characteristics or a person refusing to answer a question in a poll. Depending on that motivation, values gone missing may follow one kind of pattern or another, or describe no regularity at all. One approach to palliate the effect of missing data on machine learning tasks is to replace the missing observations. Imputation algorithms attempt to calculate a value for a missing gap, using information associated with it, i.e., the attribute and/or other values in the same observation. While several imputation methods have been proposed in the literature, few works have addressed the question of the relationship between the type of missing data, the choice of the imputation method, and the effectiveness of classification algorithms that used the imputed data. In this paper we address the relationship among these three factors. By constructing a benchmark of hundreds of databases containing different types of missing data, and applying several imputation methods and classification algorithms, we empirically show that an interaction between imputation methods and supervised classification can be deduced. Besides, differences in terms of classification performance for the same imputation method in different missing data patterns have been found. This points to the convenience of considering the combined choice of the imputation method and the classifier algorithm according to the missing data type.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 89, 15 December 2017, Pages 52-65
نویسندگان
, ,