کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6861330 1439247 2018 16 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
An effective and efficient approach to classification with incomplete data
ترجمه فارسی عنوان
رویکرد مؤثر و کارآمد برای طبقه بندی با اطلاعات ناقص
کلمات کلیدی
ترجمه چکیده
بسیاری از داده های دنیای واقعی از مسئله اجتناب ناپذیر ارزش های گمشده رنج می برند. طبقه بندی با داده های ناقص باید با دقت مورد بررسی قرار گیرد زیرا درمان نامناسب مقادیر گمشده خطاهای طبقه بندی بزرگ را ایجاد می کند. با استفاده از تقلید برای تبدیل داده های ناقص به داده های کامل یک روش معمول برای طبقه بندی با داده های ناقص است. با این حال، روش های ساده جبران ناپذیر اغلب دقیق نیستند و روش های قدرتمند تعویض معمولا عملا محاسباتی هستند. یک رویکرد اخیر برای رسیدگی به اطلاعات ناقص، مجموعه ای از طبقه بندی ها را ایجاد می کند که هر کدام به یک الگوی شناخته شده از داده های از دست رفته متصل می شوند. مزیت اصلی این رویکرد این است که می تواند نمونه های ناقص جدید را بدون نیاز به هرگونه معادله طبقه بندی کند. این مقاله بهبود یافته در رویکرد گروه با یکپارچه سازی محاسبه و انتخاب ویژگی های مبتنی بر ژنتیک است. معاوضه باعث ایجاد داده های آموزشی با کیفیت بالا می شود. انتخاب ویژگی، تعداد الگوهای گمشده را کاهش می دهد که سرعت طبقه بندی را افزایش می دهد و تعداد موارد جدیدی را که می توان گروه بندی آن را طبقه بندی کرد، افزایش می دهد. نتایج آزمایش ها نشان می دهد که روش پیشنهاد شده دقیق تر و سریعتر از روش های معمول پیشین برای طبقه بندی با داده های ناقص است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Many real-world datasets suffer from the unavoidable issue of missing values. Classification with incomplete data has to be carefully handled because inadequate treatment of missing values will cause large classification errors. Using imputation to transform incomplete data into complete data is a common approach to classification with incomplete data. However, simple imputation methods are often not accurate, and powerful imputation methods are usually computationally intensive. A recent approach to handling incomplete data constructs an ensemble of classifiers, each tailored to a known pattern of missing data. The main advantage of this approach is that it can classify new incomplete instances without requiring any imputation. This paper proposes an improvement on the ensemble approach by integrating imputation and genetic-based feature selection. The imputation creates higher quality training data. The feature selection reduces the number of missing patterns which increases the speed of classification, and greatly increases the fraction of new instances that can be classified by the ensemble. The results of experiments show that the proposed method is more accurate, and faster than previous common methods for classification with incomplete data.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 154, 15 August 2018, Pages 1-16
نویسندگان
, , , , ,