کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6940002 869886 2016 30 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Multi-criteria feature selection on cost-sensitive data with missing values
ترجمه فارسی عنوان
انتخاب ویژگی چند معیاره در اطلاعات حساس با هزینه با مقادیر گم شده
ترجمه چکیده
انتخاب ویژگی نقش مهمی در شناخت الگو و یادگیری ماشین دارد. در مواجهه با داده های با ابعاد بزرگ در بسیاری از وظایف تجزیه و تحلیل داده ها، تکنیک های انتخاب ویژگی طراحی شده اند تا زیر مجموعه ای از ویژگی های اصلی را که می تواند طبقه بندی را تسهیل کند پیدا کند. با این حال، در بسیاری از برنامه های کاربردی دنیای واقعی، ارزش های ویژگی های از دست رفته که به آزمون و هزینه های اشتباه طبقه بندی کمک می کنند، موضوع افزایش نگرانی در بیشتر مجموعه داده ها است، به خصوص در برخورد با داده های بزرگ. رویکردهای انتخابی موجود، به طور موثر این مسئله را حل نمی کند. در این مقاله، بر اساس نظریه مجموعه خشن، ما به مسئله انتخاب ویژگی برای داده های حساس با ارزش با مقادیر گمشده می پردازیم. ابتدا یک تابع ارزیابی چند معیاره برای مشخص کردن اهمیت ویژگی های کاندیدان، با توجه به نه تنها قدرت در منطقه مثبت و منطقه مرزی بلکه هزینه های مرتبط با آن، پیشنهاد می کنیم. بر این اساس، ما یک الگوریتم انتخاب الگوریتم حریصانه برای انتخاب یک زیر مجموعه ویژگی از هزینه کمینه ای که اطلاعات همانند مجموعه کل ویژگی را حفظ می کند، ایجاد می کنیم. علاوه بر این، برای بهبود کارایی این الگوریتم، انتخاب ویژگی های کاندید را در مجموعه ای از ابعاد درهم آمیز اجرا می کنیم. در نهایت، عملکرد برتر الگوریتم پیشنهاد شده را به الگوریتم های انتخابی ویژگی های موجود از طریق نتایج تجربی در مجموعه داده های مختلف نشان می دهیم.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Feature selection plays an important role in pattern recognition and machine learning. Confronted with high dimensional data in many data analysis tasks, feature selection techniques are designed to find a relevant feature subset of the original features which can facilitate classification. However, in many real-world applications, missing feature values that contribute to test and misclassification costs are emerging to be an issue of increasing concern for most data sets, particularly dealing with big data. The existing feature selection approaches do not address this issue effectively. In this paper, based on rough set theory we address the problem of feature selection for cost-sensitive data with missing values. We first propose a multi-criteria evaluation function to characterize the significance of candidate features, by taking into consideration not only the power in the positive region and boundary region but also their associated costs. On this basis, we develop a forward greedy feature selection algorithm for selecting a feature subset of minimized cost that preserves the same information as the whole feature set. In addition, to improve the efficiency of this algorithm, we implement the selection of candidate features in a dwindling object set. Finally, we demonstrate the superior performance of the proposed algorithm to the existing feature selection algorithms through experimental results on different data sets.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 51, March 2016, Pages 268-280
نویسندگان
, ,