کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6861271 1439243 2018 18 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Multi-granularity feature selection on cost-sensitive data with measurement errors and variable costs
ترجمه فارسی عنوان
انتخاب ویژگی های چند دانه ای در داده های حساس به هزینه با خطاهای اندازه گیری و هزینه های متغیر
کلمات کلیدی
ترجمه چکیده
در کاربردهای واقعی داده کاوی، یادگیری ماشین و محاسبات گرانشی، خطاهای اندازه گیری، هزینه های تست و هزینه های غلط طبقه بندی اغلب رخ می دهد. علاوه بر این، هزینه تست یک ویژگی معمولا با محدوده خطا متغیر است و متغیر هزینه اشتباه طبقه بندی مربوط به موضوع مورد نظر است. به تازگی، برخی از روش های مبتنی بر مجموعه های خشن برای معرفی مسئله انتخاب ویژگی های حساس به هزینه مبتنی بر خطا ارائه شده است. با این حال، اکثر آنها فقط موارد تک دانه را در نظر می گیرند، بنابراین برای مورد که در آن تنوع دانه بندی بین ویژگی های مختلف باید مورد توجه قرار گیرد امکان پذیر نمی باشد. با توجه به این مسئله، ما پیشنهاد می کنیم روش انتخاب چندبعدی را در نظر بگیریم که خطاهای اندازه گیری و هزینه های متغیر را از نظر گرانروی ویژگی های ارزش در نظر می گیرد. برای یک ویژگی مشخص شده، مقدار گرادیان ویژگی ارزش توسط سطح اعتماد خطا از ارزش های ویژگی ارزیابی می شود. به این ترتیب، ما یک چارچوب نظری ایجاد می کنیم که بر اساس محدوده محور محور محور مبتنی بر سطح اعتماد-سطح-بردار است و یک الگوریتم انتخاب به اصطلاح اکتشافی ویژگی دانه بندی و یک استراتژی رقابتی مناسب است که می تواند هر دو ویژگی و ویژگی خاص خود را انتخاب کنند جزئیات دقیق و موثر. نتایج آزمایش نشان می دهد که یک معامله رضایت بخش از میان کاهش ابعاد ویژگی، انتخاب گرادیروی ویژگی های ارزشمند و کمینه کردن هزینه های کل با روش پیشنهادی امکان پذیر است. این کار بینش جدیدی را در مورد مسئله انتخاب ویژگی های حساس از دیدگاه چند دانه ای ارائه می دهد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In real applications of data mining, machine learning and granular computing, measurement errors, test costs and misclassification costs often occur. Furthermore, the test cost of a feature is usually variable with the error range, and the variability of the misclassification cost is related to the object considered. Recently, some approaches based on rough sets have been introduced to study the error-based cost-sensitive feature selection problem. However, most of them consider only single-granularity cases, thus are not feasible for the case where the granularity diversity between different features should be taken into account. Motivated by this problem, we propose a multi-granularity feature selection approach which considers measurement errors and variable costs in terms of feature-value granularities. For a given feature, the feature-value granularity is evaluated by the error confidence level of the feature values. In this way, we build a theoretic framework called confidence-level-vector-based neighborhood rough set, and present a so-called heuristic feature-granularity selection algorithm, and a relevant competition strategy which can select both features and their respective feature-value granularities effectively and efficiently. Experiment results show that a satisfactory trade-off among feature dimension reduction, feature-value granularity selection and total cost minimization can be achieved by the proposed approach. This work would provide a new insight into the cost-sensitive feature selection problem from the multi-granularity perspective.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 158, 15 October 2018, Pages 25-42
نویسندگان
, , , ,