کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6857529 665202 2016 19 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Feature selection with partition differentiation entropy for large-scale data sets
ترجمه فارسی عنوان
انتخاب ویژگی با انتگرال تمایز پارتیشن برای مجموعه داده های بزرگ در مقیاس
کلمات کلیدی
انتخاب ویژگی، آنتروپی تقارب پارتیشن، ویژگی های مهم، مجموعه داده های بزرگ عدم قطعیت،
ترجمه چکیده
انتخاب ویژگی، به ویژه برای مجموعه داده های بزرگ، یک مشکل چالش برانگیز در زمینه هایی مانند شناخت الگو، یادگیری ماشین و داده کاوی است. با توسعه فن آوری های جمع آوری داده ها و ذخیره سازی، داده ها از هر زمان بزرگتر شده است، بنابراین برای یادگیری از مجموعه داده های بزرگ با روش های سنتی دشوار است. در این مقاله، آنتروپی پراکندگی تمایز را از نظر پارتیشن بندی در مجموعه های خشن برای اندازه گیری اهمیت و عدم قطعیت ویژگی ها معرفی می کنیم و روش انتخاب ویژگی برای مجموعه های داده های بزرگ را بر اساس اندازه گیری اطلاعاتی معنی دار بودن ویژگی ارائه می دهیم. با توجه به یک سیستم اطلاعاتی تصمیم گیری در مقیاس بزرگ، روش پیشنهادی ابتدا آن را به سیستم های کوچک اطلاعات زیر بر طبق طبقات تصمیم گیری تقسیم می کند. سپس با محاسبه آنتروپی تقارب پارتیشن در زیر سیستم ها، آنتروپی تقارن پارتیشن زیر مجموعه ویژگی در سیستم اطلاعات اصلی تصمیم گیری بدست می آید. بر این اساس، ویژگی های مهم بر اساس ارزش آنتروپی تقارن پارتیشن انتخاب می شوند. نتایج تجربی نشان می دهد که ایده روش پیشنهادی امکان پذیر و معتبر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Feature selection, especially for large data sets, is a challenging problem in areas such as pattern recognition, machine learning and data mining. With the development of data collection and storage technologies, the data has become bigger than ever, thus making it difficult for learning from large data sets with traditional methods. In this paper, we introduce the partition differentiation entropy from the viewpoint of partition in rough sets to measure the significance and uncertainty of attributes, and present a feature selection method for large-scale data sets based on the information-theoretical measurement of attribute significance. Given a large-scale decision information system, the proposed method first divides it into small sub information systems according to the decision classes. Then by computing partition differentiation entropy in the sub-systems, the partition differentiation entropy of the attribute subset in the original decision information system is obtained. Accordingly, the important features are selected based on the value of partition differentiation entropy. The experimental results show that the idea of the proposed method is feasible and valid.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 329, 1 February 2016, Pages 690-700
نویسندگان
, , ,