کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4946323 1439284 2017 19 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Centralized vs. distributed feature selection methods based on data complexity measures
ترجمه فارسی عنوان
روش انتخاب متمرکز بر اساس توزیع انتخاب شده بر اساس اندازه گیری پیچیدگی داده ها
کلمات کلیدی
آموزش توزیع شده انتخاب ویژگی، اندازه گیری پیچیدگی داده ها، طبقه بندی،
ترجمه چکیده
در عصر بزرگ داده ها، بسیاری از مجموعه داده ها ویژگی مشترک، تعداد زیادی از ویژگی های. در نتیجه، انتخاب ویژگی های مربوطه و نادیده گرفتن ویژگی های نامناسب و غیر ضروری ضروری است. با این حال، هنگام برخورد با مقادیر زیادی از داده ها، اکثر الگوریتم های انتخابی موجود، به خوبی اندازه نمی گیرند، و کارایی آنها می تواند به طور قابل توجهی به نقطه ناپذیر تبدیل شود. علاوه بر این، داده ها اغلب در مکان های مختلف توزیع می شوند و برای جمع آوری آن در یک سایت صرفا اقتصادی نیستند. به همین علت، ما یک روش توزیع شده برای داده های تقسیم شده را با استفاده از دو تکنیک پیشنهاد می کنیم: افقی (یعنی نمونه ها) و عمودی (به عنوان مثال از ویژگی ها). بر خلاف رویه های موجود برای ترکیب نتایج خروجی حاصل از هر بخش از داده ها، ما یک فرآیند ادغام را با استفاده از پیچیدگی نظری این زیر مجموعه های ویژگی پیشنهاد می کنیم. روش جدیدی که در 11 مجموعه داده مورد آزمایش قرار گرفته است، مفید است، که نتایج رقابتی را از نظر زمان اجرا و دقت طبقه بندی نشان می دهد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In the era of Big Data, many datasets have a common characteristic, the large number of features. As a result, selecting the relevant features and ignoring the irrelevant and redundant features has become indispensable. However, when dealing with large amounts of data, most existing feature selection algorithms do not scale well, and their efficiency may significantly deteriorate to the point of becoming inapplicable. Moreover, data is often distributed in multiple locations, and it is not economic or legal to gather it in a single site. For these reasons, we propose a distributed approach for partitioned data using two techniques: horizontal (i.e. by samples) and vertical (i.e. by features). Unlike than existing procedures to combine the partial outputs obtained from each partition of data, we propose a merging process using the theoretical complexity of these feature subsets. The novel procedure tested in 11 datasets has proved to be useful, showing competitive results both in terms of runtime and classification accuracy.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 117, 1 February 2017, Pages 27-45
نویسندگان
, , ,