کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4969198 1449900 2017 16 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Exploiting the ensemble paradigm for stable feature selection: A case study on high-dimensional genomic data
ترجمه فارسی عنوان
بهره برداری از پارادایم گروه برای انتخاب ویژگی های پایدار: مطالعه موردی در داده های ژنومی با ابعاد بزرگ
کلمات کلیدی
پارادایم گروهی، انتخاب ویژگی، اختلال در داده ها، ثبات انتخاب داده های ژنومی با ابعاد بزرگ،
ترجمه چکیده
طبقه بندی گروهی یک رویکرد به خوبی تاسیس شده است که شامل تصحیح تصمیمات چندین مدل پیش بینی شده است. یک منطق مشابه یک منطق اخیرا در مورد چالش بردن وظایف انتخاب با هدف شناسایی بیشتر متغیرهای اطلاعاتی (یا ویژگی ها) برای یک دامنه مورد علاقه مورد استفاده قرار گرفته است. در این کار ما بحث منطقی انتخاب ویژگی های گروهی و ارزیابی اثرات و پیامدهای یک رویکرد گروه خاص، یعنی استراتژی تحرک داده ها را بررسی می کنیم. اساسا، این شامل ترکیب چند انتخابگر است که از الگوریتم اصلی همان بهره برداری می کنند، اما در نسخه های متضاد مختلف داده های اصلی آموزش دیده اند. پتانسیل واقعی این رویکرد، هنوز موضوع بحث در ادبیات انتخاب ویژگی، در اینجا همراه با انواع مختلف الگوریتم های انتخاب هسته (هر دو یکسان و چند متغیره) مورد بررسی قرار گرفته است. به طور خاص، ما ارزیابی می کنیم که میزان اجرای این گروه بهبود عملکرد کلی فرایند انتخاب، از لحاظ دقت پیش بینی و ثبات (به عنوان مثال، استحکام با توجه به تغییرات داده های آموزشی). علاوه بر این، ما تأثیر رویکرد گروه بر روی نتیجه انتخاب نهایی را تعیین می کنیم، به عنوان مثال در ترکیب زیر مجموعه های ویژگی انتخاب شده. نتایج حاصل از ده معیار ژنوم عمومی، بینش مفیدی را در مورد هر دو مزایا و محدودیت های چنین روش گروه ایفا می کنند، و راه را برای کاوش طرح های جدید و وسیع تر نشان می دهند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Ensemble classification is a well-established approach that involves fusing the decisions of multiple predictive models. A similar “ensemble logic” has been recently applied to challenging feature selection tasks aimed at identifying the most informative variables (or features) for a given domain of interest. In this work, we discuss the rationale of ensemble feature selection and evaluate the effects and the implications of a specific ensemble approach, namely the data perturbation strategy. Basically, it consists in combining multiple selectors that exploit the same core algorithm but are trained on different perturbed versions of the original data. The real potential of this approach, still object of debate in the feature selection literature, is here investigated in conjunction with different kinds of core selection algorithms (both univariate and multivariate). In particular, we evaluate the extent to which the ensemble implementation improves the overall performance of the selection process, in terms of predictive accuracy and stability (i.e., robustness with respect to changes in the training data). Furthermore, we measure the impact of the ensemble approach on the final selection outcome, i.e. on the composition of the selected feature subsets. The results obtained on ten public genomic benchmarks provide useful insight on both the benefits and the limitations of such ensemble approach, paving the way to the exploration of new and wider ensemble schemes.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Fusion - Volume 35, May 2017, Pages 132-147
نویسندگان
, , ,