کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4944634 1438005 2017 36 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A genetic algorithm approach to optimising random forests applied to class engineered data
ترجمه فارسی عنوان
یک رویکرد الگوریتم ژنتیکی برای بهینه سازی جنگل های تصادفی که به داده های مهندسی کلاس اعمال می شود
کلمات کلیدی
جنگل های تصادفی، الگوریتم ژنتیک، تجزیه کلاس، علم زندگی،
ترجمه چکیده
در برنامه های کاربردی متعدد و به ویژه در حوزه علم زندگی، نمونه ها در سطح بالایی از دانه بندی برچسب گذاری می شوند. به عنوان مثال، طبقه بندی دوتایی در بسیاری از این مجموعه داده ها غالب است و کلاس مثبت نشان دهنده وجود یک بیماری خاص در برنامه های تشخیص پزشکی است. چنین برچسب گذاری واقعیت داشتن دسته های مختلف بیماری مشابه را نشان نمی دهد؛ یک واقعیت ثابت شده در تحقیقات مداوم در علل ریشه و تغییرات علائم در تعدادی از بیماری ها. در تلاش برای افزایش چنین تشخیصی، مجموعه داده ها با استفاده از خوشه بندی هر کلاس برای نشان دادن دسته های پنهان تجزیه شدند. سپس روش دسته بندی گسترده ای از دسته بندی جنگل های تصادفی را اعمال می کنیم. چنین تقسیم بندی طبقاتی دارای دو مزیت است: (1) تنوع ورودی که طبقه بندی گروه را تقویت می کند؛ و (2) بهبود جدایی کلاس، کاهش روند فرایند طبقه بندی پیگیری. با این حال، برای اینکه قادر به استفاده از جنگل های تصادفی در چنین داده های تجزیه شده کلاس باشیم، باید سه پارامتر اصلی را تعیین کنیم: تعداد درختانی که گروه را تشکیل می دهند، تعداد ویژگی هایی که در هر گره تقسیم می شوند، و یک بردار که تعداد خوشه ها را در هر کدام نشان می دهد کلاس فضای جستجوی بزرگ برای تنظیم این پارامترها، الگوریتم ژنتیک را برای بهینه سازی راه حل استفاده کرده است. یک مطالعه کامل تجربی بر روی 22 مجموعه داده واقعی انجام شد، عمدتا در برنامه های کاربردی مختلف علم زندگی. برای اثبات کاربرد روش در زمینه های دیگر کاربرد، روش پیشنهاد شده بر روی تعدادی از مجموعه داده ها از دامنه های دیگر مورد آزمایش قرار گرفت. در آزمایش، سه تغییرات جنگل های تصادفی از جمله روش پیشنهادی و طبقه بندی دسته بندی تقویت شده استفاده شده است. نتایج حاکی از برتر بودن روش پیشنهادی در بالا بردن دقت است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In numerous applications and especially in the life science domain, examples are labelled at a higher level of granularity. For example, binary classification is dominant in many of these data sets, with the positive class denoting the existence of a particular disease in medical diagnosis applications. Such labelling does not depict the reality of having different categories of the same disease; a fact evidenced in the continuous research in root causes and variations of symptoms in a number of diseases. In a quest to enhance such diagnosis, data sets were decomposed using clustering of each class to reveal hidden categories. We then apply the widely adopted ensemble classification technique Random Forests. Such class decomposition has two advantages: (1) diversification of the input that enhances the ensemble classification; and (2) improving class separability, easing the follow-up classification process. However, to be able to apply Random Forests on such class decomposed data, three main parameters need to be set: number of trees forming the ensemble, number of features to split on at each node, and a vector representing the number of clusters in each class. The large search space for tuning these parameters has motivated the use of Genetic Algorithm to optimise the solution. A thorough experimental study on 22 real data sets was conducted, predominantly in a variety of life science applications. To prove the applicability of the method to other areas of application, the proposed method was tested on a number of data sets from other domains. Three variations of Random Forests including the proposed method as well as a boosting ensemble classifier were used in the experimental study. The results prove the superiority of the proposed method in boosting up the accuracy.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 384, April 2017, Pages 220-234
نویسندگان
, ,