کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4948139 1439609 2016 12 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Randomizing outputs to increase variable selection accuracy
ترجمه فارسی عنوان
خروجی های تصادفی برای افزایش دقت انتخاب متغیر
ترجمه چکیده
انتخاب متغیر نقش کلیدی در مدل سازی توضیحی دارد و هدف آن شناسایی متغیرهایی است که واقعا برای نتیجه مهم هستند. اخیرا تکنیک های یادگیری گروهی توانایی بالقوه ای در بهبود عملکرد برخی از روش های سنتی مانند لسو، الگوریتم ژنتیک، جستجوی گام به گام نشان داده اند. به دنبال اصل اصلی برای ساخت یک گروه انتخاب متغیر، در این مقاله پیشنهاد جدیدی را با خروجی تصادفی (به عنوان مثال، اضافه کردن برخی از نویز تصادفی به پاسخ) پیشنهاد می کنیم تا حداکثر دقت انتخاب متغیر را به حداکثر برسانیم. برای تولید معیارهای اهمیت چندگانه اما کمی متفاوت برای هر متغیر، برخی از نویزهای گاوسی به صورت مصنوعی به پاسخ اضافه می شوند. مجموعه آموزش جدید (یعنی ماتریس طرح اصلی همراه با بردار پاسخ جدید) سپس به الگوریتم ژنتیکی برای انجام انتخاب متغیر وارد می شود. با تکرار این فرآیند تعدادی از آزمایشات و ترکیب نتایج توسط میانگین نرمال، برای هر متغیر نامزدی، معیار قابل اطمینان قابل اطمینان تر است. سپس متغیرها رتبه بندی می شوند و بیشتر به واسطه قانون آستانه ای تعیین می شود که مهم است یا نه. عملکرد روش پیشنهادی با استفاده از داده های شبیه سازی شده و دنیای واقعی در چارچوب مدل های رگرسیون خطی و لجستیک مورد بررسی قرار گرفته است. نتایج نشان می دهد که آن را با چندین روش موجود مقایسه می کند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Variable selection plays a key role in explanatory modeling and its aim is to identify the variables that are truly important to the outcome. Recently, ensemble learning techniques have manifested great potential in improving the performance of some traditional methods such as lasso, genetic algorithm, stepwise search. Following the main principle to build a variable selection ensemble, we propose in this paper a novel approach by randomizing outputs (i.e., adding some random noise to the response) to maximize variable selection accuracy. In order to generate multiple but slightly different importance measures for each variable, some Gaussian noise is artificially added to the response. The new training set (i.e, the original design matrix together with the new response vector) is then fed into genetic algorithm to perform variable selection. By repeating this process a number of trials and fusing the results by simple averaging, a more reliable importance measure is obtained for each candidate variable. The variables are then ranked and further determined to be important or not by a thresholding rule. The performance of the proposed method is studied with some simulated and real-world data in the framework of linear and logistic regression models. The results demonstrate that it compares favorably with several other existing methods.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 218, 19 December 2016, Pages 91-102
نویسندگان
, , ,