کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6869793 681379 2014 11 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Variable selection by Random Forests using data with missing values
ترجمه فارسی عنوان
انتخاب متغیر توسط جنگل های تصادفی با استفاده از داده ها با مقادیر گم شده
کلمات کلیدی
ترجمه چکیده
انتخاب متغیر برای جنگل های تصادفی برای پیش بینی و تفسیر داده ها پیشنهاد شده است. با این حال، عنصر اساسی، یعنی متغیرهای اهمیت متغیر، قابل مقایسه نیست، در حالی که مقادیر گمشده در متغیرهای پیش بینی شده وجود دارد. راه حل های ممکن عبارتند از چندگانه، تجزیه و تحلیل موردی کامل و استفاده از معیار اندازه گیری خودمختار است که قادر به مقابله با ارزش های گم شده است. مطالعات شبیه سازی و کاربردی برای بررسی خواص این روش ها در هنگام ترکیب با دو روش انتخاب متغیر محبوب انجام شده است. یافته ها و توصیه ها: تجزیه و تحلیل موردی کامل نباید مورد استفاده قرار گیرد چرا که منجر به انتخاب متغیر نامناسب می شود. محاسبه چندگانه روش انتخابی است اگر انتخاب یک متغیر، منعکس کننده ارتباط بالقوه آن در یک تنظیمات کامل داده باشد. با این حال، جنگل های تصادفی معمولا بدون هیچ گونه پیش پردازش داده ها به کار می روند زیرا آنها شناخته شده اند به طور ضمنی با مقادیر گم شده مقابله می کنند. در چنین مواردی، استفاده از معیار اهمیت خودمختار اجازه انتخاب متغیرهایی را می دهد که در این مدل پیش بینی واقعی وجود دارد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات
چکیده انگلیسی
Variable selection has been suggested for Random Forests to improve data prediction and interpretation. However, the basic element, i.e. variable importance measures, cannot be computed straightforward when there are missing values in the predictor variables. Possible solutions are multiple imputation, complete case analysis and the use of a self-contained importance measure that is able to deal with missing values. Simulation and application studies have been conducted to investigate the properties of these procedures when combined with two popular variable selection methods. Findings and recommendations: Complete case analysis should not be used as it led to inaccurate variable selection. Multiple imputation is the method of choice if the selection of a variable is supposed to reflect its potential relevance in a complete data setting. However, Random Forests are commonly used without any preprocessing of the data as they are known to implicitly deal with missing values. In such a case, the application of the self-contained importance measure permits the selection of variables that are of relevance in these actual prediction models.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computational Statistics & Data Analysis - Volume 80, December 2014, Pages 129-139
نویسندگان
, ,