دانلود رایگان مقاله: انتخاب متغیر توسط جنگل های تصادفی با استفاده از داده ها با مقادیر گم شده

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6869793	681379	2014	11 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Variable selection by Random Forests using data with missing values

ترجمه فارسی عنوان

انتخاب متغیر توسط جنگل های تصادفی با استفاده از داده ها با مقادیر گم شده

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

جنگل های تصادفی، اهمیت متغیر، انتخاب متغیر، داده های گم شده، محاسبه چندگانه، تجزیه و تحلیل مورد کامل

Variable selection - انتخاب متغیر Variable importance - اهمیت متغیر Complete case analysis - تجزیه و تحلیل مورد کامل Random forests - جنگ های تصادفی Missing data - داده های گم شده Multiple imputation - محاسبه چندگانه

ترجمه چکیده

انتخاب متغیر برای جنگل های تصادفی برای پیش بینی و تفسیر داده ها پیشنهاد شده است. با این حال، عنصر اساسی، یعنی متغیرهای اهمیت متغیر، قابل مقایسه نیست، در حالی که مقادیر گمشده در متغیرهای پیش بینی شده وجود دارد. راه حل های ممکن عبارتند از چندگانه، تجزیه و تحلیل موردی کامل و استفاده از معیار اندازه گیری خودمختار است که قادر به مقابله با ارزش های گم شده است. مطالعات شبیه سازی و کاربردی برای بررسی خواص این روش ها در هنگام ترکیب با دو روش انتخاب متغیر محبوب انجام شده است. یافته ها و توصیه ها: تجزیه و تحلیل موردی کامل نباید مورد استفاده قرار گیرد چرا که منجر به انتخاب متغیر نامناسب می شود. محاسبه چندگانه روش انتخابی است اگر انتخاب یک متغیر، منعکس کننده ارتباط بالقوه آن در یک تنظیمات کامل داده باشد. با این حال، جنگل های تصادفی معمولا بدون هیچ گونه پیش پردازش داده ها به کار می روند زیرا آنها شناخته شده اند به طور ضمنی با مقادیر گم شده مقابله می کنند. در چنین مواردی، استفاده از معیار اهمیت خودمختار اجازه انتخاب متغیرهایی را می دهد که در این مدل پیش بینی واقعی وجود دارد.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات

پیش نمایش مقاله

انتخاب متغیر توسط جنگل های تصادفی با استفاده از داده ها با مقادیر گم شده

چکیده انگلیسی

Variable selection has been suggested for Random Forests to improve data prediction and interpretation. However, the basic element, i.e. variable importance measures, cannot be computed straightforward when there are missing values in the predictor variables. Possible solutions are multiple imputation, complete case analysis and the use of a self-contained importance measure that is able to deal with missing values. Simulation and application studies have been conducted to investigate the properties of these procedures when combined with two popular variable selection methods. Findings and recommendations: Complete case analysis should not be used as it led to inaccurate variable selection. Multiple imputation is the method of choice if the selection of a variable is supposed to reflect its potential relevance in a complete data setting. However, Random Forests are commonly used without any preprocessing of the data as they are known to implicitly deal with missing values. In such a case, the application of the self-contained importance measure permits the selection of variables that are of relevance in these actual prediction models.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computational Statistics & Data Analysis - Volume 80, December 2014, Pages 129-139

نویسندگان

A. Hapfelmeier, K. Ulm,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : انتخاب متغیر توسط جنگل های تصادفی با استفاده از داده ها با مقادیر گم شده

دسترسی سریع

ارتباط

English Website