کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
8845710 1617117 2018 7 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A study on the effects of unbalanced data when fitting logistic regression models in ecology
ترجمه فارسی عنوان
یک مطالعه در مورد اثرات داده های نامتعادل در هنگام سازگاری مدل های رگرسیون لجستیک در محیط زیست
ترجمه چکیده
متغیرهای دوتایی دارای دو نتیجه ممکن است: وقوع یا عدم وقوع رویداد (معمولا با مقادیر 1 و 0). داده های باینری در محیط زیست رایج هستند، از جمله مطالعات حضور / عدم حضور، زنده / مرده و تغییر / عدم تغییر. تجزیه و تحلیل رگرسیون لجستیک به طور گسترده ای برای مدل سازی متغیر پاسخ باینری استفاده شده است. داده های نامتقارن (به عنوان مثال، نسبت بسیار بزرگتر از صفر نسبت به آن ها) اغلب در مجموعه های مختلف داده های زیست محیطی یافت می شوند. گاهی اوقات اطلاعات قبل از نصب مدل، متعادل (یعنی همان مقدار از صفر و یکم) متعادل هستند (با این حال، معیارهای آماری تعادل (یا نه) داده ها هنوز مشخص نیست. ما در مقایسه با مدل رگرسیون لجستیک با بررسی خواص آماری پارامترهای برآورد شده و توانایی پیش بینی آن، اثرات آماری داده های متعادل سازی را ارزیابی کردیم. ما از یک مدل پایه جنگل-مرگ و میر به عنوان مرجع استفاده کردیم و با استفاده از شبیه سازی های تصادفی که نشان دهنده پیکربندی های مختلف داده های 0/1 در یک نمونه (سناریوهای داده های نامتقارن) بود، ما مدل رگرسیون لجستیک را با حداکثر احتمال مقایسه کردیم. برای هر سناریو، تعصب و واریانس پارامترهای برآورد شده و چندین شاخص پیش بینی را محاسبه کردیم. ما دریافتیم که تغییرات پارامترهای برآورد شده تحت تاثیر قرار گرفته است، با سناریو داده های متوازن با داشتن کمترین تغییر، بنابراین بر نتیجه استنتاج تاثیر می گذارد. علاوه بر این، قابلیت پیش بینی مدل با تعادل داده ها تغییر می کند، با سناریو داده های متوازن دارای نسبت حساسیت / خاصیت بهتر است. تعادل یا نه، داده هایی که برای نصب مدل های رگرسیون لجستیک مورد استفاده قرار می گیرند ممکن است بر نتیجه گیری هایی که می توانند از مدل نصب شده و برنامه های پس از آن بوجود آیند، تاثیر بگذارند.
موضوعات مرتبط
علوم زیستی و بیوفناوری علوم کشاورزی و بیولوژیک بوم شناسی، تکامل، رفتار و سامانه شناسی
چکیده انگلیسی
Binary variables have two possible outcomes: occurrence or non-occurrence of an event (usually with 1 and 0 values, respectively). Binary data are common in ecology, including studies of presence/absence, alive/dead, and change/no-change. Logistic regression analysis has been widely used to model binary response variables. Unbalanced data (i.e., an extremely larger proportion of zeros than ones) are often found across a variety of ecological datasets. Sometimes the data are balanced (i.e., same amount of zeros and ones) before fitting the model, however, the statistical implications of balancing (or not) the data remain unclear. We assessed the statistical effects of balancing data when fitting a logistic regression model by studying both its statistical properties of the estimated parameters and its predictive capabilities. We used a base forest-mortality model as reference, and by using stochastic simulations representing different configurations of 0/1 data in a sample (unbalanced data scenarios), we fitted the logistic regression model by maximum likelihood. For each scenario we computed the bias and variance of the estimated parameters and several prediction indexes. We found that the variability of the estimated parameters is affected, with the balanced-data scenario having the lowest variability, thus, affecting the statistical inference as well. Furthermore, the prediction capabilities of the model are altered by balancing the data, with the balanced-data scenario having the better sensitivity/specificity ratio. Balancing, or not, the data to be used for fitting a logistic regression models may affect the conclusion that can arise from the fitted model and its subsequent applications.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Ecological Indicators - Volume 85, February 2018, Pages 502-508
نویسندگان
, , , , ,