کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
8845781 1617187 2018 44 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Predicting the future is hard and other lessons from a population time series data science competition
ترجمه فارسی عنوان
پیش بینی آینده سخت و درس های دیگر از رقابت علوم داده های سری زمانی جمعیت است
ترجمه چکیده
پیش بینی جمعیت، که در آن دینامیک گذشته برای پیش بینی وضعیت آینده استفاده می شود، دارای بسیاری از برنامه های کاربردی در دنیای واقعی است. در حالی که مجموعه های فراوانی از فراوانی حیوانات اغلب به شیوهای طراحی شده اند که هدف آنها گرفتن فرآیندهای زیست شناختی پایه است، انجام چنین کاری برای پیش بینی های خوب لازم نیست و کافی نیست. در اینجا ما در یک رقابت علمی داده ها متمرکز بر مدل سازی سری زمانی از فراوانی پنگوئن قطب جنوب است. ما بهترین مدل های ارائه شده را توصیف می کنیم و آنها را با مدل بیزی که قبلا توسط متخصصین دامنه توسعه داده شده است مقایسه می کنیم و یک مدل سازمانی را ایجاد می کنیم که از مدل های جزء جزء در دقت پیش بینی بهتر عمل می کند. مدل های عملکردی فوق العاده در پیچیدگی های مدل بسیار متنوع بودند، که از ساده ترین فرآیندهای جلوگیری از میانگین رشد متوسط ​​به مجموعه ای از مدل های یکپارچه سازی تکنیک های یادگیری ماشین آموخته شده است. با وجود قاب بندی کوتاه مدت رقابت، چهار مدل ارائه شده، از مدل پیش از آن توسط تیم متخصصین دامنه ساخته شده اند. ما در مورد ساختار بهترین مدل ها و اجزای آنها در آن بحث می کنیم که ممکن است برای دیگر برنامه های کاربردی زیست محیطی سودمند باشد، مزیت ایجاد مجموعه ای از مدل ها برای پیش بینی اکولوژیکی، و هزینه ها و مزایای استفاده از تخصص دامنه دقیق در مدل سازی اکولوژیکی. علاوه بر این، ما در مورد مزایای رقابت های داده ها بحث می کنیم، از جمله افزایش دید برای سوالات به چالش کشیدن علم، تولید تکنیک های جدید که هنوز در جامعه اکولوژیک پذیرفته نشده است، و توانایی تولید پیش بینی مدل های گروهی که مستقیما به عدم قطعیت مدل اشاره می کنند، بحث می کنیم.
موضوعات مرتبط
علوم زیستی و بیوفناوری علوم کشاورزی و بیولوژیک بوم شناسی، تکامل، رفتار و سامانه شناسی
چکیده انگلیسی
Population forecasting, in which past dynamics are used to make predictions of future state, has many real-world applications. While time series of animal abundance are often modeled in ways that aim to capture the underlying biological processes involved, doing so is neither necessary nor sufficient for making good predictions. Here we report on a data science competition focused on modelling time series of Antarctic penguin abundance. We describe the best performing submitted models and compare them to a Bayesian model previously developed by domain experts and build an ensemble model that outperforms the individual component models in prediction accuracy. The top performing models varied tremendously in model complexity, ranging from very simple forward extrapolations of average growth rate to ensembles of models integrating recently developed machine learning techniques. Despite the short time frame for the competition, four of the submitted models outperformed the model previously created by the team of domain experts. We discuss the structure of the best performing models and components therein that might be useful for other ecological applications, the benefit of creating ensembles of models for ecological prediction, and the costs and benefits of including detailed domain expertise in ecological modelling. Additionally, we discuss the benefits of data science competitions, among which are increased visibility for challenging science questions, the generation of new techniques not yet adopted within the ecological community, and the ability to generate ensemble model forecasts that directly address model uncertainty.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Ecological Informatics - Volume 48, November 2018, Pages 1-11
نویسندگان
, , , , , , , , ,