کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
8845829 1617189 2018 27 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Small values in big data: The continuing need for appropriate metadata
ترجمه فارسی عنوان
مقادیر کوچک در داده های بزرگ: نیاز مداوم برای ابرداده مناسب
ترجمه چکیده
جمع آوری داده ها از منابع متنوع برای رسیدگی به مسائل مربوط به محیط زیست به طور فزاینده ای رایج است. بسیاری از داده های زیست محیطی حاوی داده های دست راست سانسور شده - مشاهدات زیر محدودیت تشخیص تحلیلی است. مطالعات از مجموعه داده های تک و به طور کلی کوچک نشان می دهد که رویکردهای رایج برای اداره داده های سانسور شده - مثلا حذف یا جایگزینی مقادیر ثابت - منجر به تعصبات سیستماتیک می شود. با این وجود، هیچ مطالعهای نمیتواند مورد بررسی قرار بگیرد که مدارک و حضور دادههای سانسور شده از نتایج حاصل از مجموعه دادههای بزرگ و چندگانه تأثیر بگذارد. ما داده های چپ سانسور شده را در یک پایگاه اطلاعات کیفیت دریاچه جمع آوری شده از 74 منبع توصیف می کنیم و چالش های مقابله با ارزش های کوچک را در داده های بزرگ، از جمله محدودیت های تشخیص که در آن وجود ندارد، به طور گسترده ای در بر می گیریم و روند در طول زمان را نشان می دهد. ما نشان می دهیم که جایگزینی داده های سانسور شده نیز می تواند تحلیل های تعصبی را با استفاده از داده های مجموعه داده های بزرگ انجام دهد، که داده های سانسور شده را می توان با رویکردهای مدرن مدرن مورد استفاده قرار داد، اما چنین رویکردهایی به متادیت های دقیق وابسته است که توصیف رفتار داده های سانسور شده از هر منبع است.
موضوعات مرتبط
علوم زیستی و بیوفناوری علوم کشاورزی و بیولوژیک بوم شناسی، تکامل، رفتار و سامانه شناسی
چکیده انگلیسی
Compiling data from disparate sources to address pressing ecological issues is increasingly common. Many ecological datasets contain left-censored data - observations below an analytical detection limit. Studies from single and typically small datasets show that common approaches for handling censored data - e.g., deletion or substituting fixed values - result in systematic biases. However, no studies have explored the degree to which the documentation and presence of censored data influence outcomes from large, multi-sourced datasets. We describe left-censored data in a lake water quality database assembled from 74 sources and illustrate the challenges of dealing with small values in big data, including detection limits that are absent, range widely, and show trends over time. We show that substitutions of censored data can also bias analyses using 'big data' datasets, that censored data can be effectively handled with modern quantitative approaches, but that such approaches rely on accurate metadata that describe treatment of censored data from each source.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Ecological Informatics - Volume 45, May 2018, Pages 26-30
نویسندگان
, , , , , ,