کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6554941 1422413 2018 5 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Big data uncertainties
ترجمه فارسی عنوان
عدم قطعیت داده های بزرگ
کلمات کلیدی
اطلاعات بزرگ، استنتاج آماری، تعصب انتخابی، وابستگی انعطاف پذیر،
ترجمه چکیده
داده های بزرگ - این ایده که حجم همیشه بیشتر اطلاعات به صورت دائم ثبت می شود، نشان می دهد که مشکلات جدید اکنون می توانند تحت بررسی دقیق علمی قرار گیرند. با این حال، آیا روش های آماری کلاسیک می تواند به طور مستقیم بر روی داده های بزرگ استفاده شود؟ ما با بررسی دو مشکل شناخته شده مجموعه داده های بزرگ، مشکل را بررسی می کنیم. اولا، آنها به گونه ای تعصب دارند، به این معنی که آنها نمای کاملی از جمعیت مورد نظر را ارائه نمی دهند. دوم اینکه آنها یک سطح ضعیف اما فراگیر از وابستگی بین تمام اجزای آنها را نشان می دهند. در هر دو مورد، مشاهده می کنیم که عدم قطعیت نتیجه گیری به دست آمده از روش های آماری هنگامی که در داده های بزرگ استفاده می شود، یا به دلیل یک خطای سیستماتیک (تعصب)، و یا به علت میزان بزرگتر تصادفی (افزایش واریانس) افزایش می یابد. ما استدلال می کنیم که چالش اصلی مطرح شده توسط داده های بزرگ نه تنها نحوه استفاده از داده های بزرگ برای مقابله با مشکلات جدید است بلکه توسعه ابزار و روش هایی است که بتواند خطرات جدیدی را در آن بیان کند.
موضوعات مرتبط
علوم زیستی و بیوفناوری بیوشیمی، ژنتیک و زیست شناسی مولکولی ژنتیک
چکیده انگلیسی
Big data-the idea that an always-larger volume of information is being constantly recorded-suggests that new problems can now be subjected to scientific scrutiny. However, can classical statistical methods be used directly on big data? We analyze the problem by looking at two known pitfalls of big datasets. First, that they are biased, in the sense that they do not offer a complete view of the populations under consideration. Second, that they present a weak but pervasive level of dependence between all their components. In both cases we observe that the uncertainty of the conclusion obtained by statistical methods is increased when used on big data, either because of a systematic error (bias), or because of a larger degree of randomness (increased variance). We argue that the key challenge raised by big data is not only how to use big data to tackle new problems, but to develop tools and methods able to rigorously articulate the new risks therein.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Journal of Forensic and Legal Medicine - Volume 57, July 2018, Pages 7-11
نویسندگان
,