دانلود رایگان مقاله: مزارع مکرر برای داده های بزرگ: تجزیه و تحلیل مقایسه ای

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
4949078	1439960	2017	17 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Frequent Itemsets Mining for Big Data: A Comparative Analysis

ترجمه فارسی عنوان

مزارع مکرر برای داده های بزرگ: تجزیه و تحلیل مقایسه ای

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

Frequent itemset mining - استخراج مزارع مکرر Big Data - کلان داده

ترجمه چکیده

در این مقاله، الگوریتم های مقیاس پذیر مبتنی بر هودوپ و جرقه را بررسی می کند که در معرض مأموریت بزرگی داده های مکرر در معادن با استفاده از تحلیل های تئوری و تجربی مقایسه می شود. از آنجاییکه کار استخراج اقلام از نظر محاسباتی گران است، استراتژی های توزیع و موازی سازی آن به شدت بر استفاده حافظه، متعادل سازی بار و هزینه های ارتباطی تاثیر می گذارد. بحث مفصلی در مورد انتخاب الگوریتمهای روشهای توزیع شده برای استخراج موردهای اقلام مکرر به وسیله یک تجزیه و تحلیل تجربی و مقایسه عملکرد اجرای پیشرفته توزیع شده در دو مجموعه مصنوعی و واقعی انجام می شود. نقاط قوت و ضعف الگوریتم ها به طور کامل با توجه به ویژگی های مجموعه داده (به عنوان مثال، توزیع داده، میانگین تراکنش، تعداد سوابق) و تنظیمات پارامتر خاص مورد بحث قرار می گیرند. در نهایت، بر اساس تجزیه و تحلیل های نظری و تجربی، مسیرهای تحقیق باز برای موازی سازی مساله معادن اقلام ارائه شده است.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات

پیش نمایش مقاله

مزارع مکرر برای داده های بزرگ: تجزیه و تحلیل مقایسه ای

چکیده انگلیسی

This paper reviews Hadoop- and Spark-based scalable algorithms addressing the frequent itemset mining problem in the Big Data domain through both theoretical and experimental comparative analyses. Since the itemset mining task is computationally expensive, its distribution and parallelization strategies heavily affect memory usage, load balancing, and communication costs. A detailed discussion of the algorithmic choices of the distributed methods for frequent itemset mining is followed by an experimental analysis comparing the performance of state-of-the-art distributed implementations on both synthetic and real datasets. The strengths and weaknesses of the algorithms are thoroughly discussed with respect to the dataset features (e.g., data distribution, average transaction length, number of records), and specific parameter settings. Finally, based on theoretical and experimental analyses, open research directions for the parallelization of the itemset mining problem are presented.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Big Data Research - Volume 9, September 2017, Pages 67-83

نویسندگان

Daniele Apiletti, Elena Baralis, Tania Cerquitelli, Paolo Garza, Fabio Pulvirenti, Luca Venturini,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : مزارع مکرر برای داده های بزرگ: تجزیه و تحلیل مقایسه ای

دسترسی سریع

ارتباط

English Website