کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4949078 1439960 2017 17 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Frequent Itemsets Mining for Big Data: A Comparative Analysis
ترجمه فارسی عنوان
مزارع مکرر برای داده های بزرگ: تجزیه و تحلیل مقایسه ای
ترجمه چکیده
در این مقاله، الگوریتم های مقیاس پذیر مبتنی بر هودوپ و جرقه را بررسی می کند که در معرض مأموریت بزرگی داده های مکرر در معادن با استفاده از تحلیل های تئوری و تجربی مقایسه می شود. از آنجاییکه کار استخراج اقلام از نظر محاسباتی گران است، استراتژی های توزیع و موازی سازی آن به شدت بر استفاده حافظه، متعادل سازی بار و هزینه های ارتباطی تاثیر می گذارد. بحث مفصلی در مورد انتخاب الگوریتمهای روشهای توزیع شده برای استخراج موردهای اقلام مکرر به وسیله یک تجزیه و تحلیل تجربی و مقایسه عملکرد اجرای پیشرفته توزیع شده در دو مجموعه مصنوعی و واقعی انجام می شود. نقاط قوت و ضعف الگوریتم ها به طور کامل با توجه به ویژگی های مجموعه داده (به عنوان مثال، توزیع داده، میانگین تراکنش، تعداد سوابق) و تنظیمات پارامتر خاص مورد بحث قرار می گیرند. در نهایت، بر اساس تجزیه و تحلیل های نظری و تجربی، مسیرهای تحقیق باز برای موازی سازی مساله معادن اقلام ارائه شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات
چکیده انگلیسی
This paper reviews Hadoop- and Spark-based scalable algorithms addressing the frequent itemset mining problem in the Big Data domain through both theoretical and experimental comparative analyses. Since the itemset mining task is computationally expensive, its distribution and parallelization strategies heavily affect memory usage, load balancing, and communication costs. A detailed discussion of the algorithmic choices of the distributed methods for frequent itemset mining is followed by an experimental analysis comparing the performance of state-of-the-art distributed implementations on both synthetic and real datasets. The strengths and weaknesses of the algorithms are thoroughly discussed with respect to the dataset features (e.g., data distribution, average transaction length, number of records), and specific parameter settings. Finally, based on theoretical and experimental analyses, open research directions for the parallelization of the itemset mining problem are presented.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Big Data Research - Volume 9, September 2017, Pages 67-83
نویسندگان
, , , , , ,