کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4945121 1438297 2017 25 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Parallel meta-blocking for scaling entity resolution over big heterogeneous data
ترجمه فارسی عنوان
مسدود کردن مساوی برای حل مسأله مقیاس پذیری بیش از داده های ناهمگن بزرگ
کلمات کلیدی
متا بلوک، نقشه / کاهش مدل، تقسیم بندی،
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In this paper, we introduce scalable algorithms for Meta-blocking, exploiting the MapReduce framework. Specifically, we describe a strategy for parallel execution that explicitly targets the core concept of Meta-blocking, the blocking graph. Furthermore, we propose two more advanced strategies, aiming to reduce the overhead of data exchange. The comparison-based strategy creates the blocking graph implicitly, while the entity-based strategy is independent of the blocking graph, employing fewer MapReduce jobs with a more elaborate processing. We also introduce a load balancing algorithm that distributes the computationally intensive workload evenly among the available compute nodes. Our experimental analysis verifies the feasibility and superiority of our advanced strategies, and demonstrates their scalability to very large datasets.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Systems - Volume 65, April 2017, Pages 137-157
نویسندگان
, , , , ,