کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4945035 1438291 2017 51 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A novel ensemble learning approach to unsupervised record linkage
ترجمه فارسی عنوان
یک رویکرد یادگیری گروهی برای پیوند پیوسته بدون نظارت
کلمات کلیدی
پیوند پیوسته بدون نظارت، تطبیق داده ها، طبقه بندی، یادگیری گروهی
ترجمه چکیده
پیوند ضبط یک فرایند شناسایی سوابق است که به یک موجودیت واقعی در جهان اشاره دارد. بسیاری از رویکردهای موجود برای ضبط پیوند، تکنیک های یادگیری ماشین های تحت نظارت را برای ایجاد یک مدل طبقه بندی که یک سوابق رکورد را به عنوان بازی یا عدم مطابقت طبقه بندی می کند، اعمال می کند. الزامات اصلی چنین رویکردی یک مجموعه داده آموزش آموزشی است. در بسیاری از برنامه های کاربردی در دنیای واقعی، مجموعه داده های برچسب دار در دسترس نیست، از این رو لازم است که یک الگوریتم یادگیری ماشین تحت نظارت ایجاد یک مجموعه داده های آموزشی مناسب به اندازه کافی ایجاد شود. تکنیک های یادگیری ماشین نیمه نظارتی مانند یادگیری خودآموز و یا یادگیری فعال، که نیاز به یک مجموعه داده کوچک آموزشی با برچسب دستی دارند، برای ضبط پیوند استفاده شده است. این تکنیک ها نیاز به نشانه گذاری دستی مجموعه داده های آموزشی را کاهش می دهد. با این حال، آنها تا به حال برای رسیدن به یک سطح دقت مشابه با روش های یادگیری تحت نظارت. در این مقاله، یک رویکرد جدید برای پیوند پیوسته بدون نظارت بر اساس ترکیبی از یادگیری گروهی و افزایش خودکار خودآموزی پیشنهاد می کنیم. در رویکرد پیشنهادی مجموعه ای از مدل های خودکار خودآموزی با طرح های اندازه گیری تشابه متفاوت تولید می شود. به منظور بهبود فرایند خودآموزی خودکار، ما وزن بندی میدان را به انتخاب بذر اتوماتیک برای هر یک از مدل های خودآموزی می پردازیم. ما پیشنهاد می کنیم یک اقدام تنوع بی نظیر برای اطمینان از اینکه تنوع بالا در میان مدل های خودآموزی انتخاب شده وجود دارد. در نهایت، ما پیشنهاد می کنیم از نسبت سهم مدل های خودآموزی برای حذف افرادی که دقت ضعیفی از این گروه دارند استفاده کنیم. ما رویکرد ما را در 4 مجموعه داده های قابل دسترس که معمولا در جامعه پیوند پیوندی استفاده می شود ارزیابی می کنیم. نتایج تجربی ما نشان می دهد که رویکرد پیشنهاد ما دارای مزایای بیشتری نسبت به تکنیک های پیاده سازی رکورد نیمه نظارت و کنترل نشده است. در 3 از 4 مجموعه داده ها نیز نتایج مشابهی را در مقایسه با رویکردهای تحت نظارت به دست می آورد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Record linkage is a process of identifying records that refer to the same real-world entity. Many existing approaches to record linkage apply supervised machine learning techniques to generate a classification model that classifies a pair of records as either match or non-match. The main requirement of such an approach is a labelled training dataset. In many real-world applications no labelled dataset is available hence manual labelling is required to create a sufficiently sized training dataset for a supervised machine learning algorithm. Semi-supervised machine learning techniques, such as self-learning or active learning, which require only a small manually labelled training dataset have been applied to record linkage. These techniques reduce the requirement on the manual labelling of the training dataset. However, they have yet to achieve a level of accuracy similar to that of supervised learning techniques. In this paper we propose a new approach to unsupervised record linkage based on a combination of ensemble learning and enhanced automatic self-learning. In the proposed approach an ensemble of automatic self-learning models is generated with different similarity measure schemes. In order to further improve the automatic self-learning process we incorporate field weighting into the automatic seed selection for each of the self-learning models. We propose an unsupervised diversity measure to ensure that there is high diversity among the selected self-learning models. Finally, we propose to use the contribution ratios of self-learning models to remove those with poor accuracy from the ensemble. We have evaluated our approach on 4 publicly available datasets which are commonly used in the record linkage community. Our experimental results show that our proposed approach has advantages over the state-of-the-art semi-supervised and unsupervised record linkage techniques. In 3 out of 4 datasets it also achieves comparable results to those of the supervised approaches.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Systems - Volume 71, November 2017, Pages 40-54
نویسندگان
, , , ,