کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6853986 1437282 2017 35 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A supervised gradient-based learning algorithm for optimized entity resolution
ترجمه فارسی عنوان
یک الگوریتم یادگیری مبتنی بر گرادیان تحت نظارت برای حل اختیاری بهینه
ترجمه چکیده
وظیفه پیوند رکورد احتمالاتی این است که سوابق را پیدا کنید که پیوندی با یک موجودیت در چندین منبع داده متمایز دارد. پیوند دقیق سوابق (حل و فصل) یک وظیفه مهم برای صنعت مراقبت های بهداشتی، دولت، اجرای قانون و بخش خصوصی به دلایل روشن است. با این حال، پیدا کردن دقیق مسابقات یک نهاد می تواند به دلیل سوابق با نوع خطی، صوتی و یا انواع دیگر خطاها (سر و صدا) در منابع داده های واقعی در دنیای واقعی چالش برانگیز باشد. در طول سالها، بسیاری از توابع مقایسه برای ارتباط جفت سوابق و ایجاد نمره مشابهت ایجاد شده است. با یک جفت آستانه از پیش تعیین شده، ممکن است تصمیم بگیرد که آیا سوابق جفت ها مطابقت دارند، مطابقت نکنند، یا اگر آنها نیاز به بررسی روحانی بیشتری داشته باشند. با این وجود، پیدا کردن توابع مقایسه مناسب، توصیفگرهای هویت (زمینه)، مقادیر آستانه و طبقه بندی های کارآمد، یک کار چالش انگیز است. در این مطالعه، ما یک مدل یادگیری مبتنی بر گرادیان تحت نظارت ارائه می دهیم که می تواند ساختار و پارامترهای آن را بر اساس نمرات مطابق با توابع مقایسه ای (که در بسیاری از زمینه ها کاربرد دارد) را برای طبقه بندی صحیح سوابق، تنظیم کند. طراحی این ساختار شفاف است و به طور بالقوه می تواند به ما اجازه دهد که توابع مقایسه و فیلدها برای پیوند صحیح سوابق با یکدیگر بسیار مهم باشند. برای آموزش این ساختار، ما یک شاخص عملکرد جدید ارائه می دهیم که می تواند به یادگیری نحوه جدا شدن مجدد سوابق غیرمجاز کمک کند. نتایج با استفاده از مجموعه داده های مصنوعی تحت تاثیر سطوح مختلف سر و صدا و داده های دنیای واقعی نشان می دهد که اثر الگوریتم، که می تواند به طور قابل توجهی کاهش تعداد مثبت کاذب، منفی کاذب، و تعداد پرونده های انتخاب شده برای بررسی را نشان می دهد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
The task of probabilistic record linkage is to find and link records that refer to the same entity across several disparate data sources. The accurate linking of records (entity resolution) is an important task for the healthcare industry, government, law enforcement, and the private sector, for obvious reasons. However, finding exact matches of an entity can be challenging due to records with typographical, phonetical or other types of errors (noise) found across real-world data sources. Over the years, many comparison functions have been developed to relate pairs of records and produce a similarity score. With a pair of predefined thresholds, one may decide if records pairs match, do not match, or if they require further clerical review. Nevertheless, finding appropriate comparison functions, identity descriptors (fields), threshold values, and efficient classifiers remains a challenging task. In this study, we propose a supervised gradient-based learning model that can adjust its structure and parameters based on matching scores coming from many comparison functions (and applied to many fields), to efficiently classify the records. The design of this structure is transparent, and can potentially allow us to locate which comparison functions and fields are more significant to correctly link the records. To train this structure, we propose a novel performance index that can help learn how to separate matched from non-matched records. Results completed with the use of synthetic datasets affected by different levels of noise and real-world datasets show the effectiveness of the algorithm, which can significantly reduce the number of false positives, false negatives, and the number of records selected for review.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Data & Knowledge Engineering - Volume 112, November 2017, Pages 106-129
نویسندگان
, , , ,