دانلود رایگان مقاله: یک الگوریتم یادگیری مبتنی بر گرادیان تحت نظارت برای حل اختیاری بهینه

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6853986	1437282	2017	35 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

A supervised gradient-based learning algorithm for optimized entity resolution

ترجمه فارسی عنوان

یک الگوریتم یادگیری مبتنی بر گرادیان تحت نظارت برای حل اختیاری بهینه

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

Entity Resolution - قطعنامه سازمان decision model - مدل تصمیم گیری Record Linkage - پیوند ضبط

ترجمه چکیده

وظیفه پیوند رکورد احتمالاتی این است که سوابق را پیدا کنید که پیوندی با یک موجودیت در چندین منبع داده متمایز دارد. پیوند دقیق سوابق (حل و فصل) یک وظیفه مهم برای صنعت مراقبت های بهداشتی، دولت، اجرای قانون و بخش خصوصی به دلایل روشن است. با این حال، پیدا کردن دقیق مسابقات یک نهاد می تواند به دلیل سوابق با نوع خطی، صوتی و یا انواع دیگر خطاها (سر و صدا) در منابع داده های واقعی در دنیای واقعی چالش برانگیز باشد. در طول سالها، بسیاری از توابع مقایسه برای ارتباط جفت سوابق و ایجاد نمره مشابهت ایجاد شده است. با یک جفت آستانه از پیش تعیین شده، ممکن است تصمیم بگیرد که آیا سوابق جفت ها مطابقت دارند، مطابقت نکنند، یا اگر آنها نیاز به بررسی روحانی بیشتری داشته باشند. با این وجود، پیدا کردن توابع مقایسه مناسب، توصیفگرهای هویت (زمینه)، مقادیر آستانه و طبقه بندی های کارآمد، یک کار چالش انگیز است. در این مطالعه، ما یک مدل یادگیری مبتنی بر گرادیان تحت نظارت ارائه می دهیم که می تواند ساختار و پارامترهای آن را بر اساس نمرات مطابق با توابع مقایسه ای (که در بسیاری از زمینه ها کاربرد دارد) را برای طبقه بندی صحیح سوابق، تنظیم کند. طراحی این ساختار شفاف است و به طور بالقوه می تواند به ما اجازه دهد که توابع مقایسه و فیلدها برای پیوند صحیح سوابق با یکدیگر بسیار مهم باشند. برای آموزش این ساختار، ما یک شاخص عملکرد جدید ارائه می دهیم که می تواند به یادگیری نحوه جدا شدن مجدد سوابق غیرمجاز کمک کند. نتایج با استفاده از مجموعه داده های مصنوعی تحت تاثیر سطوح مختلف سر و صدا و داده های دنیای واقعی نشان می دهد که اثر الگوریتم، که می تواند به طور قابل توجهی کاهش تعداد مثبت کاذب، منفی کاذب، و تعداد پرونده های انتخاب شده برای بررسی را نشان می دهد.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی

پیش نمایش مقاله

یک الگوریتم یادگیری مبتنی بر گرادیان تحت نظارت برای حل اختیاری بهینه

چکیده انگلیسی

The task of probabilistic record linkage is to find and link records that refer to the same entity across several disparate data sources. The accurate linking of records (entity resolution) is an important task for the healthcare industry, government, law enforcement, and the private sector, for obvious reasons. However, finding exact matches of an entity can be challenging due to records with typographical, phonetical or other types of errors (noise) found across real-world data sources. Over the years, many comparison functions have been developed to relate pairs of records and produce a similarity score. With a pair of predefined thresholds, one may decide if records pairs match, do not match, or if they require further clerical review. Nevertheless, finding appropriate comparison functions, identity descriptors (fields), threshold values, and efficient classifiers remains a challenging task. In this study, we propose a supervised gradient-based learning model that can adjust its structure and parameters based on matching scores coming from many comparison functions (and applied to many fields), to efficiently classify the records. The design of this structure is transparent, and can potentially allow us to locate which comparison functions and fields are more significant to correctly link the records. To train this structure, we propose a novel performance index that can help learn how to separate matched from non-matched records. Results completed with the use of synthetic datasets affected by different levels of noise and real-world datasets show the effectiveness of the algorithm, which can significantly reduce the number of false positives, false negatives, and the number of records selected for review.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Data & Knowledge Engineering - Volume 112, November 2017, Pages 106-129

نویسندگان

Orion F. Reyes-Galaviz, Witold Pedrycz, Ziyue He, Nick J. Pizzi,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : یک الگوریتم یادگیری مبتنی بر گرادیان تحت نظارت برای حل اختیاری بهینه

دسترسی سریع

ارتباط

English Website