کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6939148 1449969 2018 33 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Local ensemble learning from imbalanced and noisy data for word sense disambiguation
ترجمه فارسی عنوان
گروه محلی یادگیری از داده های نامتقارن و پر سر و صدا برای ابهام در اصطلاح کلمه
کلمات کلیدی
فراگیری ماشین، پردازش زبان طبیعی، طبقه بندی نامتعادل، عدم تعادل چند طبقه، یادگیری گروهی طبقه بندی یک طبقه برچسب برچسب کلاس، بیانیه واژگان معنایی،
ترجمه چکیده
پردازش زبان طبیعی نقش کلیدی در تعاملات انسان و دستگاه بازی می کند، به کامپیوتر اجازه می دهد تا زبان انسانی را درک و تجزیه و تحلیل کند. یکی از زیر دامنه های چالش انگیزش، ابهام واژگانی کلمه است، وظیفه به طور خودکار شناسایی حس (یا مفهوم) در نظر گرفته شده از کلمه مبهم بر مبنای زمینه ای است که در آن کلمه استفاده می شود. این نیاز به استخراج ویژگی های مناسب برای ضبط خواص داده های خاص و یک راه حل یادگیری ماشین اختصاصی برای اجازه دادن به برچسب دقیق از حس مناسب است. با این وجود، مسئله طبقه بندی الگو در اینجا به شدت چالش برانگیز است، زیرا ما باید با دادههای نامتقارن چند بعدی و چند طبقه برخورد کنیم که علاوه بر این ممکن است با نویز برچسب برچسب کلاس خراب شود. برای رسیدگی به این مسائل، ما راه حل یادگیری گروهی محلی را پیشنهاد می کنیم. این یک تقسیم یک طبقه ای از یک مشکل چند طبقه ای است و یک مجموعه از طبقه بندی های یک کلاس را به هر یک از توزیع ها اختصاص می دهد. طبقه بندی کنندگان بر اساس زیرمجموعه های کم ابعاد ویژگی ها و یک تغییر مکان فضایی ویژگی های هسته ای برای به دست آوردن نمایندگی کمتری آموزش دیده اند. وزن نمونه برای فیلتر کردن موارد بالقوه پر سر و صدا و کاهش همپوشانی بین کلاس ها استفاده می شود. در نهایت، تکنیک تلفیقی طبقه بندی دوجانبه برای بازسازی مشکل اصلی چند طبقه استفاده می شود. نتایج ما نشان می دهد که رویکرد یادگیری پیشنهاد شده، توانایی را برای هر دو توزیع متخلخل چند طبقه و نویز کلاس برچسب نشان می دهد، و این یک ابزار مفید برای کار مورد نظر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Natural Language Processing plays a key role in man-machine interactions, allowing computers to understand and analyze human language. One of its more challenging sub-domains is word sense disambiguation, the task of automatically identifying the intended sense (or concept) of an ambiguous word based on the context in which the word is used. This requires proper feature extraction to capture specific data properties and a dedicated machine learning solution to allow for the accurate labeling of the appropriate sense. However, the pattern classification problem posed here is highly challenging, as we must deal with high-dimensional and multi-class imbalanced data that additionally may be corrupted with class label noise. To address these issues, we propose a local ensemble learning solution. It uses a one-class decomposition of the multi-class problem, assigning an ensemble of one-class classifiers to each of the distributions. The classifiers are trained on the basis of low-dimensional subsets of features and a kernel feature space transformation to obtain a more compact representation. Instance weighting is used to filter out potentially noisy instances and reduce overlapping among classes. Finally, a two-level classifier fusion technique is used to reconstruct the original multi-class problem. Our results show that the proposed learning approach displays robustness to both multi-class skewed distributions and class label noise, making it a useful tool for the considered task.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 78, June 2018, Pages 103-119
نویسندگان
, ,