کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4944782 1438016 2016 48 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Terms-based discriminative information space for robust text classification
ترجمه فارسی عنوان
فضای اطلاعاتی تبعیض آمیز مبتنی بر شرایط برای طبقه بندی متن قوی
کلمات کلیدی
طبقه بندی متن، وزن معنی دار تبعیض آمیز، ترکیب خط مشی خطی، ساخت و ساز ویژگی ها،
ترجمه چکیده
با توجه به محبوبیت وب 2.0، افزایشی فوق العاده در استفاده از طبقه بندی متن در برنامه های کاربردی مانند فیلتر سند و طبقه بندی احساسات وجود دارد. بسیاری از این برنامه ها تقاضا می کنند که روش طبقه بندی کارآمد و قوی باشند، با این حال طبقه بندی دقیق را با استفاده از شرایط در اسناد انجام می دهند. در این مقاله، یک روش جدید و کارآمد را با استفاده از فضای اطلاعاتی تبعیض آمیز مبتنی بر فاکتور برای طبقه بندی متن قوی پیشنهاد می کنیم. شرایط در اسناد با توجه به اطلاعات تبعیض آمیز که برای یک دسته بیش از دیگران ارائه می دهند، وزن می گیرند. این وزن ها همچنین به منظور تقسیم کردن اصطلاحات به مجموعه های دسته بندی می شوند. یک استدلال خطی خطی برای ترکیب اطلاعات تبعیض ارائه شده توسط هر مجموعه ای از اصطلاحات برای تولید یک فضای مشخصه (فضای اطلاعاتی اختیاری) که دارای ابعاد برابر با تعداد کلاسها است، اتخاذ می شود. در ادامه، یک تابع تشخیصی برای طبقه بندی اسناد در فضای ویژگی یاد می شود. این طبقه بندی متدولوژی فقط بر اطلاعات مربوط به تراشه متکی است و به شیوه های توزیع و نویز قوی است. ما هماهنگی نظری متدولوژی ما با طبقه بندی های تولیدی، تبعیض آمیز و ترکیبی را توسعه می دهیم. ما روش ما را به طور گسترده با پنج شیوه مختلف وزن بندی تبعیض آمیز در 6 مجموعه داده ها از مناطق کاربردی مختلف ارزیابی می کنیم. ما یک مقایسه را با چهار تکنیک طبقه بندی متن شناخته شده ارائه می دهیم. نتایج نشان می دهد که روش ما بطور پیوسته نسبت به بقیه بهتر عمل می کند، به ویژه هنگامی که تغییرات توزیع از آموزش به مجموعه های آزمون وجود دارد. علاوه بر این، روش ما ساده و موثر برای دامنه های کاربردی مختلف و اندازه مجموعه آموزشی است. این نیز سریع با ریز حافظه کوچک و قابل تنظیم است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
With the popularity of Web 2.0, there has been a phenomenal increase in the utility of text classification in applications like document filtering and sentiment categorization. Many of these applications demand that the classification method be efficient and robust, yet produce accurate categorizations by using the terms in the documents only. In this paper, we propose a novel and efficient method using terms-based discriminative information space for robust text classification. Terms in the documents are assigned weights according to the discrimination information they provide for one category over the others. These weights also serve to partition the terms into category sets. A linear opinion pool is adopted for combining the discrimination information provided by each set of terms to yield a feature space (discriminative information space) having dimensions equal to the number of classes. Subsequently, a discriminant function is learned to categorize the documents in the feature space. This classification methodology relies upon corpus information only, and is robust to distribution shifts and noise. We develop theoretical parallels of our methodology with generative, discriminative, and hybrid classifiers. We evaluate our methodology extensively with five different discriminative term weighting schemes on six data sets from different application areas. We give a side-by-side comparison with four well-known text classification techniques. The results show that our methodology consistently outperforms the rest, especially when there is a distribution shift from training to test sets. Moreover, our methodology is simple and effective for different application domains and training set sizes. It is also fast with a small and tunable memory footprint.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 372, 1 December 2016, Pages 518-538
نویسندگان
, , , ,