کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
10355072 867029 2014 9 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
The impact of preprocessing on text classification
ترجمه فارسی عنوان
تاثیر پیش پردازش بر طبقه بندی متن
کلمات کلیدی
تشخیص الگو، طبقه بندی متن، طبقه بندی متن، پیش پردازش متن،
ترجمه چکیده
پیش پردازش یکی از اجزای کلیدی در چارچوب طبقه بندی متداول متن است. این مقاله با هدف بررسی تاثیر پیش پردازش بر طبقه بندی متن از لحاظ جنبه های مختلف مانند دقت طبقه بندی، دامنه متن، زبان متن و کاهش ابعاد، مورد بررسی قرار می گیرد. برای این منظور تمامی ترکیبات احتمالی وظایف پیش پردازش به طور گسترده مورد استفاده در دو حوزه مختلف یعنی ایمیل و اخبار و دو زبان مختلف، یعنی ترکی و انگلیسی، مقایسه می شوند. به این ترتیب، سهم وظایف پیش پردازش در موفقیت طبقه بندی در ابعاد مختلف ابعاد، درگیری های احتمالی میان این وظایف، و نیز وابستگی این وظایف به زبان ها و حوزه های مربوطه، به طور جامع ارزیابی می شود. تجزیه و تحلیل تجربی بر روی مجموعه داده های معیار نشان می دهد که انتخاب ترکیب مناسب از وظایف قبل از پردازش، به جای فعال کردن یا غیرفعال کردن همه آنها، می تواند بهبود قابل توجهی در دقت طبقه بندی بسته به دامنه و زبان مورد مطالعه قرار گیرد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
Preprocessing is one of the key components in a typical text classification framework. This paper aims to extensively examine the impact of preprocessing on text classification in terms of various aspects such as classification accuracy, text domain, text language, and dimension reduction. For this purpose, all possible combinations of widely used preprocessing tasks are comparatively evaluated on two different domains, namely e-mail and news, and in two different languages, namely Turkish and English. In this way, contribution of the preprocessing tasks to classification success at various feature dimensions, possible interactions among these tasks, and also dependency of these tasks to the respective languages and domains are comprehensively assessed. Experimental analysis on benchmark datasets reveals that choosing appropriate combinations of preprocessing tasks, rather than enabling or disabling them all, may provide significant improvement on classification accuracy depending on the domain and language studied on.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Processing & Management - Volume 50, Issue 1, January 2014, Pages 104-112
نویسندگان
, ,