کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
10997999 1365117 2018 25 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Semantic text classification: A survey of past and recent advances
ترجمه فارسی عنوان
طبقه بندی متن معنایی: بررسی پیشرفت های گذشته و اخیر
کلمات کلیدی
طبقه بندی متن، طبقه بندی متن معنایی، سیستم های مبتنی بر دانش، سیستم های مبتنی بر جامد، مدل های عصبی زبان، یادگیری عمیق،
ترجمه چکیده
طبقه بندی خودکار متن، وظیفه سازماندهی اسناد به کلاس های پیش تعیین شده است، به طور کلی با استفاده از الگوریتم های یادگیری ماشین. به طور کلی، یکی از مهمترین روش های سازماندهی و استفاده از مقادیر غولآسایی اطلاعاتی است که در فرمت متنی بدون ساختار وجود دارد. طبقه بندی متن یک منطقه تحقیقاتی گسترده در زمینه پردازش زبان و استخراج متن است. در طبقه بندی سنتی متن، یک سند به عنوان یک کیسه ای از کلمات بیان می شود که در آن کلمات به عبارت دیگر عبارت ها از چارچوب دقیق تر خود، از جمله موقعیت آنها در یک جمله یا در یک سند، بریده می شوند. فقط متن گسترده ای از سند با برخی از نوع اطلاعات فرکانس مدت در فضای بردار مورد استفاده قرار می گیرد. در نتیجه، معنایی کلمات که می توان از متن دقیق تر مکان آن در جمله و ارتباط آن با واژه های همسایه تعریف کرد، معمولا نادیده گرفته می شود. با این حال، معنای کلمات، ارتباط معناشناختی میان کلمات، اسناد و حتی کلاسها اهمیت دارد، زیرا روشهایی که معناشناسی را به دست میگیرند، عموما به عملکردهای طبقهبندی بهتر دست مییابند. چندین نظرسنجی برای تجزیه و تحلیل رویکردهای متنوع برای روش های طبقه بندی متن سنتی منتشر شده است. اکثر این نظرسنجی ها کاربرد روش های مختلف وابستگی معنایی مختلف را در طبقه بندی متن تا حد مشخصی پوشش می دهد. با این حال، آنها الگوریتم های طبقه بندی متنی معناشناختی و مزایای آنها بر طبقه بندی متن سنتی را مشخص نمی کنند. برای پر کردن این شکاف، ما یک بحث جامع از طبقه بندی متن معنایی و طبقه بندی متن سنتی انجام می دهیم. این بررسی به بررسی پیشرفت های گذشته و اخیر در طبقه بندی متن معنایی و تلاش برای سازماندهی رویکردهای موجود در زیر پنج دسته اساسی می پردازد. رویکردهای مبتنی بر دانش، رویکردهای مبتنی بر کپسول، رویکردهای مبتنی بر یادگیری عمیق، رویکردهای پیشرفته کلمه / شخصیت، رویکردهای پیشرفته و رویکردهای غنی شده زبان شناختی است. علاوه بر این، این بررسی مزایای الگوریتم های طبقه بندی متن معنایی بر الگوریتم های طبقه بندی سنتی را نشان می دهد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
Automatic text classification is the task of organizing documents into pre-determined classes, generally using machine learning algorithms. Generally speaking, it is one of the most important methods to organize and make use of the gigantic amounts of information that exist in unstructured textual format. Text classification is a widely studied research area of language processing and text mining. In traditional text classification, a document is represented as a bag of words where the words in other words terms are cut from their finer context i.e. their location in a sentence or in a document. Only the broader context of document is used with some type of term frequency information in the vector space. Consequently, semantics of words that can be inferred from the finer context of its location in a sentence and its relations with neighboring words are usually ignored. However, meaning of words, semantic connections between words, documents and even classes are obviously important since methods that capture semantics generally reach better classification performances. Several surveys have been published to analyze diverse approaches for the traditional text classification methods. Most of these surveys cover application of different semantic term relatedness methods in text classification up to a certain degree. However, they do not specifically target semantic text classification algorithms and their advantages over the traditional text classification. In order to fill this gap, we undertake a comprehensive discussion of semantic text classification vs. traditional text classification. This survey explores the past and recent advancements in semantic text classification and attempts to organize existing approaches under five fundamental categories; domain knowledge-based approaches, corpus-based approaches, deep learning based approaches, word/character sequence enhanced approaches and linguistic enriched approaches. Furthermore, this survey highlights the advantages of semantic text classification algorithms over the traditional text classification algorithms.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Processing & Management - Volume 54, Issue 6, November 2018, Pages 1129-1153
نویسندگان
, ,