کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4944554 1437999 2017 13 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
An efficient Wikipedia semantic matching approach to text document classification
ترجمه فارسی عنوان
رویکرد تطبیق معنایی ویکی پدیا به طبقهبندی سند متن
کلمات کلیدی
تطبیق با ویکیپدیا تطابق کلمات کلیدی، طبقه بندی سند، معناشناسی،
ترجمه چکیده
یک روش طبقه بندی سنتی مبتنی بر تطابق کلمات کلیدی، هر سند متن را به عنوان مجموعه ای از کلمات کلیدی نشان می دهد، بدون در نظر گرفتن اطلاعات معنایی، در نتیجه، کاهش دقت طبقه بندی. برای حل این مشکل، یک روش طبقه بندی جدید بر مبنای تطبیق ویکیپدیا پیشنهاد شده است که هر سند را به عنوان یک بردار مفهوم در فضای معنایی ویکی پدیا به کار می گیرد تا معنای متن را درک کند و نشان داده شده است که دقت طبقه بندی را بهبود می بخشد. با این حال، فضای بسیار معنایی ویکی پدیا به طور قابل توجهی باعث کاهش کارآیی نسل یک مفهوم بردار می شود، که منجر به تاثیر منفی در دسترس بودن رویکرد در محیط آنلاین می شود. در این مقاله، یک رویکرد تطبیق معنایی ویکی پدیا به طبقه بندی مدارک پیشنهاد می کنیم. ابتدا چندین قاعده انتخابی را تعریف می کنیم تا سریعا مفاهیم مربوط به یک سند از فضای معنایی ویکی پدیا را بیرون بیاوریم و دیگر نیازی به هماهنگی همه مفاهیم در فضای معنایی نیستیم و بنابراین کارایی نسل بردار مفهوم را بسیار بهبود می دهیم. دوم، براساس نمایش معنایی هر سند متن، ما شباهت بین اسناد را محاسبه می کنیم تا اسناد را با دقت طبقه بندی کنیم. در نهایت، آزمایشات ارزیابی اثربخشی رویکرد ما را نشان می دهد، یعنی، که می تواند کارآیی طبقه بندی تطبیق ویکی پدیا را در شرایط پیش شرطی برای به خطر انداختن دقت طبقه بندی بهبود دهد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
A traditional classification approach based on keyword matching represents each text document as a set of keywords, without considering the semantic information, thereby, reducing the accuracy of classification. To solve this problem, a new classification approach based on Wikipedia matching was proposed, which represents each document as a concept vector in the Wikipedia semantic space so as to understand the text semantics, and has been demonstrated to improve the accuracy of classification. However, the immense Wikipedia semantic space greatly reduces the generation efficiency of a concept vector, resulting in a negative impact on the availability of the approach in an online environment. In this paper, we propose an efficient Wikipedia semantic matching approach to document classification. First, we define several heuristic selection rules to quickly pick out related concepts for a document from the Wikipedia semantic space, making it no longer necessary to match all the concepts in the semantic space, thus greatly improving the generation efficiency of the concept vector. Second, based on the semantic representation of each text document, we compute the similarity between documents so as to accurately classify the documents. Finally, evaluation experiments demonstrate the effectiveness of our approach, i.e., which can improve the classification efficiency of the Wikipedia matching under the precondition of not compromising the classification accuracy.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 393, July 2017, Pages 15-28
نویسندگان
, , , , , , , ,