کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4960432 1446499 2017 6 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Performance Comparison and Optimization of Text Document Classification using k-NN and Naïve Bayes Classification Techniques
ترجمه فارسی عنوان
مقایسه عملکرد و بهینه سازی طبقه بندی سند متنی با استفاده از K-NN و تکنیک های طبقه بندی بیز ساده
کلمات کلیدی
K-NN، Bayes نائين، طبقه بندي سند متن، بازيابي اطلاعات
فهرست مطالب مقاله
چکیده

کلمات کلیدی

1.    مقدمه  

2.. نقد و بررسی ادبیات 

2.1 رویکرد طبقه بندی 

شکل 1. الگوریتم طبقه بندی

2.2 k-نزدیک ترین همسایه 

2.3 طبقه بندی بایز ساده 

2.4 کارهای قبلی

3. روش

4. نتایج و بحث 

شکل 2. خلاصه فراخوانی، صحت و F معیار

شکل 3. خلاصه دقت

5. نتیجه گیری



 
ترجمه چکیده
در عصر حاضر اطلاعات در قالب های مختلفی از قبیل متن، تصویر، ویدئو، صدا و غیره در دسترس است. Corpus مجموعه ای از اسناد در حجم زیاد است. با استفاده از بازیابی اطلاعات (IR)، امکان دستیابی به اطلاعات غیر ساخت یافته و خلاصه، طبقه بندی و خوشه بندی خودکار وجود دارد. تمرکز این پژوهش بر طبقه بندی داده ها با استفاده از دو روش از شش روش طبقه بندی داده هاست: k-NN(K نزدیک ترین همسایگان) و بیز ساده. اسناد متنی مورد استفاده در قالب XML هسند. Corpus مورد استفاده در این تحقیق از TREC Legal Track دانلود شده است که در مجموع بیش از سه هزار اسناد متنی و بیش از بیست نوع طبقه بندی دارد. از میان بیست نوع طبقه بندی، شش طبقه بندی با بیشترین تعداد اسناد متنی انتخاب می شوند. داده ها با استفاده از نرم افزار RapidMiner پردازش می شوند و نتیجه نشان می دهد که مقدار بهینه برای k در k-NN در k = 13 رخ می دهد. با استفاده از این مقدار برای K، دقت به طور متوسط 55.17 درصد، بهتر از بیز است که به 39.01 درصد دقت دست یافته است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر علوم کامپیوتر (عمومی)
چکیده انگلیسی

In the current era, information is available in several different formats, such as text, image, video, audio and others. Corpus is a collection of documents in a large volume. By using Information Retrieval (IR), it is possible to obtain an unstructured information and automatic summary, classification and clustering. This research is to focus on data classification using two out of the six approaches of data classification, which is k-NN (k-Nearest Neighbors) and Naïve Bayes. The text documents used is in XML format. The Corpus used in this research is downloaded from TREC Legal Track with a total of more than three thousand text documents and over twenty types of classifications. Out of the twenty types of classifications, six are chosen with the most number of text documents. The data is processed using RapidMiner software and the result shows that the optimum value for k in k-NN occurs at k=13. Using this value for k, the accruacy in average reached 55.17 percent, which is better than using Naïve Bayes which is 39.01 percent.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Procedia Computer Science - Volume 116, 2017, Pages 107-112
نویسندگان
, ,