کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4966481 867089 2016 14 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
ترجمه فارسی عنوان
بازیابی سند نامزد برای تشخیص سرقت ادبی متقابل با استفاده از اطلاعات نزدیکی دو سطح
کلمات کلیدی
بازیابی سند نامزد شده، تشخیص سرقت ادبی صریح، تقسیم بندی متن، بازیابی مبتنی بر نزدیکی،
ترجمه چکیده
رشد سریع اسناد در زبان های مختلف، افزایش دسترسی به اسناد الکترونیکی و دسترسی به ابزارهای ترجمه موجب شده است که در سال های اخیر، توجه بیشتری را به خود جلب کند. وظیفه تشخیص سرقت ادبی متقابل شامل دو مرحله اصلی است: بازیابی نامزد و ارزیابی شباهت سندی دو طرفه. در این مقاله، ما بررسی بازیابی کاندید را انجام می دهیم، جایی که هدف آن یافتن اسناد منبع بالقوه یک متن مشکوک است. روش پیشنهادی ما برای تشخیص سرقت ادبی متقابل یک رویکرد متمرکز به کلید واژه است. از آنجایی که سرقت ادبی معمولا در بخش هایی از متن اتفاق می افتد، نیازمند تقسیم متون به قطعات برای تشخیص هویت محلی است. بنابراین ما یک الگوریتم تقسیم بندی بر مبنای موضوع پیشنهاد می کنیم تا سند مشکوک را به مجموعه ای از نقل قول های مرتبط تبدیل کند. پس از آن، ما از یک مدل مبتنی بر مجاورت برای بازیابی اسناد با بهترین پارامترها استفاده می کنیم. آزمایشات نشان می دهد نتایج امیدوار کننده برای این مرحله مهم از تشخیص سرقت ادبی متقابل.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
The rapid growth of documents in different languages, the increased accessibility of electronic documents, and the availability of translation tools have caused cross-lingual plagiarism detection research area to receive increasing attention in recent years. The task of cross-language plagiarism detection entails two main steps: candidate retrieval and assessing pairwise document similarity. In this paper we examine candidate retrieval, where the goal is to find potential source documents of a suspicious text. Our proposed method for cross-language plagiarism detection is a keyword-focused approach. Since plagiarism usually happens in parts of the text, there is a requirement to segment the texts into fragments to detect local similarity. Therefore we propose a topic-based segmentation algorithm to convert the suspicious document to a set of related passages. After that, we use a proximity-based model to retrieve documents with the best matching passages. Experiments show promising results for this important phase of cross-language plagiarism detection.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Processing & Management - Volume 52, Issue 6, November 2016, Pages 1004-1017
نویسندگان
, ,