کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6856192 1437948 2018 46 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A scalable framework for cross-lingual authorship identification
ترجمه فارسی عنوان
یک چارچوب مقیاس پذیر برای شناسایی متون زبان انگلیسی
ترجمه چکیده
شناسایی متون کلامی با هدف یافتن نویسنده یک سند ناشناس در یک زبان با استفاده از اسناد برچسبگذاری شده در زبانهای دیگر نوشته شده است. چالش اصلی شناسایی ترجمه های متقابل زبان این است که نشانگرهای سبک (ویژگی) که در یک زبان استفاده می شود ممکن است به زبان های دیگر در بدن قابل استفاده نباشد. روش های موجود بر این چالش با استفاده از منابع خارجی مانند ترجمه ماشین و تگ های بخشی از سخنرانی غلبه می کنند. با این حال، چنین راه حل هایی برای زبان های با منابع خارجی ضعیف (که به عنوان زبان های کم منابع شناخته می شود) قابل اجرا نیستند. آنها همچنین به اندازه تعدادی از نویسندگان کاندید و / یا تعداد زبان ها در بدن افزایش می یابد. در این تحقیق، ما انواع مختلفی از ویژگی های استیلومتری را تجزیه و تحلیل می کنیم و 10 ویژگی مستقل از زبان با عملکرد بالا را برای وظایف تحلیل تجزیه و تحلیل متقابل زبانی ارائه می کنیم. بر اساس این ویژگی های سبک، ما یک راه حل شناسایی متقابل زبان را پیشنهاد می کنیم که می تواند با دقت تعداد زیادی از نویسندگان را اداره کند. به طور خاص، ما اسناد را به قطعاتی تقسیم می کنیم که هر قطعه بیشتر به قطعه اندازه ثابت تجزیه می شود. با استفاده از یک کپی چند زبانه از 400 نویسنده با 825 اسناد در 6 زبان مختلف، نشان می دهد که روش ما می تواند به سطح دقت 96.66٪ برسد. راه حل ما نیز بهتر از راه حل موجود است که به منابع خارجی متکی نیست.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Cross-lingual authorship identification aims at finding the author of an anonymous document written in one language by using labeled documents written in other languages. The main challenge of cross-lingual authorship identification is that the stylistic markers (features) used in one language may not be applicable to other languages in the corpus. Existing methods overcome this challenge by using external resources such as machine translation and part-of-speech tagging. However, such solutions are not applicable to languages with poor external resources (known as low resource languages). They also fail to scale as the number of candidate authors and/or the number of languages in the corpus increases. In this investigation, we analyze different types of stylometric features and identify 10 high-performance language-independent features for cross-lingual stylometric analysis tasks. Based on these stylometric features, we propose a cross-lingual authorship identification solution that can accurately handle a large number of authors. Specifically, we partition the documents into fragments where each fragment is further decomposed into fixed size chunks. Using a multilingual corpus of 400 authors with 825 documents written in 6 different languages, we show that our method can achieve an accuracy level of 96.66%. Our solution also outperforms the best existing solution that does not rely on external resources.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 465, October 2018, Pages 323-339
نویسندگان
, , , ,