کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6854682 1437592 2018 44 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Document-based topic coherence measures for news media text
ترجمه فارسی عنوان
اقدامات انسجام موضوعی مبتنی بر سند برای متن رسانه های خبری
کلمات کلیدی
مدلهای موضوعی، انسجام موضوع، ارزیابی مدل موضوع، تجزیه و تحلیل متن، متن خبر، تجزیه و تحلیل اکتشافی،
ترجمه چکیده
یک نیاز فزاینده برای تجزیه و تحلیل خودکار متن خبر وجود دارد و مدلهای موضوعی ابزار مفید برای این کار ثابت شده اند. با این حال، به عنوان کیفیت موضوعات ایجاد شده توسط مدل های موضوعی بسیار متفاوت است، تلاش های تحقیق زیادی برای ارزیابی خودکار آنها اختصاص داده شده است. تحقیقات اخیر بر روی هماهنگی موضوع به عنوان اندازه گیری کیفیت موضوع متمرکز شده است. معیارهای انسجام موضوعی با درنظر گرفتن شباهت معنایی کلمات موضوعی کار می کنند. این باعث می شود که آنها ناتوانی برای تشخیص انسجام موضوعات گذرا با کلمات موضوع معنایی ناسازگار باشند که در متون رسانه های خبری فراوان است. در این مقاله، ما مفهوم انسجام موضوعی مبتنی بر اسناد را معرفی می کنیم و اقدامات تطبیقی ​​تازهای را پیشنهاد می کنیم که بر مبنای اسناد موضوع به جای کلمات موضوعی تطابق موضوع را ارزیابی می کنند. ما اقدامات پیشنهادی را در دو مجموعه داده ای حاوی موضوعات به صورت دستی برای هماهنگی مبتنی بر اسناد برچسب گذاری می کنیم که بر اساس آن اقدامات پیشنهادی از روش های پایه قوی و همچنین اقدامات انطباق مبتنی بر کلمه برتر استفاده می کنند. ما همچنین مفید بودن اقدامات انطباق مبتنی بر اسناد را برای کشف خودکار موضوع از متون رسانه های خبری نشان می دهیم.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
There is a rising need for automated analysis of news text, and topic models have proven to be useful tools for this task. However, as the quality of the topics induced by topic models greatly varies, much research effort has been devoted to their automated evaluation. Recent research has focused on topic coherence as a measure of a topic's quality. Existing topic coherence measures work by considering the semantic similarity of topic words. This makes them unfit to detect the coherence of transient topics with semantically unrelated topic words, which abound in news media texts. In this paper, we introduce the notion of document-based topic coherence and propose novel topic coherence measures that estimate topic coherence based on topic documents rather than topic words. We evaluate the proposed measures on two datasets containing topics manually labeled for document-based coherence, on which the proposed measures outperform a strong baseline as well as word-based coherence measures. We also demonstrate the usefulness of document-based coherence measures for automated topic discovery from news media texts.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 114, 30 December 2018, Pages 357-373
نویسندگان
, , ,