کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4966416 1365120 2017 13 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Vocabulary size and its effect on topic representation
ترجمه فارسی عنوان
اندازه واژگان و تاثیر آن بر نمایندگی موضوع
کلمات کلیدی
ترجمه چکیده
این مطالعه به بررسی اینکه چگونه هزینه های محاسباتی برای آموزش مدل های موضوعی ممکن است با حذف انتخابی از واژگان متون مربوط به متن متداول، کاهش یابد. ما در مقایسه با مواردی که به طور جداگانه اتفاق می افتد، مقادیر 0.5٪، 1٪ و 5٪ بیشتر در معرض شرایط قرار می گیرند و هر دو 0.5٪ بالاترین و بیشترین موارد را به همراه می آورند و تغییراتی در تعدادی از موضوعات مورد نظر (10، 20، 30، 40، 50، 100) با استفاده از سه مجموعه داده. چهار مقیاس نتایج مقایسه شده است. از بین بردن اصطلاحات به طور جداگانه، تأثیر کمی بر نتایج همه اقدامات آزمایش شده دارد. ظرفیت تبعیض سند، با اندازه گیری تراکم فضای سند، با حذف موارد مکرر اتفاق می افتد، اما با تعداد بیشتری از موضوعات افزایش می یابد. اندازه واژگان تا حد زیادی بر روی آنتروپی تاثیر نمی گذارد، اما آنتروپی توسط تعدادی از موضوعات تحت تاثیر قرار می گیرد. در نهایت، شباهت موضوعی، با اندازه گیری شباهت موضوع دوگانه و واگرایی یانسن-شانون، با حذف شرایط مکرر، کاهش می یابد. یافته ها به تحقیقات علمی در زمینه بازیابی اطلاعات و اطلاع رسانی می پردازند که از مدل سازی موضوع استفاده می کند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
This study investigates how computational overhead for topic model training may be reduced by selectively removing terms from the vocabulary of text corpora being modeled. We compare the impact of removing singly occurring terms, the top 0.5%, 1% and 5% most frequently occurring terms and both top 0.5% most frequent and singly occurring terms, along with changes in the number of topics modeled (10, 20, 30, 40, 50, 100) using three datasets. Four outcome measures are compared. The removal of singly occurring terms has little impact on outcomes for all of the measures tested. Document discriminative capacity, as measured by the document space density, is reduced by the removal of frequently occurring terms, but increases with higher numbers of topics. Vocabulary size does not greatly influence entropy, but entropy is affected by the number of topics. Finally, topic similarity, as measured by pairwise topic similarity and Jensen-Shannon divergence, decreases with the removal of frequent terms. The findings have implications for information science research in information retrieval and informetrics that makes use of topic modeling.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Processing & Management - Volume 53, Issue 3, May 2017, Pages 653-665
نویسندگان
, , , ,