کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4943106 1437622 2017 21 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A topic modeling based approach to novel document automatic summarization
ترجمه فارسی عنوان
یک رویکرد مبتنی بر موضوع بر مبنای خلاصه سازی اتوماتیک جدید
کلمات کلیدی
خلاصه رمان، مدل سازی موضوع تنوع موضوعی، نسبت تراکم، خوانایی،
ترجمه چکیده
اکثر الگوریتم های خلاصه سازی خودکار متن برای چندین سند با طول نسبتا کوتاه مورد هدف قرار می گیرند، بنابراین بلافاصله به اسناد جدید آزادی ساختار و طولانی دشوار می شود. در این مقاله، با توجه به اسناد رمان، ما یک رویکرد مبتنی بر موضوع سازی به خلاصه سازی خودکار استخراج پیشنهاد می دهیم تا توازن خوبی بین نسبت فشرده سازی، کیفیت خلاصه سازی و قابلیت خواندن ماشین حاصل شود. اول، بر اساس مدل سازی موضوع، جملات نامزدی مرتبط با کلمات موضوعی را از یک سند رمان پیش پردازش استخراج می کنیم. دوم، با اهداف نسبت فشرده سازی و تنوع موضوع، یک تابع ارزیابی اهمیت را برای انتخاب مهمترین احکام از احکام نامزدی طراحی می کنیم و بدین ترتیب خلاصه ای از ابتدای رمان را تولید می کنیم. در نهایت، خلاصه اولیه برای غلبه بر سردرگمی معنایی ناشی از کلمات مبهم یا مترادف، به منظور بهبود خوانایی خلاصه، روان می کنیم. ما رویکرد پیشنهادی خود را بر روی یک مجموعه داده رمان واقعی تجربی ارزیابی می کنیم. نتایج آزمایش نشان می دهد که در مقایسه با سایر الگوریتم های کاندید، هر خلاصه خودکار تولید شده توسط رویکرد ما نه تنها نسبت فشرده سازی بالاتر، بلکه همچنین کیفیت خلاصه بهتر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Most of existing text automatic summarization algorithms are targeted for multi-documents of relatively short length, thus difficult to be applied immediately to novel documents of structure freedom and long length. In this paper, aiming at novel documents, we propose a topic modeling based approach to extractive automatic summarization, so as to achieve a good balance among compression ratio, summarization quality and machine readability. First, based on topic modeling, we extract the candidate sentences associated with topic words from a preprocessed novel document. Second, with the goals of compression ratio and topic diversity, we design an importance evaluation function to select the most important sentences from the candidate sentences and thus generate an initial novel summary. Finally, we smooth the initial summary to overcome the semantic confusion caused by ambiguous or synonymous words, so as to improve the summary readability. We evaluate experimentally our proposed approach on a real novel dataset. The experiment results show that compared to those from other candidate algorithms, each automatic summary generated by our approach has not only a higher compression ratio, but also better summarization quality.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 84, 30 October 2017, Pages 12-23
نویسندگان
, , , , , , ,