کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4943513 1437627 2017 27 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Using linguistic features to automatically extract web page title
ترجمه فارسی عنوان
با استفاده از ویژگی های زبانی برای به طور خودکار عنوان صفحه وب را استخراج کنید
کلمات کلیدی
استخراج محتوای وب استخراج اطلاعات، استخراج عنوان، پردازش زبان طبیعی، فراگیری ماشین،
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Existing methods for extracting titles from HTML web page mostly rely on visual and structural features. However, this approach fails in the case of service-based web pages because advertisements are often given more visual emphasize than the main headlines. To improve the current state-of-the-art, we propose a novel method that combines statistical features, linguistic knowledge, and text segmentation. Using annotated English corpus, we learn the morphosyntactic characteristics of known titles and define a part-of-speech tag patterns that help to extract candidate phrases from the web page. To evaluate the proposed method, we compared two datasets Titler and Mopsi and evaluated the extracted features using four classifiers: Naïve Bayes, k-NN, SVM, and clustering. Experimental results show that the proposed method outperform the solution used by Google from 0.58 to 0.85 on Titler corpus and from 0.43 to 0.55 on Mopsi dataset, and offers a readily available solution for the title extraction problem.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 79, 15 August 2017, Pages 296-312
نویسندگان
, , ,