دانلود رایگان مقاله: با استفاده از ویژگی های زبانی برای به طور خودکار عنوان صفحه وب را استخراج کنید

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
4943513	1437627	2017	27 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Using linguistic features to automatically extract web page title

ترجمه فارسی عنوان

با استفاده از ویژگی های زبانی برای به طور خودکار عنوان صفحه وب را استخراج کنید

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

استخراج محتوای وب استخراج اطلاعات، استخراج عنوان، پردازش زبان طبیعی، فراگیری ماشین،

Information extraction - استخراج اطلاعات Web content mining - استخراج محتوای وب Natural Language Processing - پردازش زبان‌های طبیعی Machine learning - یادگیری ماشین

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی

پیش نمایش مقاله

با استفاده از ویژگی های زبانی برای به طور خودکار عنوان صفحه وب را استخراج کنید

چکیده انگلیسی

Existing methods for extracting titles from HTML web page mostly rely on visual and structural features. However, this approach fails in the case of service-based web pages because advertisements are often given more visual emphasize than the main headlines. To improve the current state-of-the-art, we propose a novel method that combines statistical features, linguistic knowledge, and text segmentation. Using annotated English corpus, we learn the morphosyntactic characteristics of known titles and define a part-of-speech tag patterns that help to extract candidate phrases from the web page. To evaluate the proposed method, we compared two datasets Titler and Mopsi and evaluated the extracted features using four classifiers: Naïve Bayes, k-NN, SVM, and clustering. Experimental results show that the proposed method outperform the solution used by Google from 0.58 to 0.85 on Titler corpus and from 0.43 to 0.55 on Mopsi dataset, and offers a readily available solution for the title extraction problem.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 79, 15 August 2017, Pages 296-312

نویسندگان

Najlah Gali, Radu Mariescu-Istodor, Pasi Fränti,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : با استفاده از ویژگی های زبانی برای به طور خودکار عنوان صفحه وب را استخراج کنید

دسترسی سریع

ارتباط

English Website