کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6858621 1438289 2018 31 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Survey and evaluation of web search engine hit counts as research tools in computational linguistics
ترجمه فارسی عنوان
بررسی و ارزیابی موتور جستجوی وب به عنوان ابزار تحقیق در زبان شناسی محاسباتی به شمار می رود
کلمات کلیدی
موتورهای جستجوگر وب شمارش آمار، زبان شناسی محاسباتی، توزیع اطلاعات، شباهت معنایی،
ترجمه چکیده
در سال های اخیر، مطالعات بسیاری در زمینه زبان شناسی محاسباتی وب را به عنوان منبع تحقیق به کار گرفته اند. به طور خاص، توزیع داده های متنی در وب برای رانندگی تجزیه و تحلیل های زبانی در کارهایی مانند استخراج اطلاعات، کسب دانش یا پردازش زبان طبیعی استفاده می شود. برای این اهداف، موتورهای جستجو در وب تجاری معمولا به عنوان روش هزینه پایین ورود به وب مورد استفاده قرار می گیرند و به طور خاص، برای برآورد توزیع موجودیت (های) مورد علاقه از تعداد ضربه که موتورهای جستجو هنگام پرس و جو فراهم می کند چنین اشخاص. با وجودی که چندین مطالعه اثربخشی موتورهای جستجوگر وب را به عنوان ابزارهای بازیابی اطلاعات از دیدگاه کاربران نهایی ارزیابی کرده اند، تعداد کمی از نویسندگان معتبر بودن مقادیر آمار به عنوان ابزار تحقیق در زبان شناسی محاسباتی را ارزیابی کرده اند؛ علاوه بر این، مطالعات تا کنون بر موتورهای جستجوگر مشهور (معمولا گوگل، بینگ و یاهو) متمرکز شده است و جایگزین های بالقوه جالبی را که اخیرا ظاهر شده اند نادیده گرفته اند. برای پر کردن این شکاف، در این کار ابتدا ماژول های جستجوی عمومی که در حال حاضر در دسترس هستند را جمع آوری و بررسی می کنیم. سپس، ما مقبولیت آمار شمارش را که تحت چندین دیدگاه که مربوط به زبان شناسی محاسباتی است، ارزیابی می کنیم: انعطاف پذیری زبان پرس و جو، انسجام زبان، انسجام ریاضی و ثبات زمانی. نتایج تحقیق ما نشان می دهد که حتی اگر انتخاب موتور جستجوی خاص به طور کلی توسط محققین با استفاده از داده های وب نادیده گرفته شده است، تفاوت های قابل توجهی بین تعداد ضربه های موتورهای جستجوی فعلی وجود دارد و بیشتر شناخته شده ترین موتورهای جستجو به طور گسترده ای استفاده می کنند بهترین نتایج را ارائه نمی دهند. در این راستا، ما همچنین موتورهای جستجو را شناسایی می کنیم که شمارش آمار آنها برای تحقیقات مناسب است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In recent years, many studies on computational linguistics have employed the Web as source for research. Specifically, the distribution of textual data in the Web is used to drive linguistic analyses in tasks such as information extraction, knowledge acquisition or natural language processing. For these purposes, commercial Web search engines are commonly used as the low-entry-cost way to access Web data and, more specifically, to estimate the distribution of the entity(ies) of interest from the hit count the search engines provide when querying such entities. Even though several studies have evaluated the effectiveness of Web search engines as information retrieval tools from the perspective of the end users, few authors have assessed the suitability of hit counts as research tools in computational linguistics; moreover, studies so far have focused on the most well-known search engines (typically Google, Bing and Yahoo!), and neglected potentially interesting alternatives that have recently surfaced. To fill this gap, in this work, we first compile and survey the general-purpose search engines that are currently available. Then, we evaluate the suitability of the hit counts they provide under several perspectives that are relevant for computational linguistics: flexibility of the query language, linguistic coherence, mathematical coherence and temporal consistency. The results of our survey show that, even though the choice of a particular search engine has been generally ignored by researchers relying on Web data, there are significant quality differences between the hit counts of current search engines, and that the most well-known and widely-used search engines do not provide the best results. In this respect, we also identify the search engines whose hit counts are best suited for research.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Systems - Volume 73, March 2018, Pages 50-60
نویسندگان
, , ,