کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6926071 1448890 2018 16 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Location extraction from tweets
ترجمه فارسی عنوان
استخراج محل از توییت
کلمات کلیدی
سیستم های اطلاعاتی، شبکه های اجتماعی، استخراج محل سکونت، پیش بینی موقعیت تجزیه و تحلیل تویت ها، مدل پیش بینی شده فراگیری ماشین، مجموعه میکروبلاگ،
ترجمه چکیده
پنجاه میلیون توییت روزانه ارسال می شود و توییتر یک پلت فرم رسانه ای بزرگ اجتماعی است که از طریق آن می توان اطلاعات مربوط به رویدادها را استخراج کرد. این حوادث به وسیله سه ابعاد اصلی ارائه می شوند: زمان، مکان و اطلاعات مرتبط با موجودیت. تمرکز این مقاله مکان، که یک ابعاد اساسی برای برنامه های کاربردی جغرافیایی است، یا هنگام کمک به عملیات نجات در طی یک فاجعه و یا زمانی که برای توصیه های متنی استفاده می شود. در حالی که اولین نوع نرم افزار احتیاج به فراخوانی فراوانی دارد، دوم دقیق تر است. این مقاله، بازنگری فراخوان / دقت را بررسی می کند، ترکیب روش های مختلف برای استخراج مکان ها. در زمینه پست های کوتاه، استفاده از ابزارهایی که برای زبان طبیعی ساخته شده است، با توجه به ماهیت توییت ها که به طور کلی خیلی کوتاه است که به زبان زبانی صحیح باشد، کافی نیست. همچنین با در نظر گرفتن تعداد زیاد پست هایی که باید مورد استفاده قرار گیرند، ما فرض می کنیم که پیش بینی می کند که آیا یک پست دارای یک مکان باشد یا خیر، باعث می شود که اکسترکت های موقعیت مکانی بیشتر متمرکز شوند و در نتیجه موثر باشند. ما یک مدل برای پیش بینی اینکه آیا یک صدای جیر جیر شامل یک مکان یا نه و یک نشان می دهد که پیش بینی مکان یک مرحله قبل از پردازش مفید برای استخراج مکان است. ما تعدادی از ویژگی های جدید صدای جیر جیر را تعریف می کنیم و ما ارزیابی شدید انجام می دهیم. یافته های ما این است که (1) ترکیب ابزار استخراج مکان فعلی برای نتایج دقت گرا یا یادآوری محور موثر است؛ (2) غنی سازی نمایندگی صدای جیر جیر برای پیش بینی اینکه آیا یک صدای جیر جیر شامل یک مکان یا نه، موثر است (3) گزاره جغرافیا و وقوع پیشنهادهایی درست قبل از نام اسم مناسب دو ویژگی مهم برای پیش بینی وقوع یک مکان در توییت ها هستند و (4) دقت استخراج محل بهبود می یابد، زمانی که پیش بینی می شود که یک مکان وجود داشته باشد در صدای جیر جیر
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
Five hundred million tweets are posted daily, making Twitter a major social media platform from which topical information on events can be extracted. These events are represented by three main dimensions: time, location and entity-related information. The focus of this paper is location, which is an essential dimension for geo-spatial applications, either when helping rescue operations during a disaster or when used for contextual recommendations. While the first type of application needs high recall, the second is more precision-oriented. This paper studies the recall/precision trade-off, combining different methods to extract locations. In the context of short posts, applying tools that have been developed for natural language is not sufficient given the nature of tweets which are generally too short to be linguistically correct. Also bearing in mind the high number of posts that need to be handled, we hypothesize that predicting whether a post contains a location or not could make the location extractors more focused and thus more effective. We introduce a model to predict whether a tweet contains a location or not and show that location prediction is a useful pre-processing step for location extraction. We define a number of new tweet features and we conduct an intensive evaluation. Our findings are that (1) combining existing location extraction tools is effective for precision-oriented or recall-oriented results, (2) enriching tweet representation is effective for predicting whether a tweet contains a location or not, (3) words appearing in a geography gazetteer and the occurrence of a preposition just before a proper noun are the two most important features for predicting the occurrence of a location in tweets, and (4) the accuracy of location extraction improves when it is possible to predict that there is a location in a tweet.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Processing & Management - Volume 54, Issue 2, March 2018, Pages 129-144
نویسندگان
, ,