کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
6922202 | 1448272 | 2018 | 34 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Information extraction and knowledge graph construction from geoscience literature
ترجمه فارسی عنوان
استخراج اطلاعات و ساخت گراف دانش از ادبیات علوم زمین
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
زمین جغرافیایی، نمودار دانش، ادبیات علوم زمین، تقسیم کلمه چینی، نمودار وارون و بیوگرافی،
ترجمه چکیده
ادبیات علوم زمین به صورت آنلاین منتشر می شود بخش مهمی از داده های باز است و هر دو چالش ها و فرصت ها را برای تجزیه و تحلیل داده ها به ارمغان می آورد. در مقایسه با مطالعات علوم زمین شناسی عددی، کارهای محدودی در استخراج اطلاعات و کشف دانش از داده های علوم زمین شناسی وجود دارد. این مقاله یک جریان کاری و چند نمونه تجربی تجربی برای این موضوع را ارائه می دهد، با تمرکز بر اسناد نوشته شده در چینی. ابتدا ما یک ترکیب ترکیبی از اصطلاحات عمومی و زمین شناسی را از واژه نامه های زمین شناسی ترکیب می کنیم تا قوانین تقسیم بندی کلمه چینی مدل مدل های تصادفی شرطی را آموزش دهند. دوم، ما از قوانین تقسیم بندی کلمه برای تجزیه اسناد به کلمات فردی استفاده کردیم و کلمات متوقف شده را از نتایج تقسیم بندی حذف کردیم تا ساختار متشکل از محتوای کلمات را حذف کنیم. سوم، ما از یک روش آماری برای تجزیه و تحلیل رابطه معناشناختی بین کلمات محتوا استفاده کردیم و ما نمودار وتر و نمودار بزرگتر را انتخاب کردیم تا محتوای کلمات و لینکهایشان را به صورت گره ها و لبه ها در گراف آگاهی تجسم نماییم. نمودار حاصل نمای کلی از اطلاعات کلیدی در یک سند بدون ساختار را نشان می دهد. این مطالعه اثربخشی جریان کار طراحی شده را نشان می دهد و توانایی استفاده از پردازش زبان طبیعی و فن آوری گراف دانش را برای علوم زمین نشان می دهد.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
نرم افزارهای علوم کامپیوتر
چکیده انگلیسی
Geoscience literature published online is an important part of open data, and brings both challenges and opportunities for data analysis. Compared with studies of numerical geoscience data, there are limited works on information extraction and knowledge discovery from textual geoscience data. This paper presents a workflow and a few empirical case studies for that topic, with a focus on documents written in Chinese. First, we set up a hybrid corpus combining the generic and geology terms from geology dictionaries to train Chinese word segmentation rules of the Conditional Random Fields model. Second, we used the word segmentation rules to parse documents into individual words, and removed the stop-words from the segmentation results to get a corpus constituted of content-words. Third, we used a statistical method to analyze the semantic links between content-words, and we selected the chord and bigram graphs to visualize the content-words and their links as nodes and edges in a knowledge graph, respectively. The resulting graph presents a clear overview of key information in an unstructured document. This study proves the usefulness of the designed workflow, and shows the potential of leveraging natural language processing and knowledge graph technologies for geoscience.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computers & Geosciences - Volume 112, March 2018, Pages 112-120
Journal: Computers & Geosciences - Volume 112, March 2018, Pages 112-120
نویسندگان
Chengbin Wang, Xiaogang Ma, Jianguo Chen, Jingwen Chen,