کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
8340706 1541250 2015 11 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Text as data: Using text-based features for proteins representation and for computational prediction of their characteristics
ترجمه فارسی عنوان
متن به عنوان داده: با استفاده از ویژگی های مبتنی بر متن برای نمایش پروتئین و برای پیش بینی محاسبات از ویژگی های آنها
کلمات کلیدی
معادن متن بیومدیکال، فراگیری ماشین، طبقه بندی متن، محل سلول های پروتئینی، پیش بینی عملکرد پروتئین، حاشیه نویسی پروتئین، استخراج متن، نمایندگی پروتئین، پیش بینی مکان پروتئین،
ترجمه چکیده
عصر جاری زیست شناسی در مقیاس بزرگ، با رشد سریع در تعداد ژنوم های توالی و در نتیجه، با بسیاری از پروتئین های شناخته شده مشخص شده است که عملکرد آنها هنوز مشخص نشده است. همزمان، هر گونه اطلاعات شناخته شده یا پیشنهادی مربوط به ژن ها و پروتئین ها بخشی از ادبیات علمی منتشر شده است که در حال رشد است و در سالانه بیش از یک میلیون انتشار جدید منتشر می شود. ابزار محاسباتی که به طور خودکار پیش بینی و حاشیه نویسی ویژگی های پروتئینی مانند الگوهای عملکرد و محلی سازی را دنبال می کند، همراه با سیستم هایی که به دنبال پشتیبانی از فرآیند از طریق متا مین یابی هستند، توسعه می یابد. بیشتر کار بر روی ویژگی های پروتئین بر ویژگی های مستقیما از داده های دنباله ای پروتئین متمرکز می شود. کار مرتبط با پروتئین که هدف از استفاده از ادبیات است، معمولا به استخراج حقایق خاص (از جمله متابولیسم پروتئین) از متن متمرکز می شود. در چند سال گذشته، مسیر دیگری را در نظر گرفته ایم که ادبیات را به عنوان منبعی از ویژگی های مبتنی بر متن، که می تواند مورد استفاده قرار گیرد به عنوان ویژگی های پروتئینی مبتنی بر دنباله در کار قبلی استفاده می شود، برای پیش بینی موقعیت سلول های پروتئین و احتمالا همچنین تابع. ما در اینجا در مورد جزئیات کلی رویکرد بحث، همراه با نتایج کار ما در این زمینه انجام شده نشان دادن ارزش این روش و استفاده بالقوه از آن است.
موضوعات مرتبط
علوم زیستی و بیوفناوری بیوشیمی، ژنتیک و زیست شناسی مولکولی زیست شیمی
چکیده انگلیسی
The current era of large-scale biology is characterized by a fast-paced growth in the number of sequenced genomes and, consequently, by a multitude of identified proteins whose function has yet to be determined. Simultaneously, any known or postulated information concerning genes and proteins is part of the ever-growing published scientific literature, which is expanding at a rate of over a million new publications per year. Computational tools that attempt to automatically predict and annotate protein characteristics, such as function and localization patterns, are being developed along with systems that aim to support the process via text mining. Most work on protein characterization focuses on features derived directly from protein sequence data. Protein-related work that does aim to utilize the literature typically concentrates on extracting specific facts (e.g., protein interactions) from text. In the past few years we have taken a different route, treating the literature as a source of text-based features, which can be employed just as sequence-based protein-features were used in earlier work, for predicting protein subcellular location and possibly also function. We discuss here in detail the overall approach, along with results from work we have done in this area demonstrating the value of this method and its potential use.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Methods - Volume 74, 1 March 2015, Pages 54-64
نویسندگان
, , ,