کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
5760077 1623783 2017 35 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A novel alignment-free vector method to cluster protein sequences
ترجمه فارسی عنوان
یک روش بردار جدید برتری برای توالی پروتکل خوشه ای
کلمات کلیدی
ترجمه چکیده
طبقه بندی پروتئین موضوعات حیاتی در زیست شناسی است. تعداد پروتئین های ذخیره شده در پایگاه های داده در دهه گذشته به شدت افزایش می یابد. به طور سنتی، مقایسه توالی پروتئین ها معمولا از طریق روش های هماهنگی چندگانه انجام می شود. با این حال، این روش ها ممکن است برای خوشه بندی توالی پروتئین ها در هنگام بازسازی ژن ها مانند در ژنوم های ویروسی مناسب نباشند. محاسبات برای داده های بزرگ با ژنوم های طولانی نیز بسیار وقت گیر است. در این مقاله، بر اساس سه ویژگی مهم بیوشیمیایی اسید آمینه: شاخص هیدروپاتیت، نیاز قطبی و ترکیب شیمیایی زنجیره جانبی، ما یک بردار ویژگی 24 بعدی ارائه می دهیم که ترکیب آمینو اسیدها را در توالی پروتئین توصیف می کند. روش ما نه تنها از خواص شیمیایی اسید های آمینه بهره می برد بلکه بر تعداد و موقعیت آنها نیز تأثیر می گذارد. نتایج بر روی بتا گلوبین، پستانداران و سه مجموعه داده ویروس نشان می دهد که این ابزار جدید سریع و دقیق برای طبقه بندی پروتئین ها و ارزیابی فلیوگنی موجودات زنده است.
موضوعات مرتبط
علوم زیستی و بیوفناوری علوم کشاورزی و بیولوژیک علوم کشاورزی و بیولوژیک (عمومی)
چکیده انگلیسی
Classification of protein are crucial topics in biology. The number of protein sequences stored in databases increases sharply in the past decade. Traditionally, comparison of protein sequences is usually carried out through multiple sequence alignment methods. However, these methods may be unsuitable for clustering of protein sequences when gene rearrangements occur such as in viral genomes. The computation is also very time-consuming for large datasets with long genomes. In this paper, based on three important biochemical properties of amino acids: the hydropathy index, polar requirement and chemical composition of the side chain, we propose a 24 dimensional feature vector describing the composition of amino acids in protein sequences. Our method not only utilizes the chemical properties of amino acids but also counts on their numbers and positions. The results on beta-globin, mammals, and three virus datasets show that this new tool is fast and accurate for classifying proteins and inferring the phylogeny of organisms.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Journal of Theoretical Biology - Volume 427, 1 August 2017, Pages 41-52
نویسندگان
, , , ,