کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
382721 660781 2015 9 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Data mining for feature selection in gene expression autism data
ترجمه فارسی عنوان
داده کاوی برای انتخاب ویژگی در داده های بیان ژن اوتیسم
کلمات کلیدی
فهرست مطالب مقاله
چکیده

واژگان کلیدی

1. مقدمه 

2.  روش های انتخاب ویژگی کاربردی

2.1  تحلیل تفکیک فیشر

2.2  الگوریتم ReliefF

2.3  آزمون تی دو نمونه

2.4  آزمون کولموگروف-اسمیرنوف

2.5 آزمون کروسکال-والیس

2.6 روش رگرسیون گام به گام

2.7 ارتباط ویژگی با کلاس

2.8 حذف ویژگی بازگشتی ماشین بردار پشتیبانی

شکل 1. توابع توزیع تجمعی برای دو کلاس (اوتیسم و گروه کنترل) برای ژن مهم (الف) و برای ژن غیرمهم (ب) در آزمون کولموگروف-اسمیرنوف.

2.9  ترکیب روش های انتخاب

3. نتایج عددی انتخاب ژن

3.1 مواد

3.2 مراحل اصلی آزمایشات

3.3 نتایج مقایسه ای روش های انتخاب

جدول 1. نرخ افزونگی به دست آمده توسط الگوریتم های مختلف در میان 100 ژن برتر انتخاب شده توسط روش های مختلف.

شکل 2.  سطوح بیان بهترین ژنهای انتخاب شده توسط: (الف) روش فیشر، (ب) روش حذف ویژگی بازگشتی ماشین بردار پشتیبانی.

3.4 خوشه کردن فضای ژن

شکل 3. شاخص خلوص کل فضای خوشه بندی شده در مقابل تعداد مهم ترین ژنها.

3.5  ارائه تصویر نتایج انتخاب با استفاده از  PCA

جدول 2. بالاترین مقادیر شاخص خلوص کل مربوط به مجموعه ژنهای انتخاب شده به صورت مجزا با روشهای مختلف و پس از ترکیب آنها.

شکل 4. نقشه رنگی پروفایلهای بیان برای 30 تا از مهمترین ژنهای انتخاب شده با رویکرد ترکیب (الف) و برای 32 ژن انتخاب شده بصورت تصادفی (ب).

شکل 5. توزیع نمونه های دو کلاس ترسیم شده در دو تا از مهمترین اجزاء اصلی بردارهای x توسط 30 ژن بسیار مهم (الف) و در استفاده از همه ژنها (ب).

4. سیستم طبقه بندی برای پیش بینی اوتیسم

4.1 طبقه بندهای کاربردی

جدول 3. میانگین فواصل نسبی نمونه ها از مراکزشان و انحرافهای استاندارد آنها برای 30 ژن برتر و همه ژنها

4.2  نتایج طبقه بندی

شکل 6.  میزان خطای شناسایی کلاس در تعداد رو به تغییر ژنهای مورد استفاده به عنوان ویژگیهای ورودی برای ماشین بردار پشتیبان (نتایج حاصل از آزمایش بر روی مجموعه داده که در دریادگیری سهیم نیست). 

شکل 7.  اهمیت نسبی روش های انتخاب در مرحله ادغام نهایی گروه.

جدول 4.  میانگین دقت تشخیص کلاس و انحرافهای استاندارد دسته کننده ماشین بردار پشتیبان عرضه شده توسط مجموعه ژن های انتخاب شده در روش های مختلف (همه مقادیر به درصد هستند).

5. نتیجه گیری ها

جدول 5. ماتریس درهم آمیختگی نتایج تشخیص کلاس در استفاده از بهترین ژنها پس از ادغام.

جدول 6. ماتریس در هم آمیختگی نتایج طبقه بندی با استفاده از 10 ژن امتخاب شده به صورت تصادفی (پس از ادغام).

جدول 7. مقادیر مقیاس کیفیت در تشخیص موارد اوتیسم از افراد سالم برای بهترین ژنهای انتخاب شده با روش ما و برای 30  ژن انتخاب شده به صورت تصادفی.
ترجمه چکیده
این مقاله از روشهای داده کاوی برای شناسایی مهم ترین ژنها و توالی های ژن (به عنوان ویژگی ها تلقی می شود) ذخیره شده در یک مجموعه داده ریزآرایه بیان ژن استفاده می کند. تحقیقاتی برای داده های اوتیسم انجام شده اند. چند روش برگزیده انتخاب ویژگی مورد استفاده قرار گرفته اند و نتایج آنها در نتیجه نهایی قرار داده شده اند. در این روش ما محتویات مجموعه کوچکی از مهم ترین ژنهای مرتبط با اوتیسم را پیدا می کنیم. آنها در روش طبقه بندی با هدف تشخیص اوتیسم از اعضای گروه مرجع بکار می روند. نتایج آزمایش های عددی در رابطه با انتخاب مهم ترین ژن و طبقه بندی موارد بر اساس ژنهای انتخاب شده مورد بحث و بررسی قرار خواهند گرفت. سهم اصلی این مقاله در توسعه سیستم تلفیقی نتایج بسیاری از روشهای انتخاب به مجموعه نهایی است، که نزدیک ترین ارتباط را با اوتیسم دارد. ما همچنین رویکرد خاص برآورد تعداد بالاترین رتبه ژنهای مورد استفاده در روش طبقه بندی را پیشنهاد کرده ایم.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی


• We have developed the system of gene selection from microarray data in autism composed of an ensemble of methods.
• We have developed the system of recognizing the autism applying the classifiers cooperating with gene selection.
• We have performed successful experiments of recognizing autism from reference cases using our system.

The paper presents application of data mining methods for recognizing the most significant genes and gene sequences (treated as features) stored in a dataset of gene expression microarray. The investigations are performed for autism data. Few chosen methods of feature selection have been applied and their results integrated in the final outcome. In this way we find the contents of small set of the most important genes associated with autism. They have been applied in the classification procedure aimed on recognition of autism from reference group members. The results of numerical experiments concerning selection of the most important genes and classification of the cases on the basis of the selected genes will be discussed. The main contribution of the paper is in developing the fusion system of the results of many selection approaches into the final set, most closely associated with autism. We have also proposed special procedure of estimating the number of highest rank genes used in classification procedure.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 42, Issue 2, 1 February 2015, Pages 864–872
نویسندگان
, ,