دانلود رایگان مقاله: در پروتکل های انتخاب ویژگی برای داده های بسیار کم نمونه

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6938911	1449966	2018	14 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

On feature selection protocols for very low-sample-size data

ترجمه فارسی عنوان

در پروتکل های انتخاب ویژگی برای داده های بسیار کم نمونه

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

انتخاب ویژگی، مجموعه داده های عظیم پروتکل تجربی، آموزش / تست، اعتبار سنجی متقابل،

Cross-validation - اعتبار سنجی متقابل Feature selection - انتخاب ویژگی Experimental protocol - پروتکل تجربی

ترجمه چکیده

داده های با ابعاد بسیار کم در چندین نمونه کاربرد دارند. انتخاب یک زیر مجموعه بسیار جدانشدنی از ویژگی های اصلی اغلب منافع اصلی کاربر نهایی است. پروتکل انتخاب پرونده برای استفاده از این نوع داده ها از دو مرحله تشکیل شده است. اول، ویژگی ها از داده ها انتخاب می شوند (احتمالا از طریق اعتبارسنجی متقابل)، و دوم، یک پروتکل اعتبارسنج متقابل برای تست طبقه بندی با استفاده از ویژگی های انتخاب شده اعمال می شود. سپس تنظیمات انتخاب شده و دقت آزمایش به کاربر منتقل می شود. برای فقدان یک گزینه بهتر، همان مجموعه داده کم نمونه در هر دو مرحله استفاده می شود. با بررسی روایی این پروتکل، ما یک آزمایش با استفاده از 24 مجموعه داده با ابعاد بزرگ، سه روش انتخاب ویژگی و پنج مدل طبقه بندی انجام دادیم. ما دریافتیم که دقت به واسطه پروتکل بالا به شدت منحرف شده است و بنابراین یک پروتکل جایگزین پیشنهاد می کند که از طریق وارد کردن هر دو مرحله در یک حلقه متقابل معتبر، آلودگی را از بین می برد. تست های آماری حاکی از این است که دقت طبقه بندی که توسط پروتکل مناسب مطرح می شود به میزان قابل توجهی نسبت به صحت درست (برآورد شده از یک مجموعه آزمایشی مستقل) نسبت به آنچه که توسط پروتکل در حال حاضر مورد استفاده قرار می گیرد، نزدیک تر است.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو

پیش نمایش مقاله

در پروتکل های انتخاب ویژگی برای داده های بسیار کم نمونه

چکیده انگلیسی

High-dimensional data with very few instances are typical in many application domains. Selecting a highly discriminative subset of the original features is often the main interest of the end user. The widely-used feature selection protocol for such type of data consists of two steps. First, features are selected from the data (possibly through cross-validation), and, second, a cross-validation protocol is applied to test a classifier using the selected features. The selected feature set and the testing accuracy are then returned to the user. For the lack of a better option, the same low-sample-size dataset is used in both steps. Questioning the validity of this protocol, we carried out an experiment using 24 high-dimensional datasets, three feature selection methods and five classifier models. We found that the accuracy returned by the above protocol is heavily biased, and therefore propose an alternative protocol which avoids the contamination by including both steps in a single cross-validation loop. Statistical tests verify that the classification accuracy returned by the proper protocol is significantly closer to the true accuracy (estimated from an independent testing set) compared to that returned by the currently favoured protocol.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 81, September 2018, Pages 660-673

نویسندگان

Ludmila I. Kuncheva, Juan J. RodrÃguez,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : در پروتکل های انتخاب ویژگی برای داده های بسیار کم نمونه

دسترسی سریع

ارتباط

English Website