کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6938911 1449966 2018 14 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
On feature selection protocols for very low-sample-size data
ترجمه فارسی عنوان
در پروتکل های انتخاب ویژگی برای داده های بسیار کم نمونه
کلمات کلیدی
انتخاب ویژگی، مجموعه داده های عظیم پروتکل تجربی، آموزش / تست، اعتبار سنجی متقابل،
ترجمه چکیده
داده های با ابعاد بسیار کم در چندین نمونه کاربرد دارند. انتخاب یک زیر مجموعه بسیار جدانشدنی از ویژگی های اصلی اغلب منافع اصلی کاربر نهایی است. پروتکل انتخاب پرونده برای استفاده از این نوع داده ها از دو مرحله تشکیل شده است. اول، ویژگی ها از داده ها انتخاب می شوند (احتمالا از طریق اعتبارسنجی متقابل)، و دوم، یک پروتکل اعتبارسنج متقابل برای تست طبقه بندی با استفاده از ویژگی های انتخاب شده اعمال می شود. سپس تنظیمات انتخاب شده و دقت آزمایش به کاربر منتقل می شود. برای فقدان یک گزینه بهتر، همان مجموعه داده کم نمونه در هر دو مرحله استفاده می شود. با بررسی روایی این پروتکل، ما یک آزمایش با استفاده از 24 مجموعه داده با ابعاد بزرگ، سه روش انتخاب ویژگی و پنج مدل طبقه بندی انجام دادیم. ما دریافتیم که دقت به واسطه پروتکل بالا به شدت منحرف شده است و بنابراین یک پروتکل جایگزین پیشنهاد می کند که از طریق وارد کردن هر دو مرحله در یک حلقه متقابل معتبر، آلودگی را از بین می برد. تست های آماری حاکی از این است که دقت طبقه بندی که توسط پروتکل مناسب مطرح می شود به میزان قابل توجهی نسبت به صحت درست (برآورد شده از یک مجموعه آزمایشی مستقل) نسبت به آنچه که توسط پروتکل در حال حاضر مورد استفاده قرار می گیرد، نزدیک تر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
High-dimensional data with very few instances are typical in many application domains. Selecting a highly discriminative subset of the original features is often the main interest of the end user. The widely-used feature selection protocol for such type of data consists of two steps. First, features are selected from the data (possibly through cross-validation), and, second, a cross-validation protocol is applied to test a classifier using the selected features. The selected feature set and the testing accuracy are then returned to the user. For the lack of a better option, the same low-sample-size dataset is used in both steps. Questioning the validity of this protocol, we carried out an experiment using 24 high-dimensional datasets, three feature selection methods and five classifier models. We found that the accuracy returned by the above protocol is heavily biased, and therefore propose an alternative protocol which avoids the contamination by including both steps in a single cross-validation loop. Statistical tests verify that the classification accuracy returned by the proper protocol is significantly closer to the true accuracy (estimated from an independent testing set) compared to that returned by the currently favoured protocol.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 81, September 2018, Pages 660-673
نویسندگان
, ,