کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
416581 681384 2014 17 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Learning algorithms may perform worse with increasing training set size: Algorithm–data incompatibility
ترجمه فارسی عنوان
الگوریتم های یادگیری ممکن است با افزایش میزان مجموعه آموزشی افزایش یابد: ناسازگاری الگوریتم
کلمات کلیدی
فراگیری ماشین، تشخیص الگو، یادگیری آماری، توزیع پایدار، همگرایی، غلظت تصادفی
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات
چکیده انگلیسی

In machine learning problems a learning algorithm tries to learn the input–output dependency (relationship) of a system from a training dataset. This input–output relationship is usually deformed by a random noise. From experience, simulations, and special case theories, most practitioners believe that increasing the size of the training set improves the performance of the learning algorithm. It is shown that this phenomenon is not true in general for any pair of a learning algorithm and a data distribution. In particular, it is proven that for certain distributions and learning algorithms, increasing the training set size may result in a worse performance and increasing the training set size infinitely may result in the worst performance—even when there is no model misspecification for the input–output relationship. Simulation results and analysis of real datasets are provided to support the mathematical argument.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computational Statistics & Data Analysis - Volume 74, June 2014, Pages 181–197
نویسندگان
, ,