کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4946645 1439409 2017 30 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Piecewise convexity of artificial neural networks
ترجمه فارسی عنوان
محدوده ای از شبکه های عصبی مصنوعی
کلمات کلیدی
ترجمه چکیده
با وجودی که شبکه های عصبی مصنوعی در برنامه های کاربردی از قبیل دید و دید رایانه و تشخیص گفتار، وظایف بسیار خوبی را نشان داده اند، در بهینه سازی پارامترهای آنها دشواری عملی و نظری زیادی وجود دارد. موفقیت به ظاهر بی حد و حصر از روش های کاهش بارندگی در به حداقل رساندن این توابع غیر محدب هنوز درک نشده است. در این کار ما تضمین های نظری را برای شبکه هایی با توابع فعال سازی بسته بندی شده ارائه می دهیم که در سال های اخیر هنجار هستند. ما سه نتیجه اصلی را ثابت می کنیم. ابتدا شبکه به عنوان تابع داده ورودی محصور شده است. دوم اینکه شبکه، به عنوان یک تابع از پارامترها در یک لایه به عنوان یک پارامتر در نظر گرفته می شود، همه دیگران ثابت هستند، دوباره محدب گسسته است. سوم اینکه شبکه به عنوان یک تابع از تمام پارامترهای آن، به صورت قطعه ای چند محدب، یک تعمیم دوقطب است. از اینجا ما مینیمم های محلی و نقاط ثابت از هدف آموزش را مشخص می کنیم و نشان می دهیم که آنها هدف را در برخی موارد زیر از فضای پارامتر به حداقل می رسانند. سپس عملکرد دو الگوریتم بهینه سازی را در مسائل چند محوری بررسی می کنیم: اصطکاک گرادیان و یک روش که به طور مرتب چندین مشکل زیر محاسبه می کند. ما ثابت می کنیم شرایط همگرا برای اولین الگوریتم و شرایط لازم و کافی برای دوم پس از معرفی مقررات به هدف. در نهایت، ما در مورد مشکل باقیمانده مشکل جهانی بهینه سازی اشاره می کنیم. در زیر مسئله خطای مربع، ما نشان می دهیم که با تغییر داده های آموزش، یک نورون یک رگولاتور مجاز حداقل های محلی را که به طور خودسرانه از هم جدا هستند، هم در مقدار عینی و هم در فضای پارامتر.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Although artificial neural networks have shown great promise in applications including computer vision and speech recognition, there remains considerable practical and theoretical difficulty in optimizing their parameters. The seemingly unreasonable success of gradient descent methods in minimizing these non-convex functions remains poorly understood. In this work we offer some theoretical guarantees for networks with piecewise affine activation functions, which have in recent years become the norm. We prove three main results. First, that the network is piecewise convex as a function of the input data. Second, that the network, considered as a function of the parameters in a single layer, all others held constant, is again piecewise convex. Third, that the network as a function of all its parameters is piecewise multi-convex, a generalization of biconvexity. From here we characterize the local minima and stationary points of the training objective, showing that they minimize the objective on certain subsets of the parameter space. We then analyze the performance of two optimization algorithms on multi-convex problems: gradient descent, and a method which repeatedly solves a number of convex sub-problems. We prove necessary convergence conditions for the first algorithm and both necessary and sufficient conditions for the second, after introducing regularization to the objective. Finally, we remark on the remaining difficulty of the global optimization problem. Under the squared error objective, we show that by varying the training data, a single rectifier neuron admits local minima arbitrarily far apart, both in objective value and parameter space.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neural Networks - Volume 94, October 2017, Pages 34-45
نویسندگان
, ,