آشنایی با موضوع

یادگیری تقویتی یکی از گرایش‌های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می‌گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله، با توجه به گستردگی‌اش، در زمینه‌های گوناگونی بررسی می‌شود. مانند: نظریه بازی‌ها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینه‌سازی بر مبنای شبیه‌سازی. در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزه‌ای که در آن روش یادگیری تقویتی مطالعه می‌شود برنامه‌نویسی تخمینی پویای (approximate dynamic programming) خوانده می‌شود. این مسئله در تئوری کنترل بهینه نیز مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگی‌های آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازیها بیشتر به بررسی تعادل‌های ایجاد شده تحت عقلانیت محدود می‌پردازد. در یادگیری ماشینی با توجه به این که بسیاری از الگوریتم‌های یادگیری تقویتی از تکنیک‌های برنامه‌نویسی پویا استفاده می‌کنند معمولاً مسئله تحت عنوان یک فرایند تصمیم‌گیری مارکف مدل می‌شود. تفاوت اصلی بین روش‌های سنتی و الگوریتم‌های یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرایند تصمیم‌گیری ندارد و این که این روش روی فرایندهای مارکف بسیار بزرگی کار می‌کند که روش‌های سنتی در آنجا ناکارآمدند. یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج‌های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارامد نیز از بیرون اصلاح نمی‌شوند، و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره‌برداری از دانش اندوخته شده دارد. این سبک-سنگین کردن بین بهره‌برداری و اکتشاف در یادگیری تقویتی برای فرایندهای مارکف متناهی، تقریباً به طور کامل در مسئلهٔ راهزن چند دست (Multi-armed bandit) بررسی شده. اجزای یادگیری تقویتی ۱- policy شیوه رفتار agent را در زمان داده شده تعریف می کند. یعنی policy می گوید در هر حالت کدام عمل بهتر است. ۲- تابع پاداش هدف را در تابع یادگیرنده تعیین می کند. این تابع هدفش این است که به ازای هر عمل عامل یک پاداش بدهد پس به هدف که نزدیک می شود پاداش بیشتر می شود. تابع پاداش مهم است اگر بد تعریف شود عامل دیر یاد می گیرد. Reward کوتاه مدت و value بلند مدت است یعنی ممکن است یک خانه پاداش نداشته باشد ولی ما را به هدف نزدیک تر کند پس value بالاتری دارد. ۳- value function نگاه بلند مدت دارد. برای هر حالت یک مقدار تعیین می کند که هر چه بیشتر باشد یعنی به هدف نزدیک تر شده ایم. مانند اینکه در یک بازی اجازه دهید حریف مهره شما را بزند در این حالت پاداش نمی گیرید ولی به حالت دیگری می روید که بهتر است این یعنی نگاه بلند مدت. ۴- مدل اختیاری است. در ابتدا نمی دانیم احتمال اینکه از حالتی به حالت دیگر برویم چقدر است. مسئله یادگیری تقویتی احتمالاتی و stocastic است و State ها یا حالات آن nondeterministic می باشد. یعنی به ازای یک عمل می تواند به همه حالات برود ولی با یک احتمال. هر عمل یا action یک احتمال است و رفتن از یک حالت به حالت دیگر هم احتمال است. هدف یادگیرنده ماکزیمم کردن پاداش بلند مدت می باشد. در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید. یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نماید.

در این صفحه تعداد 999 مقاله تخصصی درباره یادگیری تقویتی که در نشریه های معتبر علمی و پایگاه ساینس دایرکت (Science Direct) منتشر شده، نمایش داده شده است. برخی از این مقالات، پیش تر به زبان فارسی ترجمه شده اند که با مراجعه به هر یک از آنها، می توانید متن کامل مقاله انگلیسی همراه با ترجمه فارسی آن را دریافت فرمایید.
در صورتی که مقاله مورد نظر شما هنوز به فارسی ترجمه نشده باشد، مترجمان با تجربه ما آمادگی دارند آن را در اسرع وقت برای شما ترجمه نمایند.
مقالات ISI یادگیری تقویتی (ترجمه نشده)
مقالات زیر هنوز به فارسی ترجمه نشده اند.
در صورتی که به ترجمه آماده هر یک از مقالات زیر نیاز داشته باشید، می توانید سفارش دهید تا مترجمان با تجربه این مجموعه در اسرع وقت آن را برای شما ترجمه نمایند.
Elsevier - ScienceDirect - الزویر - ساینس دایرکت
Keywords: یادگیری تقویتی; Reinforcement learning; Case-based reasoning; Dynamic spectrum access; Cellular networks2ON, Second order neighbourhood; CBR, Case-based reasoning; DSA, Dynamic spectrum access; eNB, Evolved node B (LTE base station); ICIC, inter-cell interference coordin
Elsevier - ScienceDirect - الزویر - ساینس دایرکت
Keywords: یادگیری تقویتی; LC; locus coeruleus; LC-NE; norepinephrine neurons of the locus coeruleus; mPFC; medial prefrontal; NE; noradrenergic; OFC; orbitofrontal cortex; orbitofrontal cortex; norepinephrine; reinforcement learning; ensemble states; flexible learning;
Elsevier - ScienceDirect - الزویر - ساینس دایرکت
Keywords: یادگیری تقویتی; (+)-MK-801 maleate (PubChem CID: 53580); CNTRICS; Cognitive Neuroscience Treatment Research to Improve Cognition in Schizophrenia; DMTP; delayed matching to position; DNMTP; delayed non-matching to position; FI; fixed interval; NMDA; N-methyl-d-aspartate;