روش یادگیری Q یکی از مشهورترین و پرکاربردترین روشهای یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیتهای این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت ه چکیده کامل
روش یادگیری Q یکی از مشهورترین و پرکاربردترین روشهای یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیتهای این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت همگرایی به عنوان یک چالش مطرح است. استفاده از مفاهیم عمل متضاد در یادگیری Q، منجر به بهبود سرعت همگرایی میشود زیرا در هر گام یادگیری، دو مقدار Q به طور همزمان به روز میشوند. در این مقاله روشی ترکیبی با استفاده از رویه تطبیقی در کنار مفاهیم عمل متضاد برای افزایش سرعت همگرایی مطرح شده است. روشها برای مسئله Grid world شبیهسازی شده است. روشهای ارائهشده بهبود در میانگین درصد نرخ موفقیت، میانگین درصد حالتهای بهینه، متوسط تعداد گامهای عامل برای رسیدن به هدف و میانگین پاداش دریافتی را نشان میدهند.
پرونده مقاله
رایمگ
سامانه رایمگ تمامی فرآیندهای دریافت، ارزیابی و داوری، ویراستاری، صفحهآرایی و انتشار الکترونیکی نشریات علمی را به انجام میرساند