بازیهای غیر قطعی (تصادفی) بهعنوان توسعهای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چندعامله و مدلسازی آنها حائز اهمیت بوده و بهعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بهکار رفتهاند. در حال حاضر اتوماتاهای یادگیر بهعنوان ابزاری ارزشمن أکثر
بازیهای غیر قطعی (تصادفی) بهعنوان توسعهای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چندعامله و مدلسازی آنها حائز اهمیت بوده و بهعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بهکار رفتهاند. در حال حاضر اتوماتاهای یادگیر بهعنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری چندعامله بهکار رفتهاند. در این مقاله مدلی مبتنی بر اتوماتای یادگیر و مفهوم آنتروپی برای حل بازیهای غیر قطعی و پیداکردن سیاست بهینه در این بازیها ارائه شده است. در مدل پیشنهادی بهازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیر با ساختار متغیر از نوع S قرار داده شده است که اعمال بهینه را در هر حالت یاد میگیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب میکند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداشدهی اتوماتاها و بهبود یادگیری استفاده شده است. برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری بهنام آنتروپی کلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان میکند. در نهایت الگوریتمی اصلاحیافته با ایجاد تعادل بین جستجو و استناد بر تجربیات پیشنهاد شده است. نتایج آزمایشها نشان میدهد الگوريتم ارائهشده از کارایی مناسبی از هر دو جنبه هزينه و سرعت رسيدن به راه حل بهينه برخوردار است.
تفاصيل المقالة
رایمگ
يقوم نظام رایمگ بتنفيذ جميع عمليات الاستلام والتقييم والحكم والتحرير وتخطيط الصفحة والنشر الإلكتروني للمجلات العلمية.