بازیهای غیر قطعی (تصادفی) بهعنوان توسعهای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چندعامله و مدلسازی آنها حائز اهمیت بوده و بهعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بهکار رفتهاند. در حال حاضر اتوماتاهای یادگیر بهعنوان ابزاری ارزشمن More
بازیهای غیر قطعی (تصادفی) بهعنوان توسعهای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چندعامله و مدلسازی آنها حائز اهمیت بوده و بهعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بهکار رفتهاند. در حال حاضر اتوماتاهای یادگیر بهعنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری چندعامله بهکار رفتهاند. در این مقاله مدلی مبتنی بر اتوماتای یادگیر و مفهوم آنتروپی برای حل بازیهای غیر قطعی و پیداکردن سیاست بهینه در این بازیها ارائه شده است. در مدل پیشنهادی بهازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیر با ساختار متغیر از نوع S قرار داده شده است که اعمال بهینه را در هر حالت یاد میگیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب میکند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداشدهی اتوماتاها و بهبود یادگیری استفاده شده است. برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری بهنام آنتروپی کلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان میکند. در نهایت الگوریتمی اصلاحیافته با ایجاد تعادل بین جستجو و استناد بر تجربیات پیشنهاد شده است. نتایج آزمایشها نشان میدهد الگوريتم ارائهشده از کارایی مناسبی از هر دو جنبه هزينه و سرعت رسيدن به راه حل بهينه برخوردار است.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.