همكاري در سيستمهاي چند عامله با استفاده از اتوماتاهاي يادگير
الموضوعات :محمدرضا خجسته 1 , محمدرضا میبدی 2
1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر
الکلمات المفتاحية: اتوماتاي يادگيرعاملسيستمهاي چندعاملهفوتبال روباتهاهمكاري,
ملخص المقالة :
عاملها موجودات نرمافزاري هستند كه بطور پيوسته و خود مختار در يک محيط که براي آن طراحي شدهاند کار ميکنند. براي عاملها نيازهايي از قبيل واكنشي بودن نسبت به كنشهاي محيطي، خود مختاري در انتخاب مسير و ادامه آن، قابليت تطبيق و يادگيري و ... ضروري به نظر ميرسد. امروزه مطالعه سيستمهاي مبتني بر عاملها به يك موضوع مهم آكادميك تبديل شده است كه كاربردهاي تجاري و صنعتي فراواني را نيز دربر دارد. در سيستمهاي چندعامله، چندين عامل هوشمند با قابليت برقراري ارتباط با يكديگر، جهت رسيدن به مجموعهاي از اهداف، با هم همكاري ميكنند. بدليل پيچيدگيهاي موجود در محيطهاي چندعامله پويا و متغير نياز به روشهاي يادگيري ماشين در چنين محيطهايي احساس ميشود. اتوماتاي يادگير يك مدل انتزاعي است كه تعداد محدودي عمل را ميتواند انجام دهد. هر عمل انتخاب شده توسط محيطي احتمالي ارزيابي ميگردد و پاسخي به اتوماتاي يادگير داده ميشود. اتوماتاي يادگير از اين پاسخ استفاده نموده و عمل خود براي مرحله بعد را انتخاب ميكند. در اين مقاله با استفاده از بستر تست شبيهسازي فوتبال روباتها به بررسي كارآيي اتوماتاي يادگير در همكاري بين عاملهاي عضو يك تيم پرداخته شده است. بدليل وجود تعداد حالات بسيار زياد در دامنههاي چندعامله پيچيده، داشتن روشي براي عموميسازي حالات محيطي، امري ضروري است چرا كه انتخاب مناسب چنين روشي، در تعيين حالات و اعمال عامل نقشي تعيين كننده دارد. در اين مقاله همچنين به معرفي و پيادهسازي تكنيك "بهترين گوشه در مربع حالت" پرداخته شده است. با استفاده از اين روش فضاي حالات پيوسته و بسيار وسيع عامل به فضاي حالات گسسته و محدود نگاشته ميشود. كارآيي اين تكنيك در عموميسازي حالات محيطي در يك دامنه چند عامله همكاري گرا مورد بررسي قرار گرفته است.
[1] G. Weiss, Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence, The MIT Press, London, 1999.
[2] P. Stone, Layered Learning in Multi_Agent Systems, Ph.D. Thesis, School of Computer Science, Carnegie Mellon University, Dec. 1998.
[3] I. Noda, Team GAMMA: Agent Programming on Gaea, in H. Kitano, editor, RoboCup-97: Robot Soccer World Cup I, pp. 500-507, Springer Verleg, Berlin, 1998.
[4] RoboCup web page, at URL http://www.robocup.org, 1997.
[5] H. Kitano, editor, RoboCup-97: Robot Soccer World Cup I, Springer Verlag, Berlin, 1998.
[6] D. Andre et al., Soccer Server Manual, Version 4.0, Technical Report RoboCup 1998-001, RoboCup, 1998.
[7] K. S. Narendra and M. A. L. Thathachar, Learning Automata: An Introduction, Prentice-Hall Inc., 1989.
[8] P. Mars, J. R. Chen, and R. Nambir, Learning Algorithms: Theory and Applications, in Signal Processing, Control and Communications, CRC Press, Inc., pp. 5-24, 1996.
[9] S. Lakshmivarahan, Learning Algorithms: Theory and Applications, New York, Springer-Verlag, 1981.
[10] M. R. Meybodi and S. Lakshmivarahan, "ε -optimality of a general class of absorbing barrier learning algorithms", Information Sciences, vol. 28, pp. 1-20, 1982.
[11] M. R. Meybodi and S. Lakshmivarahan, "On a class of learning algorithms which have a symmetric behavior under success and failure," Springer-Verlag Lecture Notes in Statistics, pp. 145-155,1984.
[12 ] محمد رضا خجسته و محمد رضا میبدی/ تکنیک "بهترین گوشه در مربع حالت برای عمومی سازی حالات محیطی در یک دامنه چند عامله همکاری گرا"،مجموعه مقالات هشتمین کنفرانس سالانه انجمن کامپیوتر ایران، صفحات. 446-455 ، دانشگاه فردوسی مشهد، مشهد، اسفند 1381.
[13 ] محمد رضا خجسته، "همکاری در سیستمهای چند عامله با استفاده از اتوماتای یادگیر"، پایان نامه کارشناسی ارشد، دانشکده مهندسی کامپیوتر و فناوری. اطلاعات، دانشگاه صنعتی امیرکبیر، بهار 1381.
[14 ] محمد رضا خجسته و محمد رضا میبدی، "ارزیابی اتوماتای یادگیر در همکاری بین عاملها در یک سیستم چند عامله پیچیده"، مرکز تحقیقات انفورماتیک، آزمایشگاهمحاسبات نرم/ دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی. امیرکبیر، بهار 1381.
[15]محمدرضا خجسته و محمد رضا میبدی، "اتوماتای یادگیر بعنوان مدلی برای همکاری در یک تیم از عاملها"، مجموعه مقالات هشتمین کنفرانس سالانه انجمن کامپیوتر ایران ، دانشگاه فردوسی مشهد، مشهد ، صفحات.115-126 اسفند.1381
[16] I. Noda, Team Description: Saloo, AIST & PREST, Japan, 2001.
[17] M. A. L. Thathachar and P. S. Sastry, "A new approach to the design of reinforcement schemes for learning automata," IEEE Trans. on Systems, Man, and Cybernetics, vol. 15, no. 1, pp. 168-175, Jan. /Feb. 1985.
[18] B. J. Oomen and J. K. Lanctot, "Discretized pursuit learning automata," IEEE Transactions on Systems, Man, and Cybernetics, vol. 20, no. 4, pp. 931-938, Jul. /Aug. 1990.