همكاري در سيستمهاي چند عامله با استفاده از اتوماتاهاي يادگير
محورهای موضوعی : مهندسی برق و کامپیوترمحمدرضا خجسته 1 , محمدرضا میبدی 2
1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر
کلید واژه: اتوماتاي يادگيرعاملسيستمهاي چندعاملهفوتبال روباتهاهمكاري,
چکیده مقاله :
عاملها موجودات نرمافزاري هستند كه بطور پيوسته و خود مختار در يک محيط که براي آن طراحي شدهاند کار ميکنند. براي عاملها نيازهايي از قبيل واكنشي بودن نسبت به كنشهاي محيطي، خود مختاري در انتخاب مسير و ادامه آن، قابليت تطبيق و يادگيري و ... ضروري به نظر ميرسد. امروزه مطالعه سيستمهاي مبتني بر عاملها به يك موضوع مهم آكادميك تبديل شده است كه كاربردهاي تجاري و صنعتي فراواني را نيز دربر دارد. در سيستمهاي چندعامله، چندين عامل هوشمند با قابليت برقراري ارتباط با يكديگر، جهت رسيدن به مجموعهاي از اهداف، با هم همكاري ميكنند. بدليل پيچيدگيهاي موجود در محيطهاي چندعامله پويا و متغير نياز به روشهاي يادگيري ماشين در چنين محيطهايي احساس ميشود. اتوماتاي يادگير يك مدل انتزاعي است كه تعداد محدودي عمل را ميتواند انجام دهد. هر عمل انتخاب شده توسط محيطي احتمالي ارزيابي ميگردد و پاسخي به اتوماتاي يادگير داده ميشود. اتوماتاي يادگير از اين پاسخ استفاده نموده و عمل خود براي مرحله بعد را انتخاب ميكند. در اين مقاله با استفاده از بستر تست شبيهسازي فوتبال روباتها به بررسي كارآيي اتوماتاي يادگير در همكاري بين عاملهاي عضو يك تيم پرداخته شده است. بدليل وجود تعداد حالات بسيار زياد در دامنههاي چندعامله پيچيده، داشتن روشي براي عموميسازي حالات محيطي، امري ضروري است چرا كه انتخاب مناسب چنين روشي، در تعيين حالات و اعمال عامل نقشي تعيين كننده دارد. در اين مقاله همچنين به معرفي و پيادهسازي تكنيك "بهترين گوشه در مربع حالت" پرداخته شده است. با استفاده از اين روش فضاي حالات پيوسته و بسيار وسيع عامل به فضاي حالات گسسته و محدود نگاشته ميشود. كارآيي اين تكنيك در عموميسازي حالات محيطي در يك دامنه چند عامله همكاري گرا مورد بررسي قرار گرفته است.
Agents are software entities that act continuously and autonomously in a special environment. It is very essential for the agents to have the ability to learn how to act in the special environment for which they are designed to act in, to show reflexes to their environment actions, to choose their way and pursue it autonomously, and to be able to adapt and learn. In multi-agent systems, many intelligent agents that can interact with each other, cooperate to achieve a set of goals. Because of the inherent complexity that exists in dynamic and changeable multi-agent environments, there is always a need to machine learning in such environments. As a model for learning, learning automata act in a stochastic environment and are able to update their action probabilities considering the inputs from their environment, so optimizing their functionality as a result. Learning automata are abstract models that can perform some numbers of actions. Each selected action is evaluated by a stochastic environment and a response is given back to the automata. Learning automata use this response to choose its next action. In this paper, the goal is to investigate and evaluate the application of learning automata to cooperation in multi-agent systems, using soccer server simulation as a test-bed. Because of the large state space of a complex multi-agent domains, it is vital to have a method for environmental states’ generalization. An appropriate selection of such a method can have a great role in determining agent states and actions. In this paper we have also introduced and designed a new technique called “The best corner in state square” for generalizing the vast number of states in the environment to a few number of states by building a virtual grid in agent’s domain environment. The efficiency of this technique in a cooperative multi-agent domain is investigated
[1] G. Weiss, Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence, The MIT Press, London, 1999.
[2] P. Stone, Layered Learning in Multi_Agent Systems, Ph.D. Thesis, School of Computer Science, Carnegie Mellon University, Dec. 1998.
[3] I. Noda, Team GAMMA: Agent Programming on Gaea, in H. Kitano, editor, RoboCup-97: Robot Soccer World Cup I, pp. 500-507, Springer Verleg, Berlin, 1998.
[4] RoboCup web page, at URL http://www.robocup.org, 1997.
[5] H. Kitano, editor, RoboCup-97: Robot Soccer World Cup I, Springer Verlag, Berlin, 1998.
[6] D. Andre et al., Soccer Server Manual, Version 4.0, Technical Report RoboCup 1998-001, RoboCup, 1998.
[7] K. S. Narendra and M. A. L. Thathachar, Learning Automata: An Introduction, Prentice-Hall Inc., 1989.
[8] P. Mars, J. R. Chen, and R. Nambir, Learning Algorithms: Theory and Applications, in Signal Processing, Control and Communications, CRC Press, Inc., pp. 5-24, 1996.
[9] S. Lakshmivarahan, Learning Algorithms: Theory and Applications, New York, Springer-Verlag, 1981.
[10] M. R. Meybodi and S. Lakshmivarahan, "ε -optimality of a general class of absorbing barrier learning algorithms", Information Sciences, vol. 28, pp. 1-20, 1982.
[11] M. R. Meybodi and S. Lakshmivarahan, "On a class of learning algorithms which have a symmetric behavior under success and failure," Springer-Verlag Lecture Notes in Statistics, pp. 145-155,1984.
[12 ] محمد رضا خجسته و محمد رضا میبدی/ تکنیک "بهترین گوشه در مربع حالت برای عمومی سازی حالات محیطی در یک دامنه چند عامله همکاری گرا"،مجموعه مقالات هشتمین کنفرانس سالانه انجمن کامپیوتر ایران، صفحات. 446-455 ، دانشگاه فردوسی مشهد، مشهد، اسفند 1381.
[13 ] محمد رضا خجسته، "همکاری در سیستمهای چند عامله با استفاده از اتوماتای یادگیر"، پایان نامه کارشناسی ارشد، دانشکده مهندسی کامپیوتر و فناوری. اطلاعات، دانشگاه صنعتی امیرکبیر، بهار 1381.
[14 ] محمد رضا خجسته و محمد رضا میبدی، "ارزیابی اتوماتای یادگیر در همکاری بین عاملها در یک سیستم چند عامله پیچیده"، مرکز تحقیقات انفورماتیک، آزمایشگاهمحاسبات نرم/ دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی. امیرکبیر، بهار 1381.
[15]محمدرضا خجسته و محمد رضا میبدی، "اتوماتای یادگیر بعنوان مدلی برای همکاری در یک تیم از عاملها"، مجموعه مقالات هشتمین کنفرانس سالانه انجمن کامپیوتر ایران ، دانشگاه فردوسی مشهد، مشهد ، صفحات.115-126 اسفند.1381
[16] I. Noda, Team Description: Saloo, AIST & PREST, Japan, 2001.
[17] M. A. L. Thathachar and P. S. Sastry, "A new approach to the design of reinforcement schemes for learning automata," IEEE Trans. on Systems, Man, and Cybernetics, vol. 15, no. 1, pp. 168-175, Jan. /Feb. 1985.
[18] B. J. Oomen and J. K. Lanctot, "Discretized pursuit learning automata," IEEE Transactions on Systems, Man, and Cybernetics, vol. 20, no. 4, pp. 931-938, Jul. /Aug. 1990.