Multi-Agent Deep Reinforcement Learning-Based Decentralized Computation Offloading in Mobile Edge Computing
Subject Areas : electrical and computer engineeringAtousa Daghayeghi 1 , Mohsen Nickray 2
1 - Department of computer engineering and information technology, university of Qom, Qom, Iran
2 -
Keywords: Computation offloading, resource allocation, mobile edge computing, multi-agent deep reinforcement learning, energy harvesting,
Abstract :
It is hardly possible to support latency-sensitive and computational-intensive applications for mobile devices with limited battery capacity and low computing resources. The development of mobile edge computing and wireless power transfer technologies enable mobile devices to offload computing tasks to edge servers and harvest energy to extend their battery lifetime. However, computation offloading faces challenges such as the limited computing resources of the edge server, the quality of the available communication channel, and the limited time for energy harvesting. In this paper, we study the joint problem of decentralized computation offloading and resource allocation in the dynamic environment of mobile edge computing. To this end, we propose a multi-agent deep reinforcement learning-based offloading scheme that considers the cooperation between mobile devices to adjust their strategies. To be specific, we propose an improved version of the multi-agent deep deterministic policy gradient algorithm by employing the features of clipped double Q-learning, delayed policy update, target policy smoothing, and prioritized experience replay. The simulation results reveal that the proposed offloading scheme has better convergence performance than other baseline methods and also reduces the average energy consumption, average processing delay and task failure rate.
[1] N. Abbas, Y. Zhang, A. Taherkordi, and T. Skeie, "Mobile edge computing: a survey," IEEE Internet of Things J., vol. 5, no. 1, pp. 450-465, Feb. 2018.
[2] J. Wang, J. Pan, F. Esposito, P. Calyam, Z. Yang, and P. Mohapatra, "Edge cloud offloading algorithms: issues, methods, and perspectives," ACM Computing Surveys, vol. 52, no. 1, pp. 1-23, Feb. 2019.
[3] Q. H. Nguyen and F. Dressler, "A smartphone perspective on computation offloading-a survey," Computer Communications, vol. 159, pp. 133-154, Jun. 2020.
[4] H. Lin, S. Zeadally, Z. Chen, H. Labiod, and L. Wang, "A survey on computation offloading modeling for edge computing," J. of Network and Computer Applications, vol. 169, Article ID: 102781, Nov. 2020.
[5] P. Mach and Z. Becvar, "Mobile edge computing: a survey on architecture and computation offloading," IEEE Communications Surveys & Tutorials, vol. 19, no. 3, pp. 1628-1656, Mar. 2017.
[6] Y. Mao, C. You, J. Zhang, K. Huang, and K. B. Letaief, "A survey on mobile edge computing: the communication perspective," IEEE Communications Surveys & Tutorials, vol. 19, no. 4, pp. 2322-2358, Aug. 2017.
[7] X. Wang, et al., "Wireless powered mobile edge computing networks: a survey," ACM Computing Surveys, vol. 55, no. 13s, Article ID: 263, 37 pp., Dec. 2023.
[8] U. M. Malik, M. A. Javed, S. Zeadally, and S. ul Islam, "Energy-efficient fog computing for 6G-enabled massive IoT: recent trends and future opportunities," IEEE Internet of Things J., vol. 9, no. 16, pp. 14572-14594, Aug. 2022.
[9] Q. Luo, S. Hu, C. Li, G. Li, and W. Shi, "Resource scheduling in edge computing: a survey," IEEE Communications Surveys & Tutorials, vol. 23, no. 4, pp. 2131-2165, Aug. 2021.
[10] Y. Fan, J. Ge, S. Zhang, J. Wu, and B. Luo, "Decentralized scheduling for concurrent tasks in mobile edge computing via deep reinforcement learning," IEEE Trans. on Mobile Computing, vol. 23, no. 4, pp. 2765-2779, Apr. 2023.
[11] P. Gazori, D. Rahbari, and M. Nickray, "Saving time and cost on the scheduling of fog-based IoT applications using deep reinforcement learning approach," Future Generation Computer Systems, vol. 110, pp. 1098-1115, Sept. 2020.
[12] H. Djigal, J. Xu, L. Liu, and Y. Zhang, "Machine and deep learning for resource allocation in multi-access edge computing: a survey," IEEE Communications Surveys & Tutorials, vol. 24, no. 4, pp. 2449-2494, Aug. 2022.
[13] A. Feriani and E. Hossain, "Single and multi-agent deep reinforcement learning for AI-enabled wireless networks: a tutorial," IEEE Communications Surveys & Tutorials, vol. 23, no. 2, pp. 1226-1252, Mar. 2021.
[14] T. Li, K. Zhu, N. C. Luong, D. Niyato, Q. Wu, Y. Zhang, and B. Chen, "Applications of multi-agent reinforcement learning in future internet: a comprehensive survey," IEEE Communications Surveys & Tutorials, vol. 24, no. 2, pp. 1240-1279, Mar. 2022.
[15] T. T. Nguyen, N. D. Nguyen, and S. Nahavandi, "Deep reinforcement learning for multiagent systems: a review of challenges, solutions, and applications," IEEE Trans. on Cybernetics, vol. 50, no. 9, pp. 3826-3839, Sept. 2020.
[16] K. Zhang, Z. Yang, and T. Başar, "Multi-agent reinforcement learning: a selective overview of theories and algorithms," In: Vamvoudakis, K.G., Wan, Y., Lewis, F.L., Cansever, D. (eds) Handbook of Reinforcement Learning and Control. Studies in Systems, Decision and Control, vol. 325, pp. 321-384, 2021.
[17] R. Lowe, et al., "Multi-agent actor-critic for mixed cooperative-competitive environments," in Proc. 31st Conf. on Neural Information Processing Systems, NIPS'17, 12 pp., Long Beach, CA, USA, 4-9 Dec. 2017.
[18] T. P. Lillicrap, et al., Continuous Control with Deep Reinforcement Learning, arXiv preprint arXiv: 1509.02971, 2015.
[19] S. Fujimoto, H. Hoof, and D. Meger, "Addressing function approximation error in actor-critic methods," in Proc. of the 35th Int. Conf. on Machine Learning, PMLR'80, pp. 1587-1596, Stockholm Sweden, 10-15 Jul. 2018.
[20] O. K. Shahryari, H. Pedram, V. Khajehvand, and M. D. TakhtFooladi, "Energy and task completion time trade-off for task offloading in fog-enabled IoT networks," Pervasive and Mobile Computing, vol. 74, Article ID: 101395, Jul. 2021.
[21] J. Bi, H. Yuan, S. Duanmu, M. Zhou, and A. Abusorrah, "Energy-optimized partial computation offloading in mobile-edge computing with genetic simulated-annealing-based particle swarm optimization," IEEE Internet of Things J., vol. 8, no. 5, pp. 3774-3785, Sept. 2020.
[22] S. Fu, F. Zhou, and R. Q. Hu, "Resource allocation in a relay-aided mobile edge computing system," IEEE Internet of Things J., vol. 9, no. 23, pp. 23659-23669, Jul. 2022.
[23] G. Yang, L. Hou, X. He, D. He, S. Chan, and M. Guizani, "Offloading time optimization via markov decision process in mobile-edge computing," IEEE Internet of Things J., vol. 8, no. 4, pp. 2483-2493, Oct. 2020.
[24] B. Cao, L. Zhang, Y. Li, D. Feng, and W. Cao, "Intelligent offloading in multi-access edge computing: a state-of-the-art review and framework," IEEE Communications Magazine, vol. 57, no. 3, pp. 56-62, Mar. 2019.
[25] Z. Liu, Y. Yang, K. Wang, Z. Shao, and J. Zhang, "POST: parallel offloading of splittable tasks in heterogeneous fog networks," IEEE Internet of Things J., vol. 7, no. 4, pp. 3170-3183, Jan. 2020.
[26] M. Guo, Q. Li, Z. Peng, X. Liu, and D. Cui, "Energy harvesting computation offloading game towards minimizing delay for mobile edge computing," Computer Networks, vol. 204, Article ID: 108678, Feb. 2022.
[27] T. Zhang and W. Chen, "Computation offloading in heterogeneous mobile edge computing with energy harvesting," IEEE Trans. on Green Communications and Networking, vol. 5, no. 1, pp. 552-565, Jan. 2021.
[28] H. Teng, Z. Li, K. Cao, S. Long, S. Guo, and A. Liu, "Game theoretical task offloading for profit maximization in mobile edge computing," IEEE Trans. on Mobile Computing, vol. 22, no. 9, pp. 5313-5329, May 2022.
[29] H. Wu, Z. Zhang, C. Guan, K. Wolter, and M. Xu, "Collaborate edge and cloud computing with distributed deep learning for smart city Internet of Things," IEEE Internet of Things J., vol. 7, no. 9, pp. 8099-8110, May 2020.
[30] L. Ale, N. Zhang, X. Fang, X. Chen, S. Wu, and L. Li, "Delay-aware and energy-efficient computation offloading in mobile-edge computing using deep reinforcement learning," IEEE Trans. on Cognitive Communications and Networking, vol. 7, no. 3, pp. 881-892, Mar. 2021.
[31] C. Li, J. Xia, F. Liu, D. Li, L. Fan, G. K. Karagiannidis, and A. Nallanathan, "Dynamic offloading for multiuser muti-CAP MEC networks: a deep reinforcement learning approach," IEEE Trans. on Vehicular Technology, vol. 70, no. 3, pp. 2922-2927, Feb. 2021.
[32] L. Wang and G. Zhang, "Deep reinforcement learning based joint partial computation offloading and resource allocation in mobility-aware MEC system," China Communications, vol. 19, no. 8, pp. 85-99, Aug. 2022.
[33] J. Niu, S. Zhang, K. Chi, G. Shen, and W. Gao, "Deep learning for online computation offloading and resource allocation in NOMA," Computer Networks, vol. 216, Article ID: 109238, Oct. 2022.
[34] H. Lu, X. He, M. Du, X. Ruan, Y. Sun, and K. Wang, "Edge QoE: computation offloading with deep reinforcement learning for Internet of Things," IEEE Internet of Things J., vol. 7, no. 10, pp. 9255-9265, Mar. 2020.
[35] V. D. Tuong, T. P. Truong, T. V. Nguyen, W. Noh, and S. Cho, "Partial computation offloading in NOMA-assisted mobile-edge computing systems using deep reinforcement learning," IEEE Internet of Things J., vol. 8, no. 17, pp. 13196-13208, Mar. 2021.
[36] Z. Hu, J. Niu, T. Ren, B. Dai, Q. Li, M. Xu, and S. K. Das, "An efficient online computation offloading approach for large-scale mobile edge computing via deep reinforcement learning," IEEE Trans. on Services Computing, vol. 15, no. 2, pp. 669-683, Sept. 2021.
[37] J. Chen and Z. Wu, "Dynamic computation offloading with energy harvesting devices: a graph-based deep reinforcement learning approach," IEEE Communications Letters, vol. 25, no. 9, pp. 2968-2972, Jul. 2021.
[38] X. He, H. Lu, M. Du, Y. Mao, and K. Wang, "QoE-based task offloading with deep reinforcement learning in edge-enabled Internet of Vehicles," IEEE Trans. on Intelligent Transportation Systems, vol. 22, no. 4, pp. 2252-2261, Aug. 2020,
[39] Z. Chen and X. Wang, "Decentralized computation offloading for multi-user mobile edge computing: a deep reinforcement learning approach," EURASIP J. on Wireless Communications and Networking, vol. 2020, Article ID: 188, 21 pp., 2020.
[40] J. Chen, H. Xing, Z. Xiao, L. Xu, and T. Tao, "A DRL agent for jointly optimizing computation offloading and resource allocation in MEC," IEEE Internet of Things J., vol. 8, no. 24, pp. 17508-17524, May 2021.
[41] Z. Cheng, M. Min, M. Liwang, L. Huang, and Z. Gao, "Multiagent DDPG-based joint task partitioning and power control in fog computing networks," IEEE Internet of Things J., vol. 9, no. 1, pp. 104-116, Jun. 2021.
[42] Z. Chen, L. Zhang, Y. Pei, C. Jiang, and L. Yin, "NOMA-based multi-user mobile edge computation offloading via cooperative multi-agent deep reinforcement learning," IEEE Trans. on Cognitive Communications and Networking, vol. 8, no. 1, pp. 350-364, Jun. 2021.
[43] X. Huang, S. Leng, S. Maharjan, and Y. Zhang, "Multi-agent deep reinforcement learning for computation offloading and interference coordination in small cell networks," IEEE Trans. on Vehicular Technology, vol. 70, no. 9, pp. 9282-9293, Jul. 2021.
[44] N. Zhao, Z. Ye, Y. Pei, Y. C. Liang, and D. Niyato, "Multi-agent deep reinforcement learning for task offloading in UAV-assisted mobile edge computing," IEEE Trans. on Wireless Communications, vol. 21, no. 9, pp. 6949-6960, Mar. 2022.
[45] M. Chen, A. Guo, and C. Song, "Multi-agent deep reinforcement learning for collaborative task offloading in mobile edge computing networks," Digital Signal Processing, vol. 140, Article ID: 104127, Aug. 2023.
[46] Q. Tang, R. Xie, F. R. Yu, T. Huang, and Y. Liu, "Decentralized computation offloading in IoT fog computing system with energy harvesting: a Dec-POMDP approach," IEEE Internet of Things J., vol. 7, no. 6, pp. 4898-4911, Feb. 2020.
[47] S. Zeng, X. Huang, and D. Li, "Joint communication and computation cooperation in wireless-powered mobile-edge computing networks with NOMA," IEEE Internet of Things J., vol. 10, no. 11, pp. 9849-9862, Jan. 2023.
[48] L. Huang, S. Bi, and Y. J. A. Zhang, "Deep reinforcement learning for online computation offloading in wireless powered mobile-edge computing networks," IEEE Trans. on Mobile Computing, vol. 19, no. 11, pp. 2581-2593, Jul. 2019.
[49] S. Bi and Y. J. Zhang, "Computation rate maximization for wireless powered mobile-edge computing with binary computation offloading," IEEE Trans. on Wireless Communications, vol. 17, no. 6, pp. 4177-4190, Apr. 2018.
[50] M. Min, et al., "Learning-based computation offloading for IoT devices with energy harvesting," IEEE Trans. on Vehicular Technology, vol. 68, no. 2, pp. 1930-1941, Jan. 2019.
[51] D. Silver et al., "Deterministic policy gradient algorithms," in Proc. of the 31st Int. Conf. on Machine Learning, PMLR'32, pp. 387-395, Beijing, China, 22-24 Jun. 2014.
[52] F. Zhang, J. Li, and Z. Li, "A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment," Neurocomputing, vol. 411, pp. 206-215, Oct. 2020.
[53] P. Sun, W. Zhou, and H. Li, "Attentive experience replay," in Proc. of the AAAI Conf. on Artificial Intelligence, vol. 34, no. 04, pp. 5900-5907, Apr. 2020.
[54] Y. Hou, L. Liu, Q. Wei, X. Xu, and C. Chen, "A novel DDPG method with prioritized experience replay," in Proc. IEEE Int. Conf. on Systems, Man, and Cybernetics, SMC'17, pp. 316-321, Banff, Canada, 5-8 Oct. 2017.
[55] T. Schaul, J. Quan, I. Antonoglou, and D. Silver, Prioritized Experience Replay, arXiv preprint arXiv:1511.05952, 2015.
[56] P. Cheridito, H. Kawaguchi, and M. Maejima, "Fractional ornstein-uhlenbeck processes," Electron. J. Probab, vol. 8, Article ID: 3, 14 pp., 2003.
[57] http://www.powercastco.com
[58] D. P. Kingma and J. Ba, Adam: A Method for Stochastic Optimization, arXiv preprint arXiv:1412.6980, 2014.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 22، شماره 3، پاییز 1403 151
مقاله پژوهشی
برونسپاری محاسبات غیرمتمرکز مبتنی بر یادگیری
تقویتی عمیق چندعامله در رایانش لبه همراه
آتوسا دقایقی و محسن نیکرأی
چکیده: پشتیبانی از برنامههای کاربردی حساس به تأخیر و نیازمند محاسبات سنگین برای دستگاههای همراه با ظرفیت باتری محدود و منابع محاسباتی کم بهسختی امکانپذیر است. توسعه فناوریهای رایانش لبه همراه و انتقال توان بیسیم به دستگاههای همراه امکان میدهند تا وظایف محاسباتی خود را به سرورهای لبه برونسپاری کنند و انرژی را برای افزایش طول عمر باتری خود برداشت کنند. با این حال برونسپاری محاسبات با چالشهایی مانند منابع محاسباتی محدود سرور لبه، کیفیت کانال ارتباطی موجود و زمان محدود برای برداشت انرژی مواجه است. ما در این مقاله مسئله مشترک برونسپاری محاسبات و تخصیص منابع غیرمتمرکز را در محیط پویای رایانش لبه همراه مطالعه میکنیم. برای این منظور یک طرح برونسپاری مبتنی بر یادگیری تقویتی عمیق چندعامله را پیشنهاد میدهیم که همکاری بین دستگاههای همراه را برای تنظیم استراتژیهایشان در نظر میگیرد. به طور خاص، ما یک نسخه بهبودیافته الگوریتم گرادیان سیاست قطعی عمیق چندعامله را با بهکارگیری ویژگیهای clipped double Q-learning، بهروزرسانی با تأخیر سیاست، هموارسازی سیاست هدف و بازپخش تجربه اولویتبندیشده پیشنهاد میدهیم. نتایج شبیهسازی نشان میدهند طرح برونسپاری پیشنهادی، عملکرد همگرایی بهتری نسبت به سایر روشها دارد و همچنین میانگین مصرف انرژی، میانگین تأخیر پردازش و نرخ شکست وظیفه را کاهش میدهد.
کلیدواژه: برونسپاری محاسبات، تخصیص منابع، رایانش لبه همراه، یادگیری تقویتی عمیق چندعامله، برداشت انرژی.
1- مقدمه
نیازمندیهای کاربران در مورد نرخ داده و کیفیت خدمات 2(QoS) به طور نمایی در حال افزایش است [1]. علاوه بر این، پیشرفت فناوری
در گوشیهای هوشمند، لپتاپها و تبلتها امکان ظهور برنامههای کاربردی جدید را فراهم میکند. اگرچه دستگاههای همراه3 جدید از لحاظ قابلیتهای پردازشی روزبهروز قدرتمندتر میشوند، حتی این دستگاهها نیز ممکن است نتوانند در مدت زمان کوتاهی برنامههایی را که به پردازش عظیم نیاز دارند اداره کنند [2]. علاوه بر این، مصرف بالای باتری همچنان مانع قابل توجهی است که کاربران را برای لذتبردن کامل از برنامههای کاربردی در دستگاههای خود محدود میکند [3]. برونسپاری محاسبات4 بخشی از وظایف برنامههای کاربردی از دستگاههای همراه به مراکز داده ابری، راهحل امیدوارکنندهای برای این مسئله است [4]. با این حال از آنجا که مراکز داده ابری معمولاً از نظر فیزیکی در مناطق دور قرار دارند، پردازش این وظایف در ابر با تأخیر زیادی همراه خواهد بود که برآوردهکردن نیازمندیهای برنامههای کاربردی حساس به تأخیر را به چالش میکشد. بنابراین استفاده از مدل رایانش لبه همراه 5(MEC) که دستگاههای همراه با ظرفیت باتری و منابع محاسباتی محدود را قادر میسازد تا برنامههای کاربردی نیازمند محاسبات سنگین و حساس به تأخیر را در لبه شبکهها اجرا کنند، ضروری است [5] و [6].
اگرچه برونسپاری محاسبات، مصرف انرژی دستگاههای همراه را تا حدی کاهش میدهد، دستگاههای همراه با ظرفیت باتری محدود برای پشتیبانی از عملکرد برنامههای کاربردی مختلف مناسب نیستند که موضوع مهمی برای توسعه سیستم MEC است. این امر به این دلیل است که نرخ دادههای بالا، ارتباطات با تأخیر بسیار کم و تواناییهای پردازش داده قوی برای شبکههای G5 مورد نیاز است که منجر به مصرف انرژی بالای دستگاههای همراه میشود. با این حال، افزایش ظرفیت باتری دستگاههای همراه تا بینهایت عملی نیست. علاوه بر این در مناطق دورافتاده و شرایط اضطراری، شارژ مجدد دستگاههای همراه با برق شبکه غیرممکن است [7]. با خالیشدن باتری، دستگاههای همراه قادر به انجام عملیات خود شامل پردازش وظایف و انتقال آنها به سرور MEC نخواهند بود. چالش فوق را میتوان با توسعه اخیر فناوریهای انتقال توان بیسیم 6(WPT) کاست. WPT، شارژ بیسیم دستگاههای همراه مجهز به ماژولهای برداشت انرژی 7(EH) را با استفاده از نقاط دسترسی 8(AP) بیسیم که سیگنالهای فرکانس رادیویی 9(RF) را ارسال میکنند، تحقق میبخشد؛ بنابراین باعث افزایش عمر باتری و خودپایداری 10 دستگاههای همراه میشود و دستیابی به محاسبات سبز را ممکن میسازد [6] تا [8]. با ترکیب سیستم MEC با دستگاههای مجهز به EH میتوان از مزایای دو فناوری فوق برخوردار شد؛ یعنی افزایش قابلیتهای محاسباتی دستگاههای همراه و در عین حال کاهش کمبود انرژی. علیرغم مزایای بالقوه ادغام EH در MEC، رقابت برای منابع محاسباتی محدود سرور MEC در بین دستگاههای همراه، منابع ارتباطی محدود، محدودبودن انرژی برداشتشده در یک زمان محدود، فرایند برونسپاری محاسبات را با چالش مواجه میکنند. علاوه بر این، اگرچه برونسپاری وظایف به سرور MEC، بار محاسباتی و مصرف انرژی را برای دستگاههای همراه کاهش میدهد، با این حال از آنجا که اجرای وظیفه بهصورت محلی انجام نمیشود منجر به تأخیر انتقال بیشتر هنگام برونسپاری دادههای وظیفه میشود. این عوامل متضاد باید بهدقت مورد بررسی قرار گیرند تا به راهحلی مناسب دست یابیم. از طرفی تخصیص کارآمد منابع برای پشتیبانی از برونسپاری محاسبات در سیستمهای MEC ضروری است. بدون هماهنگی کارآمد تخصیص منابع، سیستم ممکن است به تأخیر و مصرف انرژی بالا منجر شود که به نوبه خود بر عملکرد کلی برونسپاری تأثیر میگذارد. بنابراین برای به حداکثر رساندن کارایی سیستم، مطالعه مسئله بهینهسازی مشترک برونسپاری محاسبات و تخصیص منابع برای بهرهگیری از مزایای کامل MEC با دستگاههای همراه مجهز به قابلیت EH بسیار مهم است؛ زیرا این دو موضوع ارتباط نزدیکی با هم دارند.
به طور کلی، مسئله برونسپاری محاسبات را میتوان در دو روش متمرکز11 و غیرمتمرکز12 انجام داد [9]. در تکنیک متمرکز، یک کنترلکننده مرکزی اطلاعات محیط ازجمله قابلیتهای محاسباتی محلی، اطلاعات وضعیت کانال 13(CSI) و نیازهای محاسباتی را از دستگاههای همراه جمعآوری میکند و تصمیمات برونسپاری را اتخاذ و دستگاههای همراه را در مورد تصمیمات آگاه مینماید [6]. بنابراین رویکردهای برونسپاری متمرکز زمانی که برای سیستمهای MEC در مقیاس بزرگ اعمال میشوند، به حجم عظیمی از اطلاعات و محاسبات نیاز دارند
که بهطور اجتنابناپذیر تأخیر اجرایی قابل توجهی را متحمل میشود و همچنین هزینه ارتباطات را افزایش میدهد [10]. چالش دیگر در طرح برونسپاری متمرکز، نقطه واحد شکست 14(SPoF) است که در صورت بروز مشکل برای سرور متمرکز که وظیفه تصمیمگیری برونسپاری را به عهده دارد، عملکرد کل شبکه مختل میگردد [11]. بنابراین روشهای متمرکز برای بهکارگیری در شبکه دنیای واقعی مناسب نیستند. در مقابل، رویکردهای غیرمتمرکز از سربار ارتباطات که از هماهنگسازی اطلاعات همه دستگاهها تحمیل میشود، جلوگیری میکند. در سیستمهای MEC، سربار ارتباطات برای جمعآوری اطلاعات کاربران معمولاً بزرگتر از سربار محاسبه است و نادیدهگرفتن آن برای سیستمهای واقعی عملی نیست.
هنگام طراحی طرح برونسپاری غیرمتمرکز در یک سیستم MEC، باید مسائل مربوط به همکاری و رقابت بین دستگاههای همراه برای منابع سرور MEC و همچنین یک مکانیزم عملی که ویژگیهای تحرک، تصادفیبودن و ناهمگونی را در نظر میگیرد، مورد توجه قرار گیرد [12]. یادگیری تقویتی عمیق چندعامله 15(MADRL) میتواند به عنوان یک رویکرد مؤثر برای یادگیری یک سیاست برونسپاری غیرمتمرکز برای دستگاه همراه بدون دانش قبلی از محیط استفاده شود و مسائل مربوط به ویژگیهای تصادفی و نامطمئن در سیستمهای دینامیک را در نظر بگیرد. یک رویکرد برای پرداختن به محیط MADRL رویکرد یادگیرنده مستقل 16(IL) است که در آن عاملها به طور مستقل سیاستهای خود را تنها با دسترسی به اطلاعات محلی خود برای حداکثرسازی بازده17 خود بهینه میکنند [13]. با این حال، رقابت یا همکاری بین عاملها را نمیتوان با این رویکرد مدل کرد. علاوه بر این از آنجا که عاملها به طور همزمان سیاستهای خود را بهبود میدهند، اقدامات یک عامل بر پاداشهای سایر عاملها و همچنین انتقال حالت18 محیط تأثیر میگذارد. در نتیجه محیط از دیدگاه هر عامل به دلیل نقض خاصیت مارکوف غیرایستا19 میشود و همگرایی الگوریتم را نمیتوان تضمین کرد [14] تا [16]. رویکرد دیگری که به مسائل فوق میپردازد، استفاده از چارچوب آموزش متمرکز و اجرای غیرمتمرکز 20(CTDE) است که در آن در طول آموزش، یک کنترلکننده مرکزی برای جمعآوری اطلاعات اضافی درباره عاملها ازجمله مشاهدات و اقدامات مشترک در نظر گرفته میشود. با این حال، سیاستهای آموختهشده غیرمتمرکز هستند و اقدامات تنها با استفاده از مشاهدات محلی عامل تصمیمگیری میشوند [13]. بنابراین در چارچوب CTDE، عامل قادر به یادگیری یک سیاست غیرمتمرکز از طریق بهینهسازی جهانی است [14]. از شناختهشدهترین الگوریتمهای مبتنی بر CTDE، گرادیان سیاست قطعی عمیق چندعامله 21(MADDPG) است [17]. این الگوریتم، توسعه الگوریتم گرادیان سیاست قطعی عمیق 22(DDPG) [18] در محیطهای چندعامله است که عملکرد خوبی برای مسائل با فضای اقدام پیوسته ارائه میدهد. MADDPG [17] بر اساس روش بازیگر- منتقد23 طراحی شده که در آن هر عامل شامل یک شبکه بازیگر غیرمتمرکز و یک شبکه منتقد متمرکز است. در MADDPG، شبکه بازیگر سیاست خود را در جهتی بهروز میکند که ارزش را بهبود میبخشد و یاد میگیرد که اقدامی را با بالاترین ارزش تخمینی بر اساس شبکه منتقد انتخاب کند؛ بنابراین محدودیت الگوریتمهای بازیگر- منتقد، بهرهبرداری بازیگر از خطای تخمین ارزش منتقد است. طبق [19] بایاس تخمین بیش از حد24 میتواند در روشهای بازیگر- منتقد به دلیل خطای تقریب تابع رخ دهد و بنابراین تخمین دقیق ارزش توسط منتقد در روشهای بازیگر- منتقد به بازیگر امکان یادگیری سیاست بهتری را میدهد. علاوه بر این در MADDPG، نمونههای تجربه به طور یکنواخت از بافر بازپخش25 برای آموزش انتخاب میشوند [17]. با این حال، تجربیات مختلف ممکن است اهمیت متفاوتی داشته باشند و عامل از برخی تجربیات بیشتر از بقیه یاد بگیرد. بنابراین اولویتبندی تجربیات با توجه به اهمیت آنها باعث میشود تا بازپخش تجربه مؤثرتر باشد و به فرایند یادگیری الگوریتم سرعت میبخشد.
با انگیزه مسائل ذکرشده در بالا، این مقاله مسئله مشترک برونسپاری محاسبات و تخصیص منابع غیرمتمرکز را در محیط پویای MEC با هدف به حداقل رساندن هزینه محاسباتی بلندمدت از لحاظ مصرف انرژی و تأخیر پردازش وظیفه مورد مطالعه قرار میدهد. برای هماهنگکردن کاربرانی که برای دسترسی به منابع محدود سرور MEC رقابت میکنند، چارچوب مبتنی بر CTDE را در نظر میگیریم و یک الگوریتم MADDPG بهبودیافته را پیشنهاد میکنیم. به طور خاص، نوآوریهای اصلی ما به شرح زیر خلاصه میشود:
• ما مسئله مشترک برونسپاری محاسبات بخشی26 و تخصیص منابع را در شبکه MEC با دستگاههای همراه مجهز به قابلیت EH بهصورت یک مسئله بهینهسازی برنامهریزی غیرخطی 27(NLP) فرموله کردهایم. هدف مسئله پیشنهادی حداقلسازی مصرف انرژی و تأخیر پردازش وظیفه تحت محدودیتهای حداکثر تأخیر قابل تحمل وظیفه و ظرفیت باتری محدود دستگاههای همراه است.
• برای حل مسئله و پرداختن به چالش محیط پویای MEC، ما MADRL را به کار میگیریم و یک طرح برونسپاری مبتنی بر چارچوب CTDE پیشنهاد میکنیم. بنابراین هر دستگاه همراه به عنوان عاملی در نظر گرفته میشود که در حین اجرا به طور مستقل با توجه به مشاهدات محلی خود از محیط در مورد اقدام تصمیم میگیرد؛ اما در طول آموزش، اطلاعات اضافی شامل مشاهدات و سیاستهای خود را با سایر دستگاهها به اشتراک میگذارد.
• به طور خاص، ما الگوریتم MADDPG را بهبود بخشیدهایم. برای بهبود عملکرد و کاهش مسئله بایاس تخمین بیش از حد در MADDPG، ما از clipped double Q-learning، بهروزرسانی با تأخیر سیاست و هموارسازی سیاست هدف28 استفاده کردهایم. علاوه بر این از بازپخش تجربه اولویتبندیشده 29(PER) برای بهبود کارایی دادهها30 و تسریع فرایند آموزش استفاده کردهایم.
• نتایج شبیهسازی عملکرد برتر و سرعت همگرایی بالاتر الگوریتم پیشنهادی را در مقایسه با سایر الگوریتمها نشان میدهد. تحلیل عددی نشان میدهد که الگوریتم پیشنهادی ما هزینه محاسباتی سیستم را از نظر تأخیر پردازش وظیفه و مصرف انرژی کاهش میدهد و نیز منجر به کاهش نرخ شکست وظیفه31 میشود.
سازماندهی مقاله به این صورت است که در بخش 2 پژوهشهای مرتبط بررسی میشوند. بخش 3 به تشریح مدل سیستم و فرمولهسازی مسئله پیشنهادی و بخش 4 به بیان جزئیات الگوریتم پیشنهادی اختصاص یافته است. در بخش 5 به ارزیابی عملکرد رویکرد پیشنهادی میپردازیم و در بخش 6 نتیجهگیری و کارهای آتی را خواهیم داشت.
2- پژوهشهای مرتبط
در این بخش، کارهای انجامشده در حوزه برونسپاری محاسبات را به دو دسته طرحهای برونسپاری مبتنی بر روشهای بهینهسازی سنتی
و طرحهای برونسپاری مبتنی بر روشهای یادگیری ماشین 32(ML) دستهبندی کردهایم و به بررسی این رویکردها پرداختهایم.
2-1 برونسپاری محاسبات مبتنی بر روشهای سنتی
الگوریتمهای فرااکتشافی33 و رویکردهای مبتنی بر بهینهسازی محدب زمانی که محیط شبکه ایستا است، به عنوان رویکرد مناسبی شناخته میشوند؛ بنابراین برخی پژوهشگران از این الگوریتمها برای حل مسئله برونسپاری استفاده کردهاند. به عنوان مثال پژوهشگران در [20] یک طرح برونسپاری وظیفه در شبکه IoT توانمند به مه34 با در نظر گرفتن محدودیتهای باتری باقیمانده دستگاه IoT و مهلت زمانی وظایف پیشنهاد دادهاند و مسئله را با هدف حداقلسازی تأخیر تکمیل وظیفه و مصرف انرژی دستگاههای IoT فرموله کردهاند و برای حل آن، یک الگوریتم هیبریدی با ترکیب الگوریتم ژنتیک 35(GA) و بهینهسازی ازدحام ذرات 36(PSO) طراحی کردهاند. در [21]، یک طرح برونسپاری بخشی برای به حداقل رساندن انرژی کل مصرفشده توسط دستگاههای همراه هوشمند و سرورهای لبه با بهینهسازی مشترک نسبت برونسپاری وظیفه، پهنای باند تخصیصیافته، سرعت CPU و توان انتقال هر دستگاه همراه پیشنهاد شده و یک الگوریتم هیبریدی با ترکیب الگوریتمهای PSO، GA و شبیهسازی تبرید37 طراحی شده است. در [22] یک شبکه MEC با کاربران مختلف با هدف حداقلسازی مصرف انرژی بررسی شده که حالت دسترسی چندگانه تقسیم زمانی 38(TDMA) را اتخاذ میکند. با توجه به غیرمحدببودن39 مسئله فرمولهشده، نویسندگان بر اساس چارچوب تقریب محدب متوالی 40(SCA) یک رویکرد تکراری برای حل توسعه دادهاند. با این حال از معایب الگوریتمهای فرااکتشافی میتوان به افزایش زمان اجرا با افزایش تعداد وظایف در برنامه و گیرافتادن در بهینه محلی اشاره کرد [12]. از سوی دیگر از آنجا که الگوریتمهای فرااکتشافی و رویکردهای مبتنی بر بهینهسازی محدب برای دستیابی به سیاست بهینه یا نزدیک به بهینه نیاز به تعداد زیادی تکرار دارند، برای تصمیمگیری برونسپاری بلادرنگ در محیط متغیر MEC غیرعملی هستند.
علاوه بر این، برخی کارها مسئله برونسپاری مبتنی بر فرایند تصمیمگیری مارکوف 41(MDP) را مطالعه کردهاند. پژوهشگران در [23]، استراتژی انتخاب گره برونسپاری بهینه را بهصورت یک مدل MDP با در نظر گرفتن پهنای باند شبکه در دسترس سرورهای لبه و موقعیت دستگاههای همراه در سیستم MEC فرموله میکنند و الگوریتم تکرار ارزش 42(VIA) را برای حل MDP و دستیابی به زمان برونسپاری بهینه به کار میگیرند. با این حال برای حل MDP، مدل سیستم مانند احتمال انتقال43 باید کاملاً شناختهشده باشد. در حالی که در یک شبکه واقعی، دستیابی به این اطلاعات بسیار دشوار است و تخمین احتمال انتقال به دادههای انبوهی نیاز دارد که کاربرد آن در MEC را چالشبرانگیز میکند. همچنین در مسائل MDP، پیچیدگی محاسباتی بهصورت نمايي با تعداد حالتها افزایش مییابد که منجر به مسئله نفرین ابعاد44 میشود [24].
به منظور پرداختن به مسئله برونسپاری محاسبات چندکاربره در یک محیط ایستا، برخی از پژوهشگران این مسئله را از طریق نظریه بازی مدلسازی کردهاند. در [25] نویسندگان مسئله برونسپاری بخشی را بهصورت یک مسئله تعادل نش 45(NE) تعمیمیافته با هدف کاهش تأخیر فرموله کردهاند. وجود NE با استفاده از نظریه نقطه ثابت46 اثبات شده و یک الگوریتم برونسپاری وظیفه توزیعی که بر اساس اطلاعات محلی و روش Gauss-Seidel-type است، توسعه یافته است. پژوهشگران در [26]، مسئله برونسپاری محاسبات توزیعی در یک سیستم MEC سبز
با دستگاههای مجهز به EH را بهصورت یک بازی مدل کردهاند که تصمیمات برونسپاری و برداشت انرژی و همچنین نرخ محاسبه محلی
و توان انتقال را برای حداقلکردن تأخیر و طولانیکردن عمر باتری دستگاههای EH با بهکارگیری الگوریتمهای برداشت انرژی مبتنی بر Lyapunov-drift و الگوریتم بهترین پاسخ ارائه میدهد. مسئله برونسپاری بخشی در شبکه MEC با هدف حداقلسازی زمان پاسخ میانگین بهصورت یک بازی برونسپاری غیرمشارکتی برای نشاندادن رقابت بین کاربران برای دستیابی به منابع سرورها با در نظر گرفتن تصادفیبودن تولید وظیفه، ورود انرژی برداشتشده، حالت کانال بیسیم و تداخل بین دستگاههای همراه در [27] فرموله شده است. برای حداکثرسازی مزیت کل سیستم از لحاظ درآمد سرور MEC، [28] طرح برونسپاری سمت سرور را بهصورت یک بازی غیرمشارکتی فرموله کرده است. برای همگراشدن به NE، پژوهشگران در این مقاله یک الگوریتم بهروزرسانی پاسخ بهتر اکتشافی حریصانه 47(GH-BRU) را پیشنهاد کردهاند. با این حال در یک بازی برونسپاری، افزایش تعداد کاربران منجر به افزایش نمایی در پیچیدگی محاسباتی میشود؛ بنابراین دستیابی به NE را نمیتوان تضمین کرد.
2-2 برونسپاری محاسبات مبتنی بر روشهای ML
روشهای مبتنی بر یادگیری عمیق به دلیل عملکرد مناسب پیشبینی و استدلال، در طرحهای برونسپاری محاسبات و تخصیص منابع استفاده شدهاند. در [29] نویسندگان یک سناریوی برونسپاری را با در نظر گرفتن ناهمگنی سرورهای لبه و ابر مرکزی در انتخاب مقصد برونسپاری مطالعه میکنند و یک طرح برونسپاری مبتنی بر یادگیری عمیق توزیعشده 48(DDTO) را برای به حداکثر رساندن مزیت سیستم با حداقلسازی مصرف انرژی و تأخیر پیشنهاد میکنند. با این حال، آموزش مدلهای مبتنی بر یادگیری عمیق به مجموعه دادههای برچسبگذاریشده عظیمی نیاز دارد. تولید و برچسبگذاری دادهها در سیستم MEC بسیار چالشبرانگیز است. علاوه بر این، مدلهای آموزش دادهشده ممکن است در صورت تغییر در مجموعه دادهها نیاز به آموزش مجدد داشته باشند.
در مقابل در یادگیری تقویتی عمیق 49(DRL) که شبکههای عصبی را در یادگیری تقویتی ادغام میکند، به دادههای برچسبگذاریشده برای آموزش نیاز نیست و سیاست بهینه توسط عامل از طریق تعامل با محیط آموخته میشود. بنابراین برخی پژوهشگران روشهای DRL مبتنی بر ارزش50 را برای حل مسائل برونسپاری با فضای اقدام پیوسته به کار گرفتهاند. در [30]، برونسپاری محاسبات در سیستم دینامیک MEC با وظایف محاسباتی با نیازمندیهای مختلف با هدف حداکثرکردن تعداد وظایف تکمیلشده قبل از مهلت زمانیشان و حداقلسازی مصرف انرژی بررسی شده است. برای بهینهسازی مسئله و کاهش نوسانات مدل هنگام آموزش، یک الگوریتم Q-Network عمیق 51(DQN) با بهکارگیری روش تابع جانشین بریدهشده52 پیشنهاد گردیده است. نویسندگان در [31] مسئله برونسپاری بخشی در شبکه MEC با کاربران و APهای مختلف را با
در نظر گرفتن مشخصات وظیفه و قابلیتهای محاسباتی ناهمگن APها مطالعه کردهاند و یک الگوریتم DQN را با هدف بهینهسازی مصرف انرژی و تأخیر توسعه دادهاند. در [32]، مسئله برونسپاری بخشی و تخصیص منبع محاسباتی در سیستم MEC متشکل از دستگاههای همراه با قابلیت EH و یک مدل تحرک یکنواخت با هدف حداقلسازی هزینه تأخیر و مصرف انرژی مدل شده و الگوریتم DQN برای حل پیشنهاد گردیده است. نویسندگان در [33] یک شبکه MEC با بهکارگیری فناوری دسترسی چندگانه غیرمتعامد 53(NOMA) و قابلیت WPT را مطالعه کردهاند و یک چارچوب بهبود نمونه آنلاین مبتنی بر DRL 54(DROS) برای دستیابی به حداکثر نرخ محاسباتی پیشنهاد دادهاند. با این حال روشهای مبتنی بر ارزش برای مسائل با فضای اقدام پیوسته مناسب نیستند. یک راهحل برای تطبیق روشهای مبتنی بر ارزش با فضای اقدام پیوسته، گسستهسازی فضای اقدام است. با این حال گسستهسازی دقیق منجر به نفرین ابعاد میشود و اکتشاف این فضا برای یافتن سیاست بهینه بسیار چالشبرانگیز میگردد؛ در حالی که گسستهسازی ساده منجر به از دست رفتن اطلاعات ساختاری فضای اقدام میشود.
برای مقابله با مسائل مربوط به روشهای DRL مبتنی بر ارزش در فضای اقدام پیوسته، برخی دیگر از پژوهشگران از روشهای DRL مبتنی بر بازیگر- منتقد برای مسئله برونسپاری متمرکز استفاده کردهاند. در [34] برای بهبود تجربه کاربران، یک مدل بهینهسازی در محیط IoT توانمند به لبه با در نظر گرفتن تأخیر سرویس، مصرف انرژی و نرخ موفقیت وظیفه پیشنهاد شده و الگوریتمی با نام 55PG3D که روشهای Double Q-learning و Dueling network را در الگوریتم DDPG ترکیب میکند، پیشنهاد شده است. نویسندگان در [35] بر کاهش مجموع وزندار مصرف انرژی و تأخیر در سیستم MEC دینامیک با شرایط کانال متغیر و پروتکلهای دسترسی چندگانه هیبریدی دسترسی چندگانه متعامد 56(OMA) و NOMA تمرکز کردهاند و با بهکارگیری مزایای روشهای DQN و بازیگر- منتقد، الگوریتمی با نام ACDQN برای بهینهسازی برونسپاری بخشی و تخصیص کانال تحت محدودیت حداکثر توان را توسعه دادهاند. در [36]، مسئله برونسپاری و تخصیص منبع در MEC با هدف کاهش تأخیر و مصرف انرژی همه وظایف فرموله شده است. مسئله برای کاهش پیچیدگی بهینهسازی به دو زیرمسئله تجزیه و با بهکارگیری الگوریتم گرادیان سیاست قطعی عمیق دوقلو با تأخیر 57)3(TD و روش جهت متناوب ضربکنندهها 58(ADMM) حل شده است. در [37] یک عامل DDPG بهبودیافته با نام GCN-DDPG پیشنهاد گردیده که از توانایی شبکههای کانولوشنی گراف برای بهینهسازی تصمیمات نسبت برونسپاری، تعیین ظرفیت محاسباتی محلی و توان انتقال در شبکه MEC با دستگاههای EH استفاده میکند. برای دستیابی به QoE
بهتر با در نظر گرفتن مصرف انرژی تحت محدودیت تأخیر سرویس، نویسندگان در [38] یک طرح برونسپاری مبتنی بر الگوریتم DDPG پیشرفته را با نام PS-DDPG با بهکارگیری مکانیسمهای PER و میانگینگیری وزن تصادفی 59(SWA) در اینترنت وسایل نقلیه 60(IoV) توانمند به لبه ارائه دادهاند. اگرچه این روشها میتوانند محیط در حال تغییر و فضاهای اقدام پیوسته را مدیریت کنند، این کارها یک طرح برونسپاری متمرکز را در نظر میگیرند که در آن یک سرور متمرکز برای جمعآوری تمام اطلاعات ضروری و تصمیمگیری برای همه دستگاههای همراه مورد نیاز است. بنابراین این مدلسازی مقیاسپذیری کافی ندارد.
از آنجا که برونسپاری متمرکز با افزایش مقیاس شبکه چالشبرانگیز میشود، نویسندگان طرحهای برونسپاری غیرمتمرکز را پیشنهاد کردهاند. یک طرح برونسپاری بخشی غیرمتمرکز مبتنی بر الگوریتم DDPG برای حداقلکردن تأخیر بافر و مصرف توان در محیط MEC در [39] ارائه شده که ورود تصادفی وظایف و شرایط کانال ارتباطات متغیر را در نظر میگیرد. پژوهشگران در [40] الگوریتمی بر اساس DDPG با نام گرادیان سیاست قطعی توجه زمانی 61(TADPG) برای بهینهسازی برونسپاری
و تخصیص منبع با هدف حداقلسازی میانگین مصرف انرژی و زمان تکمیل وظیفه توسعه دادهاند که از دو ویژگی شبکه استخراج ویژگی زمانی 62(TFEN) و PER مبتنی بر رتبه 63(rPER) برای همگرایی سریعتر و ثبات بهتر الگوریتم استفاده میکند. با این حال، این روشها از چارچوب IL برای پیادهسازی طرح برونسپاری غیرمتمرکز استفاده میکنند که در آن همه عاملها به طور همزمان سیاست خود را یاد میگیرند؛ بنابراین محیط از نظر هر عامل غیرثابت است و با افزایش تعداد عاملها، عملکرد سیستم کاهش مییابد و همگرایی آموزش چالشبرانگیز میشود.
نویسندگان در [41] تا [45]، طرحهای برونسپاری مبتنی بر چارچوب CTDE را پیشنهاد کردهاند. در [41]، مسئله کنترل توان و تقسیم وظیفه برای حداکثرسازی مزیت بلندمدت سیستم شامل مصرف انرژی و تأخیر اجرا در پارادایم رایانش مه بهصورت یک بازی تصادفی چندعامله مدل شده و یک الگوریتم برونسپاری وظیفه مبتنی بر MADDPG ارائه گردیده است. با تمرکز بر چارچوب MADRL مشارکتی، پژوهشگران در [42] یک طرح برونسپاری بخشی غیرمتمرکز در محیط MEC مبتنی بر NOMA برای هماهنگکردن تداخل بین کاربران مختلف را در نظر گرفتهاند و برای دستیابی به استراتژی تعیین توان اجرای محلی و توان برونسپاری با هدف حداقلکردن مصرف توان و تأخیر بافر، الگوریتم PSMADDPG را پیشنهاد دادهاند که از یک تکنیک به اشتراکگذاری پارامتر64 برای کاهش پیچیدگی آموزش استفاده میکند. در [43] بر روی طراحی مشترک برونسپاری و هماهنگی تداخل با هدف حداقلسازی مصرف انرژی و در عین حال برآوردهکردن نیازمندیهای تأخیر تمرکز گردیده و از الگوریتم MADDPG برای حل مسئله استفاده شده است.
در [44]، یک طرح برونسپاری وظیفه با هدف حداقلسازی هزینه کل سیستم از لحاظ تأخیر اجرایی و مصرف انرژی مبتنی بر الگوریتم 3TD چندعامله در محیط MEC مبتنی بر پهپاد 65(UAV) پیشنهاد شده است. در [45] یک طرح برونسپاری و تخصیص منبع با هدف حداقلسازی تأخیر کل وظایف دستگاههای همراه مبتنی بر MADDPG در MEC توسعه داده شده است. اگرچه این رویکردها میتوانند مسئله عدم ایستایی در طرحهای برونسپاری مبتنی بر IL را حل کنند، در الگوریتمهای مبتنی بر بازیگر- منتقد ازجمله MADDPG، عملکرد شبکه بازیگر بهشدت
به ارزش تخمینزدهشده توسط شبکه منتقد بستگی دارد. از آنجایی که MADDPG از مسئله تخمین بیش از حد توسط منتقد رنج میبرد، ممکن است منجر به سیاستهای غیربهینه شود.
با در نظر گرفتن معایب کارهای مرتبط، هدف ما ارائه یک مدل بهینهسازی برای مسئله مشترک برونسپاری محاسبات و تخصیص منابع در سیستم MEC با دستگاههای همراه با قابلیت EH و حل آن با استفاده از MADRL است. با توجه به مطالعات انجامشده در زمینه پژوهشی، هیچ کار مبتنی بر MADRL وجود ندارد که مسئله بهینهسازی مشترک برونسپاری بخشی و تخصیص منابع غیرمتمرکز را در یک شبکه MEC با دستگاههای مجهز به قابلیت EH مطالعه کرده باشد. برای حل مسئله، یک نسخه بهبودیافته الگوریتم MADDPG با بهبود تخمین ارزش شبکه منتقد و بهکارگیری تکنیک بازپخش تجربه کارآمدتر را پیشنهاد میدهیم.
3- مدل سیستم و فرمولهسازی مسئله
در این بخش ابتدا مدل سیستم و پس از آن، مدل EH، مدل ارتباطات و مدل محاسبات ارائه میشوند. در نهایت، مسئله بهینهسازی مشترک برونسپاری محاسبات و تخصیص منابع را با اهداف مورد نظر فرموله میکنیم. نمادهای استفادهشده این مقاله در جدول 1 ارائه شده است.
3-1 مدل سیستم
یک سیستم MEC تکسلولی66 با چندین دستگاه همراه را در نظر میگیریم. همان طور که در شکل 1 نشان داده شده است، سیستم از یک AP با دو آنتن با یک سرور MEC متصل و دستگاه همراه تکآنتن با منابع محاسباتی و باتری محدود تشکیل شده است. هر دستگاه همراه دارای وظایف حساس به تأخیر و نیازمند محاسبات سنگین است که باید قبل از مهلت زمانیشان برای برآوردهکردن نیازمندیهای QoS کاربران تکمیل شوند. فرض بر این است که سرور MEC، منابع محاسباتی بیشتری در مقایسه با دستگاههای همراه دارد. همچنین فرض میکنیم که AP به یک منبع برق پایدار متصل است و مجهز به فرستنده انرژی RF است که میتواند قابلیت WPT را انجام دهد و توان را به دستگاههای همراه از طریق RF پخش67 کند. کل زمان سیستم به برشهای زمانی68 مساوی با طول تقسیم شده و بهصورت نشان داده میشود. مشابه [41] و [46]، سناریوی شبهایستا69 اتخاذ گردیده که در
آن محیط شبکه در هر برش زمانی ثابت میباشد؛ در حالی که در برشهای زمانی مختلف متفاوت است. مجموعه دستگاههای همراه با نشان داده میشود. فرض میکنیم که در برش زمانی ، هر دستگاه همراه دارای یک وظیفه قابل تقسیم است که باید با توجه به محدودیتهای سطح باتری دستگاه و حداکثر تأخیر قابل
جدول 1: خلاصه نمادهای اصلی مورد استفاده.
نماد | تعریف |
| تعداد دستگاههای همراه |
| باتری باقیمانده دستگاه همراه در برش زمانی |
| وظیفه دستگاه همراه |
| مدت زمان یک برش زمانی |
| حداکثر تأخیر قابل تحمل وظیفه |
| اندازه داده ورودی |
| تعداد چرخههای مورد نیاز برای پردازش هر بیت وظیفه |
| نسبت برش زمانی اختصاصیافته به EH |
| فاصله دستگاه همراه از AP در برش زمانی |
| انرژی برداشتشده توسط دستگاه در برش زمانی |
| بهره آنتن |
| بهره کانال بین AP و دستگاه همراه در برش زمانی |
| نرخ انتقال دستگاه همراه در برش زمانی |
| پهنای باند کانال |
| حداکثر توان انتقال دستگاه همراه |
| توان انتقال تعیینشده در برش زمانی توسط دستگاه همراه برای ارسال به AP |
| قابلیت محاسباتی دستگاه همراه |
| منابع محاسباتی در دسترس سرور MEC در برش زمانی |
| نسبت منابع اختصاصیافته سرور MEC به |
| تأخیر اجرایی محلی دستگاه برای پردازش |
| انرژی مصرفشده محلی برای اجرای |
| تأخیر انتقال برای ارسال زیروظیفه به AP |
| مصرف انرژی انتقال دستگاه همراه برای ارسال زیروظیفه |
| زمان پردازش زیروظیفه بر روی سرور MEC |
| کل تأخیر برونسپاری زیروظیفه دستگاه به سرور MEC |
| نسبت برونسپاری |
| کل تأخیر پردازش برای |
| مصرف انرژی کل دستگاه همراه در برش زمانی برای تکمیل |
| هزینه محاسباتی هر دستگاه همراه |
تحمل وظیفه پردازش شود. بنابراین همانند [34] و [35] برونسپاری بخشی را اتخاذ میکنیم که در آن وظیفه به طور دلخواه به دو زیروظیفه70 تقسیم میگردد و بهطور مشترک در سرور MEC و دستگاه همراه پردازش میشود. در برش زمانی ، وظیفه دستگاه همراه با تاپل نشان داده میشود که در آن ، اندازه داده ورودی امین وظیفه امین دستگاه همراه را نشان میدهد و اندازه وظیفه بر اساس توزیع پواسون است. و به ترتیب حداکثر تأخیر قابل تحمل و تعداد چرخههای CPU مورد نیاز برای پردازش هر بیت از را نشان میدهند. علاوه بر این، دستگاههای همراه به یک باتری قابل شارژ مجهز هستند. در برش زمانی ، سطح باتری دستگاه همراه بهصورت مشخص میشود که در آن و به ترتیب حداکثر و حداقل سطح باتری دستگاه هستند. بنابراین برای جلوگیری از اتمام باتری، فرض بر این است که باتری دستگاه همراه با استفاده از فناوری EH در برشهای زمانی مختلف شارژ میشود. ما با توجه به [47] فرض میکنیم که محاسبات محلی و EH میتوانند به طور همزمان انجام شوند. همچنین از آنجایی که EH
و برونسپاری در باند فرکانسی یکسان انجام میشوند، طبق [48] و
[49] هر دستگاه از یک مدار تقسیم زمان- مولتیپلکس 71(TDD) برای جداسازی EH و برونسپاری و جلوگیری از تداخل استفاده میکند؛ پس برونسپاری و EH از قانون برداشت و سپس برونسپاری72 تبعیت میکند.
به طور خاص در طرح برونسپاری پیشنهادی، دستگاههای همراه برای دسترسی به منابع محاسباتی سرور MEC با یکدیگر رقابت میکنند و هر دستگاه همراه سیاست برونسپاری را برای هر وظیفه به طور مستقل یاد میگیرد. در هر برش زمانی، هر دستگاه همراه بر اساس مشاهدات محلی، سه تصمیم میگیرد: 1) نسبت برونسپاری: نسبتی از وظیفه که به سرور MEC بارگذاری میشود، 2) مدت زمان برداشت انرژی: نسبتی از برش زمانی که دستگاه همراه به برداشت انرژی اختصاص میدهد و 3) توان انتقال: مقدار توان انتقال دستگاه همراه برای برونسپاری وظیفه که با توجه به سطح باتری و حداکثر تأخیر قابل تحمل وظیفه تعیین میشود.
3-2 مدل برداشت انرژی
همان طور که قبلاً ذکر شد، دستگاههای همراه به قابلیت EH مجهز هستند و میتوانند سیگنالهای RF ارسالشده توسط AP را جمعآوری کنند. سپس انرژی ذخیرهشده در باتری دستگاهها برای انجام پردازش محلی و برونسپاری وظایف به سرور MEC استفاده میشود. در طرح برونسپاری پیشنهادی در ابتدای برش زمانی ، دستگاه همراه برای شارژ میشود که نشاندهنده مدت زمان هر برش زمانی و نسبت برش زمانی اختصاصدادهشده به EH است. بنابراین مشابه [36]، انرژی برداشتشده توسط دستگاه همراه در برش زمانی ، ، با استفاده از معادله زیر محاسبه میشود [36]
(1)
در (1)، و به ترتیب کارایی EH و توان انتقال AP هستند. بهره کانال بین دستگاه همراه و AP در برش زمانی است و بر اساس مدل کانال محوشدگی رایلی73 [48] است که با استفاده از محاسبه میشود که در آن یک متغیر تصادفی نمایی مستقل با میانگین واحد را نشان میدهد و میانگین بهره کانال [49] با استفاده از معادله زیر بهدست میآید
(2)
در (2) ، و به ترتیب فرکانس حامل، بهره آنتن و توان افت مسیر74 را نشان میدهند. فاصله دستگاه همراه تا AP در برش زمانی است که همانند [50] با استفاده از زنجیره مارکوف مدل شده است. باتری باقیمانده دستگاه همراه در پایان برش زمانی با استفاده از (3) محاسبه میشود
(3)
[1] این مقاله در تاریخ 12 مهر ماه 1402 دریافت و در تاریخ 21 بهمن ماه 1402 بازنگری شد.
آتوسا دقایقی، دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه قم، قم، ایران، (email: atousa.daghayeghi@stu.qom.ac.ir).
محسن نیکرأی (نویسنده مسئول)، دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه قم، قم، ایران، (email: m.nickray@qom.ac.ir).
[2] . Quality of Service
[3] . Mobile Devices
[4] . Computation Offloading
[5] . Mobile Edge Computing
[6] . Wireless Power Transfer
[7] . Energy Harvesting
[8] . Access Point
[9] . Radio Frequency
[10] . Self-Sustainability
[11] . Centralized
[12] . Decentralized
[13] . Channel State Information
[14] . Single Point of Failure
[15] . Multi-Agent Deep Reinforcement Learning
[16] . Independent Learner
[17] . Return
[18] . State Transition
[19] . Non-Stationary
[20] . Centralized Training Decentralized Execution
[21] . Multi-Agent Deep Deterministic Policy Gradient
[22] . Deep Deterministic Policy Gradient
[23] . Actor-Critic
[24] . Overestimation Bias
[25] . Replay Buffer
[26] . Partial
[27] . Non-Linear Programming
[28] . Target Policy Smoothing
[29] . Prioritized Experience Replay
[30] . Data Efficiency
[31] . Task Failure Rate
[32] . Machine Learning
[33] . Meta-Heuristics
[34] . Fog-Enabled IoT
[35] . Genetic Algorithm
[36] . Particle Swarm Optimization
[37] . Simulated Annealing
[38] . Time Division Multiplexing Access
[39] . Non-Convex
[40] . Successive Convex Approximation
[41] . Markov Decision Process
[42] . Value Iteration Algorithm
[43] . Transition Probability
[44] . Curse of Dimensionality
[45] . Nash Equilibrium
[46] . Fixed-Point
[47] . Greedy Heuristic Better Response Update
[48] . Distributed Deep Learning-Based Task Offloading
[49] . Deep Reinfircement Learning
[50] . Value-Based
[51] . Deep Q-Network
[52] . Clipped Surrogate Function
[53] . Non-Orthogonal Multiple Access
[54] . Deep Reinforcement Learning-Based Online Sample-Improving
[55] . Double Dueling Deterministic Policy Gradient
[56] . Orthogonal Multiple Access
[57] . Twin-Delayed Deep Deterministic Policy Gradient
[58] . The Alternating Direction Method of Multipliers
[59] . Stochastic Weight Averaging
[60] . Internet of Vehicles
[61] . Temporal Attentional Deterministic Policy Gradient
[62] . Temporal Feature Extraction Network
[63] . Rank-Based Priority Experience Replay
[64] . Parameter Sharing
[65] . Unmanned Aerial Vehicle
[66] . Single-Cell
[67] . Broadcast
[68] . Time Slot
[69] . Quasi-Static
[70] . Subtask
[71] . Time-Division-Multiplexing
[72] . Harvest-then-Offload Rule
[73] . Rayleigh Fading Channel Model
[74] . Path Loss Exponent
شکل 1: شماتیک سیستم MEC با دستگاههای همراه مختلف مجهز به قابلیت EH.
که در آن مقدار انرژی برداشتشده در برش زمانی و مقدار باتری دستگاه همراه در ابتدای برش زمانی را نشان میدهند. مقدار کل انرژی مصرفشده در برش زمانی توسط دستگاه همراه برای پردازش وظایف بهصورت محلی یا انتقال آنها به سرور MEC است و با استفاده از (13) محاسبه میشود. اگر باتری دستگاه همراه کافی نباشد، یعنی ، وظیفه فعلی حذف خواهد شد.
3-3 مدل ارتباطات
در این کار، مشابه با [25] و [41] فرض میکنیم AP منابع ارتباطات و منابع محاسباتی سرور MEC را به هر دستگاه همراه متناسب با بار کاری وظیفه آن اختصاص میدهد. از این رو نسبت منابع ارتباطات و محاسبات تخصیصیافته به زیروظیفه بهصورت زیر محاسبه میشود
(4)
که در آن کل اندازه داده ورودی ارسالشده (بارکاری)
به AP را نشان میدهد.
در صورتی که و توان انتقال تعیینشده توسط دستگاه همراه برای ارسال وظیفه به AP و حداکثر توان انتقال آن را نشان دهند، نرخ انتقال uplink دستگاه همراه در برش زمانی بهصورت زیر محاسبه میشود [43]
(5)
که در آن منابع ارتباطات در دسترس یعنی پهنای باند AP در برش زمانی و توان نویز است.
3-4 مدل محاسبات
در این بخش، تأخیر و مصرف انرژی محاسبات محلی و برونسپاری محاسبات مورد بحث قرار گرفته است.
1) محاسبه محلی: همان طور که قبلاً اشاره کردیم، وظایف را میتوان به طور دلخواه به دو زیروظیفه برای اجرای محلی و اجرای راه دور تقسیم کرد. در برش زمانی ، دستگاه همراه نسبتی از وظیفه، ،
را تعیین میکند تا به سرور MEC برونسپاری شود که در آن و نسبت باقیمانده از وظیفه یعنی بهصورت محلی پردازش میشود. تأخیر اجرای محلی در دستگاه همراه بهصورت زیر محاسبه میشود
(6)
در (6) قابلیت محاسباتی دستگاه همراه را برای پردازش وظایف نشان میدهد. مطابق با [41] مصرف انرژی پردازش محلی برای دستگاه همراه با استفاده از (7) مشخص میشود
(7)
2) برونسپاری محاسبات: زمان لازم برای تکمیل پردازش وظیفه در مورد برونسپاری شامل سه بخش است: 1) تأخیر انتقال uplink، 2) تأخیر اجرای زیروظیفه در سرور MEC و 3) دانلود نتیجه محاسباتی وظیفه. مطابق با [40] و [41] از آنجا که مقدار نتیجه محاسبات بسیار کوچکتر از دادههای وظیفه است، تأخیر انتقال و مصرف انرژی ناشی از دانلود نتیجه نادیده گرفته میشود. شایان ذکر است که ما فرض کردهایم سرور MEC از طریق سیم مسی یا فیبر نوری به AP متصل است؛ بنابراین از تأخیر انتقال بین سرور MEC و AP صرف نظر میشود. تأخیر انتقال برای ارسال زیروظیفه دستگاه همراه به AP، ، با استفاده از معادله زیر محاسبه میشود
(8)
علاوه بر این، انرژی مصرفشده دستگاه همراه برای برونسپاری زیروظیفهاش به AP در برش زمانی ، ، برابر است با
(9)
ما را بهصورت منابع محاسباتی در دسترس سرور MEC در برش زمانی نشان میدهیم. بنابراین زمان لازم برای پردازش زیروظیفه وظیفه در سرور MEC، ، بهصورت زیر مشخص میشود
(10)
که در آن با استفاده از (4) بهدست میآید و منبع محاسباتی تخصیصیافته توسط سرور MEC به دستگاه همراه را نشان میدهد. نهایتاً تأخیر تجربهشده کل برونسپاری زیروظیفه وظیفه به سرور MEC با استفاده از معادله زیر محاسبه میشود
(11)
3) هزینه کل سیستم: در برش زمانی ، دستگاه همراه وظیفه محاسباتی را به دو زیروظیفه تقسیم میکند و زیروظایف را میتوان بهصورت موازی در سرور MEC و دستگاه همراه پردازش کرد. همان طور که ذکر شد، در این مقاله مشابه [36] و [48]، فرض شده که دستگاههای همراه میتوانند اجرای محلی و EH را به طور همزمان انجام دهند؛ در حالی که عملیات برونسپاری پس از تکمیل فرایند EH انجام میشود. بنابراین کل تأخیر پردازش اعمالشده برای وظیفه با استفاده از (12) تعریف میشود
(12)
انرژی کل مصرفشده توسط دستگاه همراه برابر است با مجموع انرژی مصرفشده در اجرای محلی و انرژی مصرفشده برای انتقال زیروظیفه وظیفه به سرور MEC که مطابق زیر به دست میآید
(13)
برای ارزیابی سیاست برونسپاری دستگاه همراه ، هزینه محاسباتی هر دستگاه در برش زمانی از لحاظ مجموع وزندار مصرف انرژی و تأخیر کل پردازش وظیفه با استفاده از (14) محاسبه میشود
(14)
که در آن پارامتر وزن است و با توجه به اولویتهای دستگاه همراه در مورد تأخیر پردازش و مصرف انرژی تعیین میشود.
4) جریمه شکست وظیفه: زمانی که تأخیر پردازش وظیفه از حداکثر تأخیر قابل تحمل آن بیشتر شود یا زمانی که سطح باتری دستگاه همراه برای تکمیل وظیفه کافی نیست، جریمهای متناسب با میزان تخطی، تعیین میشود. مقدار جریمه شکست اجرای وظیفه به دلیل ناکافیبودن سطح باتری دستگاه همراه و برآوردهنشدن حداکثر تأخیر قابل تحمل وظیفه به ترتیب با استفاده از (15) و (16) بیان میشود
(15)
(16)
3-5 فرمولاسیون مسئله
آخرین برش زمانی سپریشده در سیستم MEC با و تعداد وظایف پردازششده تا زمان با نشان داده میشود. در این کار، هدف ما کاهش هزینه محاسباتی بلندمدت تمام وظایف با بهینهسازی مشترک سیاست برونسپاری محاسبات و تخصیص منابع برای هر دستگاه همراه است که در آن، دستگاه همراه استراتژی نسبت برونسپاری، ، استراتژی مدت زمان EH، ، و استراتژی توان انتقال، را تعیین میکند. نهایتاً مسئله بهصورت زیر فرموله میشود
(17)
(18)
(19)
(20)
(21)
(22)
(23)
محدودیتهای (18) و (19) مشخص میکنند که نسبت برونسپاری و مدت زمان برداشت انرژی بین صفر و یک متغیر است. محدودیت (20) بیان میکند که توان انتقال دستگاه همراه نمیتواند از حداکثر توان آن بیشتر باشد. محدودیت (21) تضمین میکند که کل منابع تخصیصیافته به دستگاههای همراه نمیتواند بیشتر از منابع موجود سرور MEC باشد. محدودیت (22) الزام میکند که محدودیت مربوط به حداکثر تأخیر قابل تحمل وظیفه نقض نشود. محدودیت (23) تضمین میکند که مصرف انرژی دستگاه همراه برای انجام وظیفه کمتر از باتری باقیمانده آن باشد. مسئله بهینهسازی فرمولهشده در (17) یک مسئله NLP با ماهیت NP-hard است؛ بنابراین پیچیدگی زمانی با افزایش دستگاههای همراه افزایش مییابد. علاوه بر این، محیط بسیار پویای سیستم MEC استفاده از رویکردهای بهینهسازی سنتی را برای یافتن راهحلهای بهینه بلادرنگ چالشبرانگیز میکند. از سوی دیگر، استفاده از تکنیکهای متمرکز برای حل مسئله فوق به دلیل نیاز به سرور مرکزی برای جمعآوری تمام اطلاعات محیط MEC و سپس توزیع تصمیمات به دستگاههای همراه منجر به افزایش سربار سیستم و تأخیر اضافی میشود که ممکن است برای برنامههای حساس به تأخیر مناسب نباشد. بنابراین در بخش بعدی روشی مبتنی بر MADRL برای حل مسئله (17) پیشنهاد میکنیم.
4- طرح برونسپاری محاسبات غیرمتمرکز
مبتنی بر MADRL
برای یادگیری سیاستهای برونسپاری و تخصیص منبع غیرمتمرکز در محیط پویای MEC با هدف حداقلسازی هزینه محاسباتی بلندمدت سیستم، الگوریتم MADDPG که مبتنی بر چارچوب CTDE است به کار گرفته شده است. ما به طور خاص برای بهبود عملکرد سیاست آموختهشده، یک ورژن بهبودیافته الگوریتم MADDPG را پیشنهاد میدهیم. در ادامه، عناصر کلیدی DRL شرح داده خواهند شد.
4-1 عناصر کلیدی DRL
هر دستگاه همراه در طرح برونسپاری پیشنهادی به عنوان یک عامل در نظر گرفته میشود. عامل در هر برش زمانی پس از تعامل با محیط سیستم MEC، اطلاعات محلی را مشاهده میکند و پس از آن اقدام را بر اساس مشاهدات محلی از طریق سیاست آموختهشده انجام میدهد. پس از انجام اقدام ، عامل پاداش فوری را از محیط دریافت مینماید. هدف عامل یافتن یک سیاست بهینه است که پاداش بلندمدت را در یک اپیزود تصمیمگیری به حداکثر میرساند. در ادامه، فضاهای حالت1 و اقدام2 و همچنین تابع پاداش3 تعریف میشوند.
فضای حالت: در برش زمانی ، فضای حالت عامل شامل میزان باتری دستگاه همراه است که با استفاده از (3) به دست میآید. سایر پارامترهای فضای حالت عبارت هستند از منابع محاسباتی در دسترس سرور MEC، ، بهره کانال بین دستگاه همراه و AP، ، نیازمندیهای وظیفه شامل حداکثر تأخیر قابل تحمل وظیفه، ، اندازه داده وظیفه، ، و تعداد چرخههای CPU مورد نیاز برای پردازش هر بیت وظیفه، . بنابراین فضای حالت عامل بهصورت نشان داده میشود.
در نتیجه در برش زمانی ، حالت مشترک همه عاملها بهصورت تعریف میشود.
فضای اقدام: در برش زمانی ، عامل استراتژی نسبت برونسپاری وظیفه ، استراتژی مدت زمان EH، ، و استراتژی توان انتقال برای ارسالکردن وظیفه به AP، ، را تعیین میکند و در نتیجه اقدام عامل بهصورت بیان میگردد. اقدام مشترک همه عاملها بهصورت نشان داده میشود.
پاداش: هدف عامل یافتن سیاست بهینه برونسپاری محاسبات و تخصیص منبع غیرمتمرکز با بالاترین پاداش بلندمدت است که بهصورت زیر تعریف میشود
(24)
که پاداش فوری عامل است و اهمیت هر پاداش فوری بر اساس فاکتور تخفیف4 تعیین میشود. پاداش فوری عامل در برش زمانی ، مطابق با معکوس هزینه محاسباتی و جریمههای دریافتی در نتیجه نقض محدودیتهای انرژی و تأخیر به دست میآید
(25)
در (25)، هزینه محاسباتی عامل از لحاظ مصرف انرژی و تأخیر پردازش وظیفه است و با استفاده از (14) به دست میآید.
و مقادیر جریمهای هستند که عامل در صورت نقض محدودیتهای انرژی و حداکثر تأخیر قابل تحمل وظیفه دریافت میکند و به ترتیب با استفاده از (15) و (16) محاسبه میشود.
4-2 الگوریتم پیشنهادی
در این کار، شبکه MEC به عنوان یک محیط RL در نظر گرفته شده است. هر دستگاه همراه به عنوان عاملی در نظر گرفته میشود که الگوریتم پیشنهادی را برای تصمیمگیری مشترک برونسپاری محاسبات و تخصیص منبع غیرمتمرکز اجرا میکند؛ بنابراین محیط به عنوان یک سیستم چندعامله در نظر گرفته میشود. یک رویکرد برای پیادهسازی سیستمهای MADRL استفاده از چارچوب IL است که در آن هر عامل به طور مستقل سیاست مشترک برونسپاری و تخصیص منبع غیرمتمرکز را یاد میگیرد. با این حال، این چارچوب با مسائلی مانند عدم ثبات، قابلیت مشاهده جزئی و واریانس بالا روبهرو است. بنابراین در این چارچوب با افزایش تعداد عاملها، عملکرد سیستم کاهش یافته و همگرایی الگوریتم را نمیتوان تضمین کرد [14] و [17]. برای غلبه بر معایب فوق، رویکرد دیگر استفاده از چارچوب CTDE است. MADDPG [17] توسعه الگوریتم DDPG بر اساس چارچوب CTDE است. DDPG [18] شامل دو شبکه بازیگر و منتقد است که در آن شبکه بازیگر از روش گرادیان سیاست قطعی 5(DPG) [51] برای تعیین اقدام مناسب بر اساس حالت مشاهدهشده استفاده میکند؛ در حالی که شبکه منتقد با استفاده از روشهای مبتنی بر ارزش، ارزش سیاست آموختهشده بازیگر را تقریب میزند. هم بازیگر و هم منتقد دارای دو زیرشبکه با ساختار یکسان هستند: یعنی بازیگر آنلاین و بازیگر هدف و منتقد آنلاین و منتقد
هدف. تفاوت اصلی MADDPG و DDPG ورودی شبکه منتقد است. MADDPG از یک شبکه منتقد متمرکز استفاده میکند که در طول آموزش، اطلاعات بیشتری در مورد سیاستهای سایر عاملها دریافت میکند. با این حال در زمان اجرا، بازیگر تنها بر اساس مشاهدات محلی تصمیم میگیرد. این تغییر، محیط را از دیدگاه هر عامل در سیستمهای چندعاملی ثابت میکند.
در روشهای مبتنی بر بازیگر- منتقد، منتقد کیفیت سیاست آموختهشده بازیگر را با تخمین ارزش آن ارزیابی میکند و بازیگر، سیاست را بر اساس تخمین ارزش منتقد بهروزرسانی مینماید. بنابراین در این روشها برای این که بازیگر بتواند یک سیاست بهتر را یاد بگیرد، تخمین تابع ارزش در روشی مناسب ضروری است. با این حال، مسئله تخمین بیش از حد ارزش میتواند در روشهای بازیگر- منتقد به دلیل خطاهای تقریب تابع رخ دهد که منجر به بهروزرسانیهای غیربهینه سیاست و رفتار واگرا میشود [19] و [52]. برای پرداختن به مسئله بایاس تخمین بیش از حد و اصلاح تخمین ارزش شبکه منتقد، عملکرد همگرایی الگوریتم MADDPG را با بهکارگیری clipped double Q-learning، بهروزرسانیهای با تأخیر سیاست و هموارسازی سیاست هدف بهبود میدهیم. در ادامه جزئیات الگوریتم پیشنهادی توضیح داده خواهد شد.
ساختار طرح برونسپاری غیرمتمرکز مبتنی بر الگوریتم پیشنهادی در شکل 2 نشان داده شده است. در الگوریتم پیشنهادی ما هر عامل دارای
[1] . State Space
[2] . Action Space
[3] . Reward Function
[4] . Discount Factor
[5] . Deterministic Policy Gradient
شکل 2: ساختار طرح برونسپاری مبتنی بر الگوریتم پیشنهادی.
یک تابع بازیگر (که به عنوان سیاست نیز شناخته میشود) بهصورت است. بنابراین مجموعه سیاست همه عاملها و مجموعه پارامترهای مربوطه سیاستها را نشان میدهد. همچنین هر عامل دو تابع منتقد متمرکز بهصورت دارد که در آن است. هر عامل یک کپی از شبکههای بازیگر و منتقد متمرکز را برای بهبود پایداری یادگیری نگه میدارد؛ یعنی شبکههای بازیگر هدف و منتقد متمرکز هدف که به ترتیب بهصورت و نشان داده میشوند. در طول فرایند آموزش، mini-batch ی از تجربیات با اندازه با استفاده از نمونهبرداری اولویتبندیشده که در بخش 4-3 شرح داده شده است، انتخاب میگردد که برای بهروزرسانی پارامترهای شبکههای منتقد متمرکز عامل با حداقلسازی loss استفاده میشود
(26)
که در آن ارزش هدف1 را نشان میدهد. ما بهمنظور کاهش مسئله تخمین بایاس بیش از حد از clipped double Q-learning [19] برای محاسبه ارزش هدف استفاده میکنیم که در آن، حداقل ارزش بین دو شبکه منتقد در نظر گرفته میشود. از طرفی در صورتی که شبکه منتقد متمرکز، ارزش برخی اقدامات را به نادرستی بیش از حد تخمین بزند، شبکه بازیگر بهسرعت از آن بهرهبرداری میکند و سپس رفتاری نادرست خواهد داشت. ما برای حل این مسئله از هموارسازی سیاست هدف [19] استفاده میکنیم که بهعنوان یک تنظیمکننده2 برای الگوریتم عمل میکند و با اضافهکردن نویز clipشده به اقدامات تعیینشده توسط سیاست هدف، بهرهبرداری از خطاهای تابع را برای سیاست سختتر میکند. بنابراین برای محاسبه ارزش هدف از معادله زیر استفاده میشود
(27)
(28)
که نویز clipشده است. در MADDPG نویز به اقدام خروجی نهایی هنگام تعامل با محیط برای اکتشاف اضافه میگردد؛ در حالی که در الگوریتم پیشنهادی، نویز به اقدام ارائهشده توسط بازیگر هنگام محاسبه هدف اضافه میشود، برای آن که ارزش هدف دقیقتر شود.
هدف عامل یافتن سیاست بهینه با حداکثر پاداش مورد انتظار درازمدت یعنی است. هر عامل میتواند به طور مستقل با نگاشت قطعی مشاهدات محلی خود به اقدامات تصمیم بگیرد؛ یعنی . برای کاهش هزینههای محاسباتی، شبکه بازیگر با استفاده از یکی از شبکههای منتقد متمرکز یعنی بهینه میشود. ممکن است در هر مرحله بهروزرسانی، خطاهای کوچکی ایجاد گردد و زمانی که شبکه بارها بهروزرسانی میشود، انباشتگی آن میتواند منجر به عملکرد ضعیف شود. بنابراین برای کاهش خطا در هر بهروزرسانی و بهبود عملکرد، شبکههای سیاست و هدف با فرکانس کمتری نسبت به شبکه منتقد بهروز میشوند و آنها را پس از تعداد ثابتی بهروزرسانی برای منتقد بهروز میکنیم. بهروزرسانیهای سیاست که با فرکانس کمتری رخ میدهند، از یک تخمین ارزش با واریانس کمتر استفاده میکنند و در اصل، منجر به بهروزرسانی سیاست با کیفیت بالاتر میشوند. بنابراین سیاست هر عامل با استفاده از گرادیان تابع هدف نسبت به پارامترهای آن با اعمال قانون زنجیرهای بهصورت زیر بهروز میشود
(29)
در (29) تابع منتقد متمرکز است که حالت و اقدام مشترک همه عاملها را به عنوان ورودی دریافت میکند و ارزش اقدام سیاست عامل را تقریب میزند.
4-3 بازپخش تجربه اولویتبندیشده
در نسخه استاندارد MADDPG [17]، مکانیسم بازپخش تجربه یکنواخت استفاده شده است. بازپخش تجربه مکانیزمی است که امکان ذخیره تجربیات گذشته در یک بافر بازپخش و استفاده مجدد از آنها
را در طول آموزش میدهد. بازپخش تصادفی تجارب از بافر تجربه، همبستگیهای زمانی بین تجربههای متوالی را کاهش میدهد و نمونههای مستقل با توزیع یکسان 3(i.i.d.) را که برای آموزش DNN مورد نیاز است، فراهم میکند [53]. با این حال در بازپخش تجربه یکنواخت، تجربیات با اهمیت یکسان در نظر گرفته میشوند؛ در حالی که عامل میتواند از برخی تجربیات نسبت به بقیه بیشتر بیاموزد. به عنوان مثال، تجارب مربوط به تلاشهای موفق و تجربیات مربوط به عملکرد نادرست عامل، ارزش بیشتری نسبت به سایر تجربیات دارند. تجارب موفق عامل را وادار میکند تا در موقعیتهای مشابه، اقدامات مشابهی انجام دهد. از سوی دیگر، تجربیات ناموفق به عامل امکان میدهد تا به سرعت عواقب منفی رفتارهای اشتباه در موقعیتهای مربوط را درک و از انجام مجدد اقدامات اشتباه در این شرایط اجتناب کند [54]. از این رو ما مکانیسم PER [55] را در MADDPG به کار میگیریم که در آن، تجربیات باارزشتر شانس بیشتری برای بازپخش برای آموزش عامل دارند. این امر میتواند به فرایند آموزش عامل سرعت بخشد و منجر به پایداری بیشتر آن شود. به طور خاص، تجربیات بهدستآمده از تعامل عامل با محیط بهصورت تاپل در بافر بازپخش ذخیره میگردند و یک مقدار اولویت به آنها اختصاص داده میشود. مقدار اولویت هر تجربه متناسب با خطای TD آن در نظر گرفته میشود؛ زیرا تجارب با خطای TD منفی بزرگ مربوط به عملکرد ناموفق عامل و تجارب با خطای TD مثبت بزرگ مربوط به عملکرد موفق هستند [54]. در طول آموزش، یک mini-batch از تجارب از بافر بازپخش نمونهبرداری میشود. بدین منظور از اولویتبندی تصادفی استفاده شده که به تجربیاتی با مقدار اولویت کم نیز امکان میدهد تا شانس انتخابشدن داشته باشند [55]. به این ترتیب، تنوع در تجارب بازپخششده افزایش مییابد و از بیشبرازش4 عامل به نمونههای دارای مقدار اولویت بالا جلوگیری میشود. احتمال بازپخش هر تجربه در mini-batch، ، متناسب با مقدار اولویت آن محاسبه میشود
(30)
در (30) پارامتر میزان اولویتبندی را کنترل میکند. مقدار اولویت تجربه را مشخص میکند و بهصورت محاسبه میشود. نشاندهنده قدرمطلق خطای TD تجربه است و ثابتی با مقدار مثبت و کوچک است که از صفرشدن مقدار اولویت هر تجربه جلوگیری میکند.
4-4 فرایند آموزش
همان طور که گفته شد، هر دستگاه همراه به عنوان یک عامل در نظر گرفته میشود؛ بنابراین عامل در شبکه MEC وجود دارد و هر عامل به طور مستقل تصمیمات مشترک برونسپاری و تخصیص منابع را با استفاده از سیاست آموختهشده اتخاذ میکند. شکل 3 جزئیات فرایند آموزش الگوریتم پیشنهادی را ارائه میدهد. در ابتدا شبکه بازیگر و شبکههای منتقد متمرکز به ترتیب با پارامترهای تصادفی
و مقداردهی اولیه میشوند. سپس شبکه بازیگر هدف و شبکههای منتقد هدف با استفاده از پارامترهای شبکه آنلاین متناظر خود مقداردهی اولیه میشوند. همچنین بافر PER، ، با مقدار تهی مقداردهی اولیه میشود. فرایند آموزش تا تعداد اپیزودهای از پیش تعیین شده، ادامه مییابد و هر اپیزود زمانی خاتمه مییابد که گام زمانی بزرگتر از آستانه از پیش تعیینشده، باشد. در هر گام زمانی، عامل ، مشاهدات محلی خود را با تعامل با محیط به دست میآورد و با واردکردن مشاهدات محلی به شبکه بازیگر، اقدام به دست میآید. برای بهبود اکتشاف الگوریتم از یک فرایند 5OU [56] استفاده میشود که یک نویز همبسته زمانی6، ، به سیاست بازیگر اضافه میکند
(31)
پس از آن تمامی عاملها اقدامات تعیینشده را اجرا مینمایند. به این ترتیب دستگاههای همراه برای نسبت تعیینشده برش زمانی با استفاده
از مدل EH شارژ میشوند، نسبت وظیفه تعیینشده با توان انتقال مشخصشده به سرور MEC ارسال میگردد و قسمت باقیمانده از وظیفه بهصورت محلی پردازش میشود. پس از انجامدادن اقدام، عامل یک پاداش فوری را بر اساس (25) دریافت میکند و حالت مشترک بعدی محیط یعنی مشاهده میشود. پس از آن عاملها تجربه حاصل از تعامل با محیط را در بافر PER ذخیره میکنند. در هر گام زمانی ، عامل یک mini-batch از دادهها را با اندازه با استفاده از نمونهبرداری اولویتبندیشده از بافر PER انتخاب میکند و شبکههای منتقد آنلاین را آموزش میدهد. پس از بهروزرسانی شبکههای منتقد به تعداد مشخص ، پارامترهای شبکه بازیگر بهروز میشوند. نهایتاً پارامترهای بازیگر هدف و منتقدان هدف با استفاده از بهروزرسانی نرم بهروز میشوند.
5- ارزیابی عملکرد
در این بخش، عملکرد طرح برونسپاری پیشنهادی ارزیابی میشود. ما محیط شبکه را شبیهسازی کردیم و الگوریتم پیشنهادی را با استفاده
از کتابخانه 2 TensorFlow توسعه دادیم. در ادامه، ابتدا تنظیمات شبیهسازی توصیف میشوند و سپس عملکرد با طرحهای برونسپاری مختلف از نظر هزینه محاسباتی بلندمدت، مصرف انرژی، تأخیر پردازش و نرخ شکست وظیفه مقایسه میگردد.
[1] . Target Value
[2] . Regularizer
[3] . Independent and Identically Distributed
[4] . Overfitting
[5] . Ornstein-Uhlenbeck
[6] . Temporally-Correlated
1: مقداردهی اولیه حداکثر گام زمانی در هر اپیزود ، حداکثر اپیزود ، فاکتور تخفیف ، ضریب بهروزرسانی نرم ، اندازه mini-batch ، فرکانس بهروزرسانی سیاست . 2: مقداردهی اولیه شبکه بازیگر آنلاین و شبکههای منتقد متمرکز آنلاین با استفاده از پارامترهای تصادفی و برای و . 3: مقداردهی اولیه شبکه بازیگر هدف و شبکههای منتقد متمرکز هدف به ترتیب با و . 4: مقداردهی بافر PER، . 5: آغاز حلقه اول: برای تا انجام دهید: 6: مشاهده حالت اولیه توسط هر دستگاه همراه و دستیابی به حالت مشترک اولیه همه عاملها . 7: آغاز حلقه دوم: برای هر گام زمانی تا انجام دهید: 8: انتخاب اقدام بر اساس بازیگر آنلاین برای هر عامل و افزودن نویز اکتشاف OU به آن. 9: اجرای اقدامات همه عاملها . 10: دریافت پاداش فوری بر اساس (25) و حالت بعدی . 11: ذخیره تاپل تجربه در با بالاترین اولویت. 12: . 13: آغاز حلقه سوم: برای عامل تا انجام دهید: 14: آغاز حلقه چهارم: برای تا انجام دهید: 15: انتخاب تجربه بر اساس احتمال انتخاب آن در (30). 16: محاسبه خطای TD، و بهروزرسانی اولویت تجربه . 17: محاسبه ارزش هدف با استفاده از (27). 18: پایان حلقه چهارم. 19: بهروزرسانی شبکههای منتقد با حداقلسازی تابع loss در (26). 20: آغاز شرط اول: اگر است: 21: بهروزرسانی شبکه بازیگر از طریق گرادیان سیاست قطعی با استفاده از (29). 22: بهروزرسانی پارامترهای شبکه بازیگر و شبکههای منتقد با استفاده از بهروزرسانی نرم: و . 23: پایان شرط اول. 24: پایان حلقه سوم. 25: پایان حلقه دوم. 26: پایان حلقه اول. |
شکل 3: فرایند آموزش الگوریتم برونسپاری پیشنهادی.
جدول 2: پارامترهای شبیهسازی.
پارامتر | مقدار |
اندازه داده ورودی وظیفه، | توزیع پواسون، [7-1] Mbps [40] |
تعداد مورد نیاز چرخههای CPU برای پردازش هر بیت وظیفه، | توزیع یکنواخت، |
حداکثر تأخیر قابل تحمل وظیفه، | توزیع یکنواخت، ms [15- 5] |
حداکثر ظرفیت باتری دستگاه همراه، | mJ 500 |
حداکثر توان انتقال هر دستگاه همراه، | dBm 20 [40] |
پهنای باند کانال، و بهره آنتن، | MHz 1 و 11/4 [35] |
توان نویز، | dBm/Hz 175- [35] |
فرکانس حامل، و توان افت مسیر، | 915 و 8/2 [36] |
فاکتور وزن در تابع هدف | 5/0 |
5-1 تنظیمات شبیهسازی
ما یک سناریوی زمان گسسته را در نظر خواهیم گرفت که در آن زمان به بخشهای مساوی تقسیم گردیده و مدت زمان هر برش زمانی است. به طور پیشفرض، محیط شبکه MEC از یک AP مجهز به سرور MEC با دستگاه همراه تشکیل شده است. پارامترهای AP و گیرنده انرژی در هر دستگاه همراه به ترتیب مشابه Powercast و Powerharvester 2110P [57] در نظر گرفته شدهاند که در آن، توان انتقال برای فرستنده انرژی در AP، وات و کارایی EH، است. موقعیت دستگاههای همراه بهصورت پویا در برشهای زمانی مختلف متفاوت است و فاصله هر دستگاه همراه از AP، ، مشابه [50] بهصورت زنجیره مارکوف
با مدلسازی میشود. فرض میکنیم دستگاههای همراه از نظر قابلیتهای محاسباتی، سطح باتری باقیمانده، اندازه دادههای وظیفه، پیچیدگی محاسباتی وظیفه و حداکثر تأخیر قابل تحمل ناهمگن هستند. ظرفیت محاسباتی محلی هر دستگاه همراه، ، به طور تصادفی از مجموعه انتخاب شده است [41]. علاوه بر این، منابع محاسباتی در دسترس سرور MEC در هر برش زمان، بهصورت زنجیره مارکوف با مدل شده [41] که میباشد. سایر پارامترهای شبیهسازی در جدول 2 آمدهاند.
تنظیمات فرایند آموزش: برای توسعه الگوریتم پیشنهادی، شبکههای بازیگر و منتقد متمرکز در هر عامل دستگاه همراه یک DNN با 4 لایه کاملاً متصل 1(FC) یک لایه ورودی، دو لایه پنهان2 و یک لایه خروجی هستند که در آن لایههای پنهان به ترتیب شامل 256 و 128
شکل 4: پاداش تجمیعی بهدستآمده نسبت به نرخ یادگیری منتقد.
جدول 3: خلاصهای از پارامترهای آموزش.
پارامتر | مقدار |
تعداد گام زمانی در هر اپیزود، | 100 |
تعداد اپیزودهای آموزش، | 1500 |
نرخ بهروزرسانی هدف، | 001/0 |
نرخ یادگیری شبکه بازیگر، | 0001/0 |
نرخ یادگیری شبکههای منتقد، | 001/0 |
اندازه mini-batch، | 64 |
اندازه بافر PER، | 250000 |
فاکتور تخفیف، | 99/0 |
فرکانس بهروزرسانی بازیگر، | 2 |
نورون هستند. خروجی یک بردار با اندازه 3 است که آیتمهای آن به ترتیب نسبت برونسپاری وظیفه ، توان انتقال و نسبت برش زمانی برای برداشت انرژی را مشخص میکنند. هر لایه پنهان تابع فعالسازی3 ReLU را اعمال میکند. علاوه بر این برای محدودکردن اقدامات در محدوده مورد نظر، تابع فعالسازی سیگموئید به لایه خروجی شبکه بازیگر اعمال میشود. بهینهساز 4Adam [58] برای بهینهسازی تابع loss استفاده گردیده که در آن نرخ یادگیری برای شبکههای منتقد و بازیگر به ترتیب به 001/0 و 0001/0 مقداردهی شده است. سایر پارامترهای فرایند آموزش در جدول 3 لیست شدهاند.
برای ارزیابی عملکرد الگوریتم پیشنهادی، آن را با سه طرح برونسپاری موجود مقایسه میکنیم. این طرحها عبارتند از
• طرح برونسپاری مبتنی بر DQN [31]: عامل DQN برای حل مسئله برونسپاری استفاده شده است. برای مدیریت فضای اقدام پیوسته، فضای اقدام گسسته5 میشود. سطح گسستهسازی هر متغیر تصمیمگیری 8 تنظیم شده است. از آنجا که فضای اقدام شامل 3 متغیر تصمیمگیری است، راهحل در فضای اقدام وجود دارد که عامل دستگاه همراه میتواند از بین آنها انتخاب کند.
• طرح برونسپاری مبتنی بر DDPG [39]: در این مقاله، طرح برونسپاری مبتنی بر چارچوب IL پیشنهاد شده که در آن هر دستگاه همراه تصمیمات را به طور مستقل با استفاده از یک عامل DDPG اتخاذ میکند.
• طرح برونسپاری مبتنی بر MADDPG [41]: در این مقاله، طرح برونسپاری مبتنی بر چارچوب CTDE پیشنهاد شده که در آن هر
شکل 5: پاداش تجمیعی نسبت به فرکانس بهروزرسانی سیاست.
دستگاه همراه از یک عامل MADDPG برای تصمیمگیری برونسپاری استفاده میکند.
برای مقایسه منصفانه، ساختار شبکههای عصبی در طرحهای فوق مشابه ساختار شبکههای عصبی در الگوریتم پیشنهادی در نظر گرفته شده است. علاوه بر این، هایپرپارامترهای مشترک در این طرحها به طور یکسان تنظیم شده است.
5-2 عملکرد همگرایی فرایند آموزش
5-2-1 تنظیم هایپرپارامترهای الگوریتم پیشنهادی
در این بخش، تأثیر هایپرپارامترهای مختلف بر عملکرد همگرایی الگوریتم پیشنهادی بررسی شده و بهترین مقدار نرخ یادگیری برای شبکه منتقد و فرکانس بهروزرسانی شبکه بازیگر را از طریق آزمایش به دست خواهیم آورد. برای نمایش بهتر، منحنیها با استفاده از استراتژی هموارسازی6 با پنجره کشویی7 30 مطابق با [48] رسم شدهاند.
عملکرد همگرایی طرح برونسپاری پیشنهادی تحت نرخهای یادگیری مختلف شبکه منتقد در شکل 4 بررسی شده است. همان طور که مشاهده میشود، یک نرخ یادگیری کوچک منجر به یادگیری آهسته عامل میشود؛ در حالی که نرخ یادگیری بزرگ باعث واگرایی عامل و گیرافتادن در بهینه محلی میگردد و از این رو نرخ یادگیری شبکه منتقد 001/0 تنظیم شده است.
شکل 5 تأثیر فرکانس بهروزرسانی سیاست را بر عملکرد همگرایی الگوریتم پیشنهادی بررسی میکند. هنگامی که است الگوریتم پیشنهادی در فرایند آموزش شیکههای منتقد و بازیگر مشابه با الگوریتم MADDPG عمل میکند که در آن فرکانس بهروزرسانی شبکههای منتقد و بازیگر یکسان در نظر گرفته میشود. به این ترتیب، به ازای هر بهروزرسانی برای شبکه منتقد، پارامتر شبکه بازیگر نیز بهروز میشود. اگر چه بزرگتر منجر به منفعت بیشتر در رابطه با انباشتهشدن خطاها میشود، با این حال مقدار بزرگ این هایپرپارامتر باعث میگردد که شبکه بازیگر در تکرارهای کمتر آموزش داده شود و از یادگیری مناسب سیاست جلوگیری میکند. مطابق با نتایج نشاندادهشده در شکل 5، بهترین عملکرد همگرایی با بهدست آمده است.
5-2-2 ارزیابی عملکرد همگرایی طرحهای برونسپاری مختلف
عملکرد همگرایی طرحهای برونسپاری مختلف در شکل 6 نشان داده شده است. شکل 6- الف منحنیهای پاداش تجمیعی همه کاربران مربوط به عملکرد همگرایی فرایند آموزش طرحهای مختلف برونسپاری را نشان
(الف)
(ب)
[1] . Fully Connected
[2] . Hidden Layer
[3] . Activation Function
[4] . Adaptive Moment Estimation
[5] . Discrete
[6] . Smoothing Strategy
[7] . Sliding Window
شکل 6: عملکرد همگرایی طرحهای برونسپاری مختلف، (الف) پاداش تجمیعی همه دستگاههای همراه و (ب) پاداش هر دستگاه همراه.
میدهد. همان طور که مشاهده میشود برای طرحهای برونسپاری مختلف، پاداش تجمیعی هر اپیزود با تعامل عامل هر دستگاه همراه با محیط مربوطهاش افزایش مییابد و نهایتاً همه منحنیها به مقادیر پاداش متفاوتی همگرا میشوند. با این حال واضح است که طرح برونسپاری پیشنهادی ما به همگرایی بهتری نسبت به سایر طرحها از نظر پاداش تجمیعی همه دستگاههای همراه منجر میشود. در طرح برونسپاری الگوریتم پیشنهادی از ویژگیهای clipped double Q-learning، بهروزرسانیهای با تأخیر سیاست و هموارسازی سیاست هدف برای اصلاح تخمین ارزش شبکه منتقد استفاده میکنیم. از آنجایی که شبکه بازیگر سیاستهای خود را تحت هدایت شبکه منتقد یاد میگیرد، تخمین ارزش دقیقتر توسط منتقد منجر به یادگیری سیاستهای بهتر و دستیابی به پاداش بالاتر توسط شبکه بازیگر میشود. علاوه بر این بر اساس نتایج بهدستآمده، مشاهده میشود از آنجا که طرحهای برونسپاری غیرمتمرکز مبتنی بر چارچوب CTDE مکانیسم همکاری را بین دستگاههای همراه مختلف در نظر میگیرند، بهتر از طرحهای برونسپاری غیرمتمرکز مبتنی بر چارچوب IL عمل میکنند.
پاداش فردی هر دستگاه همراه برای طرحهای برونسپاری مختلف در شکل 6- ب نشان داده شده است. همان طور که مشاهده میشود، پاداش هر دستگاه در نهایت به یک مقدار پایدار همگرا میشود. با این حال طرحهای برونسپاری مبتنی بر چارچوب CTDE از طرحهای مبتنی بر چارچوب IL بهتر عمل میکنند؛ زیرا پاداشهای دریافتی توسط دستگاههای مختلف در این طرحها نزدیکتر است. این نشان میدهد که دستگاههای همراه در نهایت به یک نقطه تعادل میرسند و عدالت بین آنها تضمین میشود. با این حال همان طور که در شکل مشخص است، دستگاه همراه 2 در طرح مبتنی بر DDPG و دستگاه همراه 1 در طرح مبتنی بر DQN عملکرد بدتری نسبت به سایر دستگاهها دارند که نتیجه عدم وجود مکانیسم همکاری بین دستگاههای همراه در این طرحها است.
5-3 ارزیابی عملکرد کلی
شایان ذکر است که پس از 1500 اپیزود آموزشی، پارامترهای آموختهشده ذخیره میشوند. در هنگام تست، سیاستهای آموختهشده در عامل هر دستگاه همراه بارگذاری میشود. برای ارزیابی عملکرد طرح پیشنهادی، نتایج نشاندادهشده در منحنیها از میانگین روی 100 اپیزود متوالی به دست آمده است.
ارزیابی عملکرد تحت اندازه مختلف وظیفه: میانگین عملکرد سیستم بر روی 100 اپیزود با سه دستگاه همراه با اندازه وظیفه متغیر از 1 مگابیت در ثانیه تا 7 مگابیت در ثانیه برای طرحهای برونسپاری مختلف در شکل 7 نشان داده شده است. همان طور که مشاهده میشود با افزایش اندازه وظیفه، میانگین هزینه محاسباتی، میانگین مصرف انرژی و میانگین تأخیر پردازش همه طرحهای برونسپاری افزایش مییابد. همان طور که قبلاً ذکر شد، هزینه محاسباتی از دو بخش تشکیل شده است: مصرف انرژی دستگاه همراه و تأخیر پردازش وظیفه. از آنجا که وظایف با اندازه دادههای بزرگتر به زمان پردازش و مصرف انرژی بیشتر نیاز دارند، این امر منجر به هزینه محاسباتی بالاتر میشود. همچنین افزایش مصرف انرژی دستگاه همراه و تأخیر پردازش وظیفه از برآوردهشدن محدودیتهای مربوط به انرژی و حداکثر تأخیر قابل تحمل وظیفه جلوگیری میکند که منجر به افزایش نرخ شکست وظیفه میشود. با این حال طرح برونسپاری مبتنی بر الگوریتم پیشنهادی بهتر از سایر طرحها با کمترین هزینه محاسباتی، تأخیر پردازش وظیفه، مصرف انرژی و نرخ شکست وظیفه عمل میکند. از آنجا که ما برای بهبود عملکرد شبکه منتقد در الگوریتم پیشنهادی، clipped double q-learning، بهروزرسانی با تأخیر سیاست و هموارسازی سیاست هدف را به کار گرفتهایم، این امر، بازیگر را به دستیابی به سیاست بهتر هدایت میکند. همچنین ما از روش PER برای انتخاب تجارب از بافر بازپخش در حین یادگیری استفاده میکنیم که باعث استفاده مؤثرتر از تجربیات ارزشمند میشود و فرایند یادگیری را کوتاهتر و پایدارتر میکند. طرح مبتنی بر MADDPG دومین طرح برتر است؛ زیرا از چارچوب CTDE برای یادگیری سیاستهای برونسپاری غیرمتمرکز استفاده میکند که مشارکت دستگاههای همراه را در طول یادگیری سیاستها در نظر میگیرد. واضح است که طرح مبتنی بر DQN دارای بدترین عملکرد است. این امر نشان میدهد طرحهای برونسپاری مبتنی بر DQN در مسائل با فضای اقدام پیوسته نمیتوانند به سیاستهای مطلوب دست یابند.
ارزیابی عملکرد تحت تعداد مختلف دستگاههای همراه: برای بررسی مقیاسپذیری سیستم، تأثیر افزایش تعداد دستگاههای همراه را بر روی طرحهای مختلف ارزیابی میکنیم. ابتدا شبکههای عصبی طرحهای مختلف برای تعداد معین دستگاه همراه آموزش داده میشوند و سپس سیاستهای آموختهشده ارزیابی میگردند. شکل 8 میانگین هزینه محاسباتی، میانگین تأخیر پردازش وظیفه، میانگین مصرف انرژی و نرخ شکست وظیفه هر طرح را نشان میدهد؛ در حالی که تعداد دستگاههای همراه از 2 تا 8 متغیر است و اندازه وظیفه 2 مگابیت بر ثانیه تنظیم شده است. میتوان مشاهده کرد که با افزایش تعداد دستگاهها، میانگین هزینه محاسباتی، میانگین تأخیر پردازش وظیفه، میانگین مصرف انرژی و نرخ شکست وظیفه همه طرحها افزایش مییابد؛ اما با افزایش تعداد دستگاهها شکاف عملکرد بین طرحهای مبتنی بر چارچوبهای CTDE و IL بیشتر
(الف)
(ب)
(ج)
(د)
شکل 7: عملکرد طرحهای برونسپاری مختلف نسبت به اندازه داده وظیفه، (الف) میانگین هزینه محاسباتی نسبت به اندازه داده وظیفه، (ب) میانگین تأخیر پردازش نسبت به اندازه داده وظیفه، (ج) میانگین مصرف انرژی نسبت به اندازه داده وظیفه و (د) میانگین نرخ شکست وظیفه نسبت به اندازه داده وظیفه.
(الف)
(ب)
(ج)
(د)
شکل 8: عملکرد طرحهای برونسپاری مختلف نسبت به تعداد دستگاههای همراه، (الف) میانگین هزینه محاسباتی نسبت به تعداد دستگاههای همراه، (ب) میانگین تأخیر پردازش نسبت به تعداد دستگاههای همراه، (ج) میانگین مصرف انرژی نسبت به تعداد دستگاههای همراه و (د) میانگین نرخ شکست وظیفه نسبت به تعداد دستگاههای همراه.
(الف)
(ب)
شکل 9: تأثیر فاکتور وزن بر میانگین تأخیر پردازش و میانگین مصرف انرژی، (الف) تأثیر فاکتور وزن بر میانگین تأخیر پردازش و (ب) تأثیر فاکتور وزن بر میانگین مصرف انرژی.
میشود. عاملهای مبتنی بر چارچوب CTDE با بهکارگیری یک شبکه منتقد متمرکز که از اطلاعات اضافی در مورد سیاستهای سایر دستگاهها در طول آموزش استفاده میکنند، میتوانند رفتارهای مشارکتی را بیاموزند که باعث بهبود عملکرد سیستم میشود. علاوه بر این، طرح برونسپاری مبتنی بر الگوریتم پیشنهادی، عملکرد بهتری نسبت به طرح مبتنی بر MADDPG دارد و به این دلیل است که عملکرد الگوریتم MADDPG را با استفاده از ویژگیهای clipped double Q-learning، هموارسازی سیاست هدف و PER بهبود بخشیدهایم که به بهبود تخمین تابع ارزش کمک میکند و منجر به یافتن سیاستهای مطلوبتر میشود. همچنین استفاده از بهروزرسانی با تأخیر شبکه بازیگر منجر به یادگیری یک سیاست باثباتتر و برتر میشود.
ما در شکل 9 تأثیر فاکتور وزن را بر مصرف انرژی و تأخیر پردازش وظیفه بررسی میکنیم. مقادیر کوچکتر باعث میشود که تمرکز عامل بیشتر بر کاهش مصرف انرژی باشد. همان طور که در شکل 9 مشاهده میشود با کاهش مقادیر سیاست آموختهشده در هر کاربر برای صرفهجویی در مصرف انرژی تلاش میکند که باعث تأخیر پردازش وظیفه طولانیتر میشود. بنابراین مطابق با نتایج بهدستآمده با تخصیص مقادیر مختلف میتوان بهراحتی موازنه بین تأخیر پردازش و مصرف انرژی را تنظیم کرد و به این معناست که طرح برونسپاری پیشنهادی با وظایف حساس به تأخیر و حساس به انرژی سازگار است.
6- نتیجهگیری و کارهای آتی
در این مقاله به بهینهسازی مشترک مسئله برونسپاری محاسبات و تخصیص منابع غیرمتمرکز در MEC با دستگاههای همراه مجهز به قابلیت EH پرداخته شد. ما بهطور خاص بر روی برونسپاری بخشی تمرکز کردیم که در آن هر وظیفه را میتوان به دو زیروظیفه مستقل تقسیم کرد و بهطور موازی توسط دستگاه همراه و سرور MEC پردازش کرد. ما برای پرداختن به این مسئله، یک الگوریتم برونسپاری مبتنی بر چارچوب CTDE برای کاهش هزینه محاسباتی بلندمدت سیستم از لحاظ تأخیر پردازش و مصرف انرژی دستگاههای همراه پیشنهاد دادیم. بهطور خاص، الگوریتم پیشنهادی، نسخهای بهبودیافته از الگوریتم MADDPG است که از clipped double Q-learning، بهروزرسانی با تأخیر شبکه بازیگر و هموارسازی سیاست هدف برای حل مسئله بایاس تخمین بیش از حد در MADDPG و تخمین ارزش دقیقتر منتقد متمرکز استفاده میکند. همچنین تکنیک PER برای بهبود کارایی نمونه و سرعت یادگیری الگوریتم پیشنهادی اتخاذ شد.
نتایج شبیهسازی همگرایی سریعتر الگوریتم پیشنهادی را در مقایسه با MADDPG، DDPG و DQN نشان داد. علاوه بر این، نتایج آزمایشها نشان داد که الگوریتم پیشنهادی نسبت به سایر طرحها در سناریوهای مختلف با توجه به میانگین هزینه محاسباتی بلندمدت، میانگین مصرف انرژی، میانگین تأخیر پردازش و نرخ شکست وظیفه، عملکرد بهتری را به دست میآورد. به طور خاص، زمانی که اندازه داده وظیفه 3 مگابیت در ثانیه تنظیم شده است، طرح پیشنهادی در مقایسه با MADDPG از لحاظ معیار هزینه محاسباتی %46/44، از لحاظ معیار تأخیر پردازش %64/43 و از لحاظ معیار مصرف انرژی %17/60 عملکرد را بهبود میدهد.
ما در این کار، یک سیستم MEC تکسلول را فرض کردیم. در پژوهشهای آتی، قصد داریم یک سناریوی چندسلولی با چندین سرور MEC را در نظر بگیریم که در آن دستگاههای همراه از یک سلول به سلول دیگر مهاجرت میکنند. علاوه بر این، یکی دیگر از جهتگیریهای پژوهشی، تسریع فرایند یادگیری عاملها با بهکارگیری تکنیک یادگیری انتقالی خواهد بود.
مراجع
[1] N. Abbas, Y. Zhang, A. Taherkordi, and T. Skeie, "Mobile edge computing: a survey," IEEE Internet of Things J., vol. 5, no. 1, pp. 450-465, Feb. 2018.
[2] J. Wang, J. Pan, F. Esposito, P. Calyam, Z. Yang, and P. Mohapatra, "Edge cloud offloading algorithms: issues, methods, and perspectives," ACM Computing Surveys, vol. 52, no. 1, pp. 1-23, Feb. 2019.
[3] Q. H. Nguyen and F. Dressler, "A smartphone perspective on computation offloading-a survey," Computer Communications, vol. 159, pp. 133-154, Jun. 2020.
[4] H. Lin, S. Zeadally, Z. Chen, H. Labiod, and L. Wang, "A survey
on computation offloading modeling for edge computing," J. of Network and Computer Applications, vol. 169, Article ID: 102781, Nov. 2020.
[5] P. Mach and Z. Becvar, "Mobile edge computing: a survey on architecture and computation offloading," IEEE Communications Surveys & Tutorials, vol. 19, no. 3, pp. 1628-1656, Mar. 2017.
[6] Y. Mao, C. You, J. Zhang, K. Huang, and K. B. Letaief, "A survey on mobile edge computing: the communication perspective," IEEE Communications Surveys & Tutorials, vol. 19, no. 4, pp. 2322-2358, Aug. 2017.
[7] X. Wang, et al., "Wireless powered mobile edge computing networks: a survey," ACM Computing Surveys, vol. 55, no. 13s, Article ID: 263, 37 pp., Dec. 2023.
[8] U. M. Malik, M. A. Javed, S. Zeadally, and S. ul Islam, "Energy-efficient fog computing for 6G-enabled massive IoT: recent trends and future opportunities," IEEE Internet of Things J., vol. 9, no. 16, pp. 14572-14594, Aug. 2022.
[9] Q. Luo, S. Hu, C. Li, G. Li, and W. Shi, "Resource scheduling in edge computing: a survey," IEEE Communications Surveys & Tutorials, vol. 23, no. 4, pp. 2131-2165, Aug. 2021.
[10] Y. Fan, J. Ge, S. Zhang, J. Wu, and B. Luo, "Decentralized scheduling for concurrent tasks in mobile edge computing via deep reinforcement learning," IEEE Trans. on Mobile Computing, vol. 23, no. 4, pp. 2765-2779, Apr. 2023.
[11] P. Gazori, D. Rahbari, and M. Nickray, "Saving time and cost on the scheduling of fog-based IoT applications using deep reinforcement learning approach," Future Generation Computer Systems, vol. 110, pp. 1098-1115, Sept. 2020.
[12] H. Djigal, J. Xu, L. Liu, and Y. Zhang, "Machine and deep learning for resource allocation in multi-access edge computing: a survey," IEEE Communications Surveys & Tutorials, vol. 24, no. 4, pp. 2449-2494, Aug. 2022.
[13] A. Feriani and E. Hossain, "Single and multi-agent deep reinforcement learning for AI-enabled wireless networks: a tutorial," IEEE Communications Surveys & Tutorials, vol. 23, no. 2, pp. 1226-1252, Mar. 2021.
[14] T. Li, K. Zhu, N. C. Luong, D. Niyato, Q. Wu, Y. Zhang, and B. Chen, "Applications of multi-agent reinforcement learning in future internet: a comprehensive survey," IEEE Communications Surveys & Tutorials, vol. 24, no. 2, pp. 1240-1279, Mar. 2022.
[15] T. T. Nguyen, N. D. Nguyen, and S. Nahavandi, "Deep reinforcement learning for multiagent systems: a review of challenges, solutions, and applications," IEEE Trans. on Cybernetics, vol. 50, no. 9, pp. 3826-3839, Sept. 2020.
[16] K. Zhang, Z. Yang, and T. Başar, "Multi-agent reinforcement learning: a selective overview of theories and algorithms," In: Vamvoudakis, K.G., Wan, Y., Lewis, F.L., Cansever, D. (eds) Handbook of Reinforcement Learning and Control. Studies in Systems, Decision and Control, vol. 325, pp. 321-384, 2021.
[17] R. Lowe, et al., "Multi-agent actor-critic for mixed cooperative-competitive environments," in Proc. 31st Conf. on Neural Information Processing Systems, NIPS'17, 12 pp., Long Beach, CA, USA, 4-9 Dec. 2017.
[18] T. P. Lillicrap, et al., Continuous Control with Deep Reinforcement Learning, arXiv preprint arXiv: 1509.02971, 2015.
[19] S. Fujimoto, H. Hoof, and D. Meger, "Addressing function approximation error in actor-critic methods," in Proc. of the 35th Int. Conf. on Machine Learning, PMLR'80, pp. 1587-1596, Stockholm Sweden, 10-15 Jul. 2018.
[20] O. K. Shahryari, H. Pedram, V. Khajehvand, and M. D. TakhtFooladi, "Energy and task completion time trade-off for task offloading in fog-enabled IoT networks," Pervasive and Mobile Computing, vol. 74, Article ID: 101395, Jul. 2021.
[21] J. Bi, H. Yuan, S. Duanmu, M. Zhou, and A. Abusorrah, "Energy-optimized partial computation offloading in mobile-edge computing with genetic simulated-annealing-based particle swarm optimization," IEEE Internet of Things J., vol. 8, no. 5, pp. 3774-3785, Sept. 2020.
[22] S. Fu, F. Zhou, and R. Q. Hu, "Resource allocation in a relay-aided mobile edge computing system," IEEE Internet of Things J., vol. 9, no. 23, pp. 23659-23669, Jul. 2022.
[23] G. Yang, L. Hou, X. He, D. He, S. Chan, and M. Guizani, "Offloading time optimization via markov decision process in mobile-edge computing," IEEE Internet of Things J., vol. 8, no. 4, pp. 2483-2493, Oct. 2020.
[24] B. Cao, L. Zhang, Y. Li, D. Feng, and W. Cao, "Intelligent offloading in multi-access edge computing: a state-of-the-art review and framework," IEEE Communications Magazine, vol. 57, no. 3, pp. 56-62, Mar. 2019.
[25] Z. Liu, Y. Yang, K. Wang, Z. Shao, and J. Zhang, "POST: parallel offloading of splittable tasks in heterogeneous fog networks," IEEE Internet of Things J., vol. 7, no. 4, pp. 3170-3183, Jan. 2020.
[26] M. Guo, Q. Li, Z. Peng, X. Liu, and D. Cui, "Energy harvesting computation offloading game towards minimizing delay for mobile edge computing," Computer Networks, vol. 204, Article ID: 108678, Feb. 2022.
[27] T. Zhang and W. Chen, "Computation offloading in heterogeneous mobile edge computing with energy harvesting," IEEE Trans. on Green Communications and Networking, vol. 5, no. 1, pp. 552-565, Jan. 2021.
[28] H. Teng, Z. Li, K. Cao, S. Long, S. Guo, and A. Liu, "Game theoretical task offloading for profit maximization in mobile edge computing," IEEE Trans. on Mobile Computing, vol. 22, no. 9, pp. 5313-5329, May 2022.
[29] H. Wu, Z. Zhang, C. Guan, K. Wolter, and M. Xu, "Collaborate edge and cloud computing with distributed deep learning for smart city Internet of Things," IEEE Internet of Things J., vol. 7, no. 9, pp. 8099-8110, May 2020.
[30] L. Ale, N. Zhang, X. Fang, X. Chen, S. Wu, and L. Li, "Delay-aware and energy-efficient computation offloading in mobile-edge computing using deep reinforcement learning," IEEE Trans. on Cognitive Communications and Networking, vol. 7, no. 3, pp. 881-892, Mar. 2021.
[31] C. Li, J. Xia, F. Liu, D. Li, L. Fan, G. K. Karagiannidis, and A. Nallanathan, "Dynamic offloading for multiuser muti-CAP MEC networks: a deep reinforcement learning approach," IEEE Trans. on Vehicular Technology, vol. 70, no. 3, pp. 2922-2927, Feb. 2021.
[32] L. Wang and G. Zhang, "Deep reinforcement learning based joint partial computation offloading and resource allocation in mobility-aware MEC system," China Communications, vol. 19, no. 8, pp. 85-99, Aug. 2022.
[33] J. Niu, S. Zhang, K. Chi, G. Shen, and W. Gao, "Deep learning for online computation offloading and resource allocation in NOMA," Computer Networks, vol. 216, Article ID: 109238, Oct. 2022.
[34] H. Lu, X. He, M. Du, X. Ruan, Y. Sun, and K. Wang, "Edge QoE: computation offloading with deep reinforcement learning for Internet of Things," IEEE Internet of Things J., vol. 7, no. 10, pp. 9255-9265, Mar. 2020.
[35] V. D. Tuong, T. P. Truong, T. V. Nguyen, W. Noh, and S. Cho, "Partial computation offloading in NOMA-assisted mobile-edge computing systems using deep reinforcement learning," IEEE Internet of Things J., vol. 8, no. 17, pp. 13196-13208, Mar. 2021.
[36] Z. Hu, J. Niu, T. Ren, B. Dai, Q. Li, M. Xu, and S. K. Das, "An efficient online computation offloading approach for large-scale mobile edge computing via deep reinforcement learning," IEEE Trans. on Services Computing, vol. 15, no. 2, pp. 669-683, Sept. 2021.
[37] J. Chen and Z. Wu, "Dynamic computation offloading with energy harvesting devices: a graph-based deep reinforcement learning approach," IEEE Communications Letters, vol. 25, no. 9, pp. 2968-2972, Jul. 2021.
[38] X. He, H. Lu, M. Du, Y. Mao, and K. Wang, "QoE-based task offloading with deep reinforcement learning in edge-enabled Internet of Vehicles," IEEE Trans. on Intelligent Transportation Systems, vol. 22, no. 4, pp. 2252-2261, Aug. 2020,
[39] Z. Chen and X. Wang, "Decentralized computation offloading for multi-user mobile edge computing: a deep reinforcement learning approach," EURASIP J. on Wireless Communications and Networking, vol. 2020, Article ID: 188, 21 pp., 2020.
[40] J. Chen, H. Xing, Z. Xiao, L. Xu, and T. Tao, "A DRL agent for jointly optimizing computation offloading and resource allocation in MEC," IEEE Internet of Things J., vol. 8, no. 24, pp. 17508-17524, May 2021.
[41] Z. Cheng, M. Min, M. Liwang, L. Huang, and Z. Gao, "Multiagent DDPG-based joint task partitioning and power control in fog computing networks," IEEE Internet of Things J., vol. 9, no. 1, pp. 104-116, Jun. 2021.
[42] Z. Chen, L. Zhang, Y. Pei, C. Jiang, and L. Yin, "NOMA-based multi-user mobile edge computation offloading via cooperative multi-agent deep reinforcement learning," IEEE Trans. on Cognitive Communications and Networking, vol. 8, no. 1, pp. 350-364, Jun. 2021.
[43] X. Huang, S. Leng, S. Maharjan, and Y. Zhang, "Multi-agent deep reinforcement learning for computation offloading and interference coordination in small cell networks," IEEE Trans. on Vehicular Technology, vol. 70, no. 9, pp. 9282-9293, Jul. 2021.
[44] N. Zhao, Z. Ye, Y. Pei, Y. C. Liang, and D. Niyato, "Multi-agent deep reinforcement learning for task offloading in UAV-assisted mobile edge computing," IEEE Trans. on Wireless Communications, vol. 21, no. 9, pp. 6949-6960, Mar. 2022.
[45] M. Chen, A. Guo, and C. Song, "Multi-agent deep reinforcement learning for collaborative task offloading in mobile edge computing networks," Digital Signal Processing, vol. 140, Article ID: 104127, Aug. 2023.
[46] Q. Tang, R. Xie, F. R. Yu, T. Huang, and Y. Liu, "Decentralized computation offloading in IoT fog computing system with energy harvesting: a Dec-POMDP approach," IEEE Internet of Things J., vol. 7, no. 6, pp. 4898-4911, Feb. 2020.
[47] S. Zeng, X. Huang, and D. Li, "Joint communication and computation cooperation in wireless-powered mobile-edge computing networks with NOMA," IEEE Internet of Things J.,
vol. 10, no. 11, pp. 9849-9862, Jan. 2023.
[48] L. Huang, S. Bi, and Y. J. A. Zhang, "Deep reinforcement learning for online computation offloading in wireless powered mobile-edge computing networks," IEEE Trans. on Mobile Computing, vol. 19, no. 11, pp. 2581-2593, Jul. 2019.
[49] S. Bi and Y. J. Zhang, "Computation rate maximization for wireless powered mobile-edge computing with binary computation offloading," IEEE Trans. on Wireless Communications, vol. 17,
no. 6, pp. 4177-4190, Apr. 2018.
[50] M. Min, et al., "Learning-based computation offloading for IoT devices with energy harvesting," IEEE Trans. on Vehicular Technology, vol. 68, no. 2, pp. 1930-1941, Jan. 2019.
[51] D. Silver et al., "Deterministic policy gradient algorithms," in Proc. of the 31st Int. Conf. on Machine Learning, PMLR'32, pp. 387-395, Beijing, China, 22-24 Jun. 2014.
[52] F. Zhang, J. Li, and Z. Li, "A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment," Neurocomputing, vol. 411, pp. 206-215, Oct. 2020.
[53] P. Sun, W. Zhou, and H. Li, "Attentive experience replay," in Proc. of the AAAI Conf. on Artificial Intelligence, vol. 34, no. 04, pp. 5900-5907, Apr. 2020.
[54] Y. Hou, L. Liu, Q. Wei, X. Xu, and C. Chen, "A novel DDPG method with prioritized experience replay," in Proc. IEEE Int. Conf. on Systems, Man, and Cybernetics, SMC'17, pp. 316-321, Banff, Canada, 5-8 Oct. 2017.
[55] T. Schaul, J. Quan, I. Antonoglou, and D. Silver, Prioritized Experience Replay, arXiv preprint arXiv:1511.05952, 2015.
[56] P. Cheridito, H. Kawaguchi, and M. Maejima, "Fractional ornstein-uhlenbeck processes," Electron. J. Probab, vol. 8, Article ID: 3, 14 pp., 2003.
[57] http://www.powercastco.com
[58] D. P. Kingma and J. Ba, Adam: A Method for Stochastic Optimization, arXiv preprint arXiv:1412.6980, 2014.
آتوسا دقایقی در سال 1389 مدرک کارشناسی مهندسی فناوری اطلاعات خود را از دانشگاه آزاد اسلامی واحد تهرانجنوب و در سال 1396 مدرک کارشناسی ارشد مهندسی فناوری اطلاعات گرایش تجارت الکترونیک خود را از دانشگاه آزاد اسلامی واحد تهرانمرکز دریافت نموده است. وی در سال 1398 به دوره دکتری مهندسی فناوری اطلاعات در دانشگاه قم وارد گردید و هماکنون به صورت تماموقت مشغول به تحصیل است. زمینههای علمی مورد علاقه او عبارتند از سیستمهای توزیعی، تخلیه بار محاسباتی و مدیریت منابع در محاسبات لبه موبایل، بهینهسازی و یادگیری تقویتی عمیق.
محسن نیکرأی در سال 1381 مدرک کارشناسی مهندسی کامپیوتر خود را از دانشگاه علم و صنعت ایران و مدرک کارشناسی ارشد و دکتری مهندسی کامپیوتر خود را در سالهای 1385 و 1392 از دانشگاه تهران دریافت نموده است. دکتر نیکرأی از سال 1395 در گروه مهندسی کامپیوتر و فناوری اطلاعات دانشگاه قم به عنوان هیأت علمی مشغول به فعالیت است. زمینههای علمی مورد علاقه وی عبارتند از زمانبندی و مدیریت منابع در محیط ابر و مه.