• فهرست مقالات reinforcement learning

      • دسترسی آزاد مقاله

        1 - A Fast Machine Learning for 5G Beam Selection for Unmanned Aerial Vehicle Applications
        Wasswa Shafik Mohammad Ghasemzadeh S.Mojtaba Matinkhah
        Unmanned Aerial vehicles (UAVs) emerged into a promising research trend applied in several disciplines based on the benefits, including efficient communication, on-time search, and rescue operations, appreciate customer deliveries among more. The current technologies ar چکیده کامل
        Unmanned Aerial vehicles (UAVs) emerged into a promising research trend applied in several disciplines based on the benefits, including efficient communication, on-time search, and rescue operations, appreciate customer deliveries among more. The current technologies are using fixed base stations (BS) to operate onsite and off-site in the fixed position with its associated problems like poor connectivity. These open gates for the UAVs technology to be used as a mobile alternative to increase accessibility in beam selection with a fifth-generation (5G) connectivity that focuses on increased availability and connectivity. This paper presents a first fast semi-online 3-Dimensional machine learning algorithm suitable for proper beam selection as is emitted from UAVs. Secondly, it presents a detailed step by step approach that is involved in the multi-armed bandit approach in solving UAV solving selection exploration to exploitation dilemmas. The obtained results depicted that a multi-armed bandit problem approach can be applied in optimizing the performance of any mobile networked devices issue based on bandit samples like Thompson sampling, Bayesian algorithm, and ε-Greedy Algorithm. The results further illustrated that the 3-Dimensional algorithm optimizes utilization of technological resources compared to the existing single and the 2-Dimensional algorithms thus close optimal performance on the average period through machine learning of realistic UAV communication situations. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - استخراج گذرگاه‌ها با استفاده از تشخیص اشیا در یادگیری تقویتی
        بهزاد غضنفری ناصر مزینی محمدرضا جاهد مطلق
        اين مقاله روش جديدي را مطرح مي‌کند که قادر به استخراج گذرگاه‌ها به‌صورت اتوماتيک براي عامل يادگيري تقويتي است. روش پيشنهادي از سيستم‌هاي بيولوژيکي، رفتار و مسيريابي حيوانات الهام گرفته شده است و به‌واسطه تعاملات عامل با محيط پيراموني‌اش عمل مي‌کند. عامل با استفاده از خو چکیده کامل
        اين مقاله روش جديدي را مطرح مي‌کند که قادر به استخراج گذرگاه‌ها به‌صورت اتوماتيک براي عامل يادگيري تقويتي است. روش پيشنهادي از سيستم‌هاي بيولوژيکي، رفتار و مسيريابي حيوانات الهام گرفته شده است و به‌واسطه تعاملات عامل با محيط پيراموني‌اش عمل مي‌کند. عامل با استفاده از خوشه‌بندي و تشخيص اشيا به‌صورت سلسله مراتبي، نشانه‌هايي را پيدا مي‌کند. اگر اين نشانه‌ها در فضاي اقدام به هم نزديک باشند، گذرگاه‌ها با استفاده از حالت‌هاي بين آنها استخراج مي‌شوند. نتايج آزمايش‌ها بهبود قابل ملاحظه‌اي را در فرايند يادگيري تقويتي در مقايسه با ساير روش‌هاي مشابه نشان مي‌دهد. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - ارائه روشی جدید برای کسب مهارت در یادگیری تقویتی با کمک خوشه‌بندی گراف
        مرضیه داودآبادی فراهانی ناصر مزینی
        یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود می‎پردازد. يكي از مشكلات اصلي الگوريتم‎هاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمی‎توانند مسایل بزرگ را در زمان قابل قبولی حل کنند. چکیده کامل
        یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود می‎پردازد. يكي از مشكلات اصلي الگوريتم‎هاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمی‎توانند مسایل بزرگ را در زمان قابل قبولی حل کنند. کسب خودکار مهارت‌ها می‌تواند به شکستن مسأله به زيرمسأله‎هاي کوچک‌تر و حل سلسله‌مراتبی آن کمک کند. با وجود نتایج امیدوارکننده استفاده از مهارت‌ها در یادگیری تقویتی سلسله‌مراتبی، در برخی تحقیقات دیگر نشان داده شد که بر اساس وظیفه مورد نظر، اثر مهارت‌ها بر کارایی یادگیری می‌تواند کاملاً مثبت یا منفی باشد و اگر به درستی انتخاب نشوند می‌توانند پیچیدگی حل مسأله‌ را افزایش دهند. از این رو یکی از نقاط ضعف روش‌های قبلی کسب خودکار مهارت‌ها، عدم ارزیابی هر یک از مهارت‌های کسب‌شده می‌باشد. در این مقاله روش‌های جدیدی مبتنی بر خوشه‌بندی گراف برای استخراج زیرهدف‌ها و کسب مهارت‌ها ارائه می‌گردد. همچنین معیارهای جدید برای ارزیابی مهارت‌ها مطرح می‌شود که با کمک آنها، مهارتهای نامناسب برای حل مسأله‌ حذف می‌گردند. استفاده از این روش‌ها در چندین محیط آزمایشگاهی افزایش سرعت یادگیری را به شکل قابل ملاحظه‌ای نشان می‌دهد. پرونده مقاله
      • دسترسی آزاد مقاله

        4 - زمان‌بندی وظایف برنامه‌های کاربردی اینترنت اشیا در محیط رایانش مه با استفاده از یادگیری تقویتی عمیق
        پگاه گازری دادمهر رهبری محسن نیک رای
        هم‌زمان با فراگیرشدن تکنولوژی اینترنت اشیا در سال‌های اخیر، تعداد دستگاه‌های هوشمند و به تبع آن حجم داده‌های جمع‌آوری‌شده توسط آنها به سرعت در حال افزایش است. از سوی دیگر، اغلب برنامه‌های کاربردی اینترنت اشیا نیازمند تحلیل بلادرنگ داده‌ها و تأخیر اندک در ارائه خدمات هست چکیده کامل
        هم‌زمان با فراگیرشدن تکنولوژی اینترنت اشیا در سال‌های اخیر، تعداد دستگاه‌های هوشمند و به تبع آن حجم داده‌های جمع‌آوری‌شده توسط آنها به سرعت در حال افزایش است. از سوی دیگر، اغلب برنامه‌های کاربردی اینترنت اشیا نیازمند تحلیل بلادرنگ داده‌ها و تأخیر اندک در ارائه خدمات هستند. تحت چنین شرایطی، ارسال داده‌ها به مراکز داده ابری جهت پردازش، پاسخ‌گوی نیازمندی‌های برنامه‌های کاربردی مذکور نیست و مدل رایانش مه، انتخاب مناسب‌تری محسوب می‌گردد. با توجه به آن که منابع پردازشی موجود در مدل رایانش مه دارای محدودیت هستند، استفاده مؤثر از آنها دارای اهمیت ویژه‌ای است.در این پژوهش به مسئله زمان‌بندی وظایف برنامه‌های کاربردی اینترنت اشیا در محیط رایانش مه پرداخته شده است. هدف اصلی در این مسئله، کاهش تأخیر ارائه خدمات است که جهت دستیابی به آن، از رویکرد یادگیری تقویتی عمیق استفاده شده است. روش ارائه‌شده در این مقاله، تلفیقی از الگوریتم Q-Learning، یادگیری عمیق و تکنیک‌های بازپخش تجربه و شبکه هدف است. نتایج شبیه‌سازی‌ها نشان می‌دهد که الگوریتم DQLTS از لحاظ معیار ASD، ۷۶% بهتر از الگوریتم QLTS و 5/6% بهتر از الگوریتم RS عمل می‌نماید و نسبت به QLTS زمان همگرایی سریع‌تری دارد. پرونده مقاله
      • دسترسی آزاد مقاله

        5 - توازن بار در گره‌های مه با استفاده از الگوریتم یادگیری تقویتی
        نیلوفر طهماسبی پویا مهدی آقا صرام
        محاسبات مه، حوزه تحقیقاتی نوظهوری برای ارائه خدمات محاسبات ابری به لبه‌های شبکه است. گره‌های مه جریان داده و درخواست‌های کاربر را در زمان واقعی پردازش می‌کنند. به منظور بهینه‌سازی بهره‌وری منابع و زمان پاسخ و افزایش سرعت و کارایی، وظایف باید به صورت متوازن بین گره‌های م چکیده کامل
        محاسبات مه، حوزه تحقیقاتی نوظهوری برای ارائه خدمات محاسبات ابری به لبه‌های شبکه است. گره‌های مه جریان داده و درخواست‌های کاربر را در زمان واقعی پردازش می‌کنند. به منظور بهینه‌سازی بهره‌وری منابع و زمان پاسخ و افزایش سرعت و کارایی، وظایف باید به صورت متوازن بین گره‌های مه توزیع شوند، لذا در این مقاله، روشی جدید جهت بهبود توازن بار در محیط محاسبات مه پیشنهاد شده است. در الگوریتم پیشنهادی، هنگامی که وظیفه‌ای از طریق دستگاه‌های موبایل برای گره مه ارسال می‌شود، گره مه با استفاده از یادگیری تقویتی تصمیم می‌گیرد که آن وظیفه را خودش پردازش کند، یا این که پردازش آن را به یکی از گره‌های مه همسایه یا به ابر واگذار نماید. در بخش ارزیابی نشان داده شده که الگوریتم پیشنهادی با توزیع مناسب وظایف بین گره‌ها، تأخیر کمتری را برای اجرای وظایف نسبت به سایر روش‌های مقایسه‌شده به دست آورده است. پرونده مقاله