ضرب برداری ماتریسهای تنک الگوریتمی ساده اما بخش بسیار مهمی از برنامههای جبر خطی و علمی در حوزهی ریاضی و فیزیک است و به دلیل طبیعت قابل موازی سازی آن، پردازنده- های گرافیکی یکی از گزینههای بسیار مناسب و مهم برای انتخاب بستر اجرایی آن است. در طی سالهای اخیر با توجه به ت أکثر
ضرب برداری ماتریسهای تنک الگوریتمی ساده اما بخش بسیار مهمی از برنامههای جبر خطی و علمی در حوزهی ریاضی و فیزیک است و به دلیل طبیعت قابل موازی سازی آن، پردازنده- های گرافیکی یکی از گزینههای بسیار مناسب و مهم برای انتخاب بستر اجرایی آن است. در طی سالهای اخیر با توجه به تاکید محققان برای در نظر گرفتن انرژی مصرفی به عنوان یکی از اهداف اصلی طراحی در کنار کارآیی، تلاشهای بسیار کمی جهت بهبود انرژی مصرفی این الگوریتم بر روی پردازندهی گرافیکی انجام شده است. در این مقاله از منظر بهینگی مصرف انرژی در کارآیی به دست آمده، به این مسیٔله پرداخته شده است. با بهره وری از قابلیت تنظیم پیکربندی که در پردازندههای گرافیکی مدرن معرفی شده است، با بررسی آماری رفتار این الگوریتم هنگام استفاده از قالبهای مختلف ذخیره سازی ماتریس تنک و تنظیمات مختلف سخت افزاری برای بیش از 200 ماتریس نمونهی تنک، بهترین تنظیمات پیکربندی برای الگوریتم ضرب برداری ماتریس تنک با قالبهای مختلف ذخیره سازی بر روی پردازندهی گرافیکی به دست آمده است. این پیکربندی برای هر قالب ذخیره سازی، به گونهای انتخاب شده است که در تمام نمونههای بررسی شده به عنوان بهترین پیکربندی نتیجه داده باشد.
تفاصيل المقالة
پوشه ثبات بزرگ در پردازندههای گرافیکی با بهبود موازات سطح نخ، باعث کاهش دسترسی به حافظه میشود. قبلاً برای افزایش ظرفیت پوشه ثبات با سربار توان و مساحت قابل قبول، روش LTRF ارائه شده است. معماری پوشه ثبات LTRF دوسطحی است که از یک حافظه نهان ثبات و یک پوشه ثبات اصل أکثر
پوشه ثبات بزرگ در پردازندههای گرافیکی با بهبود موازات سطح نخ، باعث کاهش دسترسی به حافظه میشود. قبلاً برای افزایش ظرفیت پوشه ثبات با سربار توان و مساحت قابل قبول، روش LTRF ارائه شده است. معماری پوشه ثبات LTRF دوسطحی است که از یک حافظه نهان ثبات و یک پوشه ثبات اصلی استفاده میکند. ثباتهای کلافها قبل از اجرای یک کلاف به حافظه نهان ثبات پیشواکشی میشوند. برای پیشواکشی ثباتها، گراف کنترل جریان برنامه در سطح مترجم به زیرگرافهایی به نام بازهثبات تقسیم میشود. یکی از سربارهای روش LTRF انجام عمل پیشواکشی ثبات و تحمیل بیکاری کلاف در طول مدت پیشواکشی است که کاهش تعداد بازهثبات به میزان چشمگیری این سربار را کاهش میدهد. اما تعداد ثبات قابل استفاده در هر بازهثبات محدود است و افزایش این تعداد در بازهثبات منجر به افزایش ترافیک پیشواکشی و ظرفیت حافظه نهان میگردد که راه حل مناسبی برای کاهش تعداد بازهثباتها نیست. در این پژوهش به کمک بازتولید مقادیر میانی در زمان ترجمه سعی در کاهش تعداد ثباتهای مورد نیاز در هر بازهثبات داریم. نتایج شبیهسازی نشان میدهند که روش پیشنهادی ما، میزان تحملپذیری تأخیر دسترسی به پوشه ثبات در روش LTRF را به میزان 29 درصد بهبود میبخشد. همچنین با به کارگیری یک پوشه ثبات سلولهای حافظه DWM، معماری پیشنهادی قادر است که کارایی پردازنده گرافیکی مجهز به LTRF را به طور میانگین 18 درصد (حدود 30 درصد نسبت به معماری پردازنده گرافیکی پایه) افزایش دهد و این در حالی است که مقادیر انرژی و توان مصرفی به میزان 38 و 15 درصد کاهش مییابد.
تفاصيل المقالة
رایمگ
يقوم نظام رایمگ بتنفيذ جميع عمليات الاستلام والتقييم والحكم والتحرير وتخطيط الصفحة والنشر الإلكتروني للمجلات العلمية.