|
|
بهبود تحملپذیری تاخیر پوشه ثبات در پردازندههای گرافیکی به کمک بازتولید مقادیر میانی
|
|
|
|
|
نویسنده
|
براتی راحیل ,صدرالساداتی محمد ,سربازی آزاد حمید
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1401 - دوره : 20 - شماره : 1 - صفحه:13 -24
|
چکیده
|
پوشه ثبات بزرگ در پردازندههای گرافیکی با بهبود موازات سطح نخ، باعث کاهش دسترسی به حافظه میشود. قبلاً برای افزایش ظرفیت پوشه ثبات با سربار توان و مساحت قابل قبول، روش ltrf ارائه شده است. معماری پوشه ثبات ltrf دوسطحی است که از یک حافظه نهان ثبات و یک پوشه ثبات اصلی استفاده میکند. ثباتهای کلافها قبل از اجرای یک کلاف به حافظه نهان ثبات پیشواکشی میشوند. برای پیشواکشی ثباتها، گراف کنترل جریان برنامه در سطح مترجم به زیرگرافهایی به نام بازهثبات تقسیم میشود. یکی از سربارهای روش ltrf انجام عمل پیشواکشی ثبات و تحمیل بیکاری کلاف در طول مدت پیشواکشی است که کاهش تعداد بازهثبات به میزان چشمگیری این سربار را کاهش میدهد. اما تعداد ثبات قابل استفاده در هر بازهثبات محدود است و افزایش این تعداد در بازهثبات منجر به افزایش ترافیک پیشواکشی و ظرفیت حافظه نهان میگردد که راه حل مناسبی برای کاهش تعداد بازهثباتها نیست. در این پژوهش به کمک بازتولید مقادیر میانی در زمان ترجمه سعی در کاهش تعداد ثباتهای مورد نیاز در هر بازهثبات داریم. نتایج شبیهسازی نشان میدهند که روش پیشنهادی ما، میزان تحملپذیری تاخیر دسترسی به پوشه ثبات در روش ltrf را به میزان 29 درصد بهبود میبخشد. همچنین با به کارگیری یک پوشه ثبات سلولهای حافظه dwm، معماری پیشنهادی قادر است که کارایی پردازنده گرافیکی مجهز به ltrf را به طور میانگین 18 درصد (حدود 30 درصد نسبت به معماری پردازنده گرافیکی پایه) افزایش دهد و این در حالی است که مقادیر انرژی و توان مصرفی به میزان 38 و 15 درصد کاهش مییابد.
|
کلیدواژه
|
پردازندههای گرافیکی، پوشه ثبات، بازتولید مقادیر، واحدهای اجرایی
|
آدرس
|
دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, ایران, پژوهشگاه دانشهای بنیادی, ایران, دانشگاه صنعتی شریف, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
azad@sharif.edu
|
|
|
|
|
|
|
|
|
improving register file access latency tolerance in gpus by value reproduction
|
|
|
Authors
|
barati rahil ,sadrosadati mohammad ,حمید
|
Abstract
|
large register files reduce the performance and energy overhead of memory accesses by improving the threadlevel parallelism and reducing the number of data movements from the offchip memory. recently, the latencytolerant register file (ltrf) is proposed to enable highcapacity register files with low power and area cost. ltrf is a twolevel register file in which the first level is a small fast register cache, and the second level is a large slow main register file. ltrf uses a nearperfect register prefetching mechanism that warp registers are prefetched from the main register file to the register file cache before scheduling the warp and hiding the register prefetching latency by the execution of other active warps. ltrf specifies the working set of the warps by partitioning the control flow graph into several prefetch subgraphs, called registerinterval. ltrf imposes some performance overhead due to warp stall during the register prefetching. reducing the number of registerintervals can greatly mitigate this overhead, and improve the effectiveness of ltrf. a registerinterval is a subgraph of the control flow graph (cfg) where it has to be a singleentry subgraph with a limited number of registers. we observe that the second constrain contributes more in reducing the size of registerintervals. increasing the number of registers inside the registerinterval cannot address this problem as it imposes huge performance and power overhead during the register prefetching process. in this paper, we propose a registerintervalaware reproduction mechanism at compiletime to increase registerinterval size without increasing the number of registers inside it. our experimental results show that our proposal improves the effectiveness of ltrf by 29%, and ltrf’s performance by about 18% (about 30% improvement over baseline gpu architecture). moreover, our proposal reduces gpu energy and power consumption by respectively 38% and 15%, on average.
|
|
|
|
|
|
|
|
|
|
|
|
|