|
|
رایانش سریع از طریق ارتقای جنگل تصادفی با استفاده از دو تکنیک فشردهسازی و موازیسازی
|
|
|
|
|
نویسنده
|
محمدکریمی نعیمه ,قاسم زاده محمد ,یزدیان دهکردی مهدی ,نظارات امین
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1399 - دوره : 18 - شماره : 2 - صفحه:138 -144
|
چکیده
|
در این پژوهش به دنبال ارتقای یکی از الگوریتمهای کارامد در یادگیری ماشین، به نام جنگل تصادفی هستیم. برای این منظور از تکنیکهای فشردهسازی و موازیسازی بهره میبریم. چالش اساسی مورد توجه در این پژوهش، در رابطه با به کارگیری جنگل تصادفی در پردازش و تحلیل دادههای حجیم میباشد. در چنین مواردی، این الگوریتم به دلیل مراجعات پرشمار به حافظه، کارایی معمول و مورد نیاز را ندارد. این پژوهش نشان میدهد که چگونه میتوان با به کارگیری یک شیوه فشردهسازی ابتکاری، در کنار تکنیکهای موازیسازی به هدف مورد نظر دست یافت. در این رابطه، اجزای مشترک درختان در جنگل تصادفی با یکدیگر به اشتراک گذاشته میشوند. علاوه بر این، روش موازیسازی مبتنی بر دستورات برداریسازی به همراه روش موازیسازی مبتنی بر حافظه اشتراکی در جریان پردازش دادهها به کار میروند. به منظور ارزیابی عملکرد روش پیشنهادی، آن را بر روی مجموعه دادههای محک kaggle که در رقابتهای مربوط به الگوریتمهای یادگیری به وفور به کار میروند، اجرا نمودیم. نتایج بهدستآمده حاکی از آن است که به کارگیری روش فشردهسازی پیشنهادی، 66 درصد بهبود در سرعت پردازش دادهها به دنبال داشته است. همچنین به کارگیری فشردهسازی به همراه موازیسازی یادشده، 96 درصد بهبود را به همراه داشته است. به طور کلی نتایج آزمایشی و تحلیلها دلالت بر این دارند که راهکارهای پیشنهادی، قدمی موثر در راستای رسیدن به رایانش سریع برای جنگل تصادفی در اختیار میگذارد.
|
کلیدواژه
|
یادگیری ماشین، جنگل تصادفی، رایانش سریع، فشردهسازی، موازیسازی، داده حجیم
|
آدرس
|
دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه ماساریک, دانشکده مهندسی کامپیوتر, جمهوری چک
|
پست الکترونیکی
|
nezarat@ics.muni.cz
|
|
|
|
|
|
|
|
|
High Performance Computing via Improvement of Random Forest Algorithm Using Compression and Parallelization Techniques
|
|
|
Authors
|
Mohammad Karimi Naeimeh ,Yazdian Dehkordi Mahdi ,Nezarat Amin
|
Abstract
|
This research seeks to promote one of the widely being used algorithms in machine learning, known as the random forest algorithm. For this purpose, we use compression and parallelization techniques. The main challenge we address in this research is about application of the random forest algorithm in processing and analyzing big data. In such cases, this algorithm does not show the usual and required performance, due to the needed large number of memory access. This research demonstrates how we can achieve the desired goal by using an innovative compression method, along with parallelization techniques. In this regard, the same components of the trees in the random forest are combined and shared. Also, a vectorizationbased parallelization approach, along with a sharedmemorybased parallelization method, are used in the processing phase. In order to evaluate its performance, we run it on the Kaggle benchmarks, which are being used widely in machine learning competitions. The experimental results show that contribution of the proposed compression method, could reduce 61% of the required processing time; meanwhile, application of the compression along with the named parallelization methods could lead to about 95% of improvement. Overall, this research implies that the proposed solution can provide an effective step toward high performance computing.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|