|
|
پیاده سازی الگوریتم خوشه بندی سلسله مراتبی تراکمی بصورت موازی با روش نگاشت و کاهش
|
|
|
|
|
نویسنده
|
توکلی فهیمه ,صافی اصفهانی فرامرز
|
منبع
|
روش هاي هوشمند در صنعت برق - 1399 - دوره : 11 - شماره : 41 - صفحه:15 -32
|
چکیده
|
مدل نگاشتکاهش یک مدل برای اجرای برنامه های کاربردی داده های بزرگ می باشد. همچنین این مدل، یک مدل برنامه نویسی موازی برای نوشتن برنامههایی میباشد که میتوانند بر روی ابر اجرا شوند. سازمان ها بطور فزاینده ای در حال تولید داده هستند که حاصل فرایندهای کسب وکار ، فعالیت های کاربران، ردیابی وب سایت ها، حسگرها، مالی، حسابداری و غیره تولید می شوند. الگوریتم های خوشه بندی داده، به عنوان ابزاری برای تجزیه و تحلیل حجم زیاد داده به کار می روند. هدف اصلی این الگوریتم ها، این است که داده ها را در خوشه هایی دسته بندی کنند، و اشیای داده در هر خوشه با یکدیگر شباهت دارند. در این مقاله، الگوریتم خوشه بندی سلسله مراتبی متراکم که یکی از تکنیک های داده کاوی می باشد با استفاده از طراحی نگاشت و کاهش پیاده سازی شده و سپس نتایج این الگوریتم با حالت بدون نگاشت و کاهش مورد مقایسه قرار می گیرد. آزمایشهای انجام شده نشان میدهد با افزایش اندازه داده های ورودی، زمان اجرا کاهش می یابد. زمان اجرای الگوریتم به روش موازی نسبت به روش ترتیبی برای مجموعه دادهای به اندازه 200 شی داده، 16.80% و برای مجموعه دادهای به اندازه 1000 شی داده، 29.26% بهبود یافت. همچنین درصد استفاده از پردازنده کل سیستم در روش موازی از 22% به 94% ارتقاء یافت.
|
کلیدواژه
|
نگاشت-کاهش، هادوپ، الگوریتمهای خوشهبندی داده، پردازش موازی
|
آدرس
|
دانشگاه آزاد اسلامی واحد نجف آباد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد نجفآباد, دانشکده مهندسی کامپیوترمرکز تحقیقات مه داده- واحد نجفآباد, ایران
|
پست الکترونیکی
|
fsafi@iaun.ac.ir
|
|
|
|
|
|
|
|
|
Implementation of Agglomerative Hierarchical Clustering Algorithm Applying the MapReduce Parallel Approach
|
|
|
Authors
|
Tavakoli Fahimeh ,Safi-Esfahani Faramarz
|
Abstract
|
The mapreduce model is a method for executing large data applications. It is also a parallel programming model for writing applications that can be executed on the cloud. Organizations are increasingly producing data that is generated by business processes, user activities, website tracking, sensors, finance, accounting, and more. Data clustering algorithms are used as tools for analyzing large volumes of data. The main purpose of these algorithms is to categorize data into clusters so that the data objects in each cluster are more similar. In this paper, a dense hierarchical clustering algorithm, one of the data mining techniques, is implemented using mapreduce design and then the results of this algorithm are compared with the usual one. Experiments show that runtime decreases with increasing input data size. The runtime of the algorithm improved by 16.80% for the 200 datapoint dataset, and 29.26% for the dataset with 1000 data points. The percentage of CPU usage in the parallel system also increased from 22% to 94%.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|