|
|
مقایسه آپاچی اسپارک و آپاچی فلینک در خوشه بندی داده های بلورشناسی
|
|
|
DOR
|
20.1001.2.9819014903.1398.1.1.46.1
|
نویسنده
|
ایمانی ایمان ,خالقی علی ,حیدر هادی ,محمودی کامران ,رحیقی جواد ,پروینی طاهره سادات ,اکبری محسن ,جعفرزاده خطیبانی مرتضی ,احمد محرابی فاطمه ,خلیل زاده علی ,نویدپور پدرام ,محمدی سمیرا
|
منبع
|
كنفرانس ملي شتابگرهاي ذرات و كاربردهاي آن - 1398 - دوره : 4 - چهارمین کنفرانس ملی شتابگرهای ذرات و کاربردهای آن - کد همایش: 98190-14903
|
چکیده
|
خوشهبندی امری مهم در تحلیل داده ها است. در سالهای اخیر پروژههای متنباز بسیاری مانند آپاچی فلینک و آپاچی اسپارک برای چنین اموری توسعه پیدا کرده اند.در این مقاله با استفاده از این ابزار، دادههای بلورشناسی را به منظور یافتن ابزار مناسبتر برای خوشهبندی این نوع داده ها، خوشه بندی می کنیم. خوشه بندی داده های بلورشناسی در این مقاله توسط الگوریتم کا میانگین کتابخانههای یادگیری ماشین اسپارک و فلینک صورت گرفت و در نهایت نتایج به دست آمده تفاوت عملکرد و استفاده از منابع را بین آپاچی اسپارک و آپاچی فلینک نشان خواهد داد.
|
کلیدواژه
|
بلورشناسی ,خوشهبندی ,دادههای حجیم ,آپاچی فلینک ,آپاچی اسپارک
|
آدرس
|
دانشگاه بینالمللی امام خمینی(ر.ه), ایران, دانشگاه بینالمللی امام خمینی(ر.ه), ایران, دانشگاه بینالمللی امام خمینی(ر.ه), ایران, دانشگاه بینالمللی امام خمینی(ر.ه), ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران
|
|
|
|
|
|
|
|
|
|
|
Comparing Apache Spark and Apache Flink on clustering crystallographic data
|
|
|
Authors
|
|
Abstract
|
Data clustering is an important task in data analytics. In recent years many opensource projects have been developed to do such tasks like Apache Spark and Apache Flink, on big unstructured data. In this work, we cluster data using these tools and compare the performance in clustering crystallographic data to find out which of these tools are better specifically for data clustering in crystallography. The clustering of these crystallographic data has been accomplished with Spark's MLlib and Flink's FlinkML using K-means clustering algorithm. The results then would show the difference in performance and resource usage between Apache Spark and Apache Flink.
|
Keywords
|
بلورشناسی ,خوشهبندی ,دادههای حجیم ,آپاچی فلینک ,آپاچی اسپارک
|
|
|
|
|
|
|
|
|
|
|