مقایسه آپاچی اسپارک و آپاچی فلینک در خوشه بندی داده های بلورشناسی

Fa | Ar | En

مقایسه آپاچی اسپارک و آپاچی فلینک در خوشه بندی داده های بلورشناسی

DOR	20.1001.2.9819014903.1398.1.1.46.1
نویسنده	ایمانی ایمان ,خالقی علی ,حیدر هادی ,محمودی کامران ,رحیقی جواد ,پروینی طاهره سادات ,اکبری محسن ,جعفرزاده خطیبانی مرتضی ,احمد محرابی‌ فاطمه ,خلیل زاده علی ,نویدپور پدرام ,محمدی سمیرا
منبع	كنفرانس ملي شتابگرهاي ذرات و كاربردهاي آن - 1398 - دوره : 4 - چهارمین کنفرانس ملی شتابگرهای ذرات و کاربردهای آن - کد همایش: 98190-14903
چکیده	خوشه‌بندی امری مهم در تحلیل داده ها است. در سال‌های اخیر پروژه‌های متن‌باز بسیاری مانند آپاچی فلینک و آپاچی اسپارک برای چنین اموری توسعه پیدا کرده اند.در این مقاله با استفاده از این ابزار، داده‌های بلورشناسی را به منظور یافتن ابزار مناسب‌تر برای خوشه‌بندی این نوع داده ها، خوشه بندی می کنیم. خوشه بندی داده های بلورشناسی در این مقاله توسط الگوریتم کا میانگین کتابخانه‌های یادگیری ماشین اسپارک و فلینک صورت گرفت و در نهایت نتایج به دست آمده تفاوت عملکرد و استفاده از منابع را بین آپاچی اسپارک و آپاچی فلینک نشان خواهد داد.
کلیدواژه	بلورشناسی ,خوشه‌بندی ,داده‌های حجیم ,آپاچی فلینک ,آپاچی اسپارک
آدرس	دانشگاه بین‌المللی امام خمینی(ر.ه), ایران, دانشگاه بین‌المللی امام خمینی(ر.ه), ایران, دانشگاه بین‌المللی امام خمینی(ر.ه), ایران, دانشگاه بین‌المللی امام خمینی(ر.ه), ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران, چشمه نور ایران، پژوهشگاه دانش های بنیادی, ایران

Comparing Apache Spark and Apache Flink on clustering crystallographic data

Authors
Abstract	Data clustering is an important task in data analytics. In recent years many opensource projects have been developed to do such tasks like Apache Spark and Apache Flink, on big unstructured data. In this work, we cluster data using these tools and compare the performance in clustering crystallographic data to find out which of these tools are better specifically for data clustering in crystallography. The clustering of these crystallographic data has been accomplished with Spark's MLlib and Flink's FlinkML using K-means clustering algorithm. The results then would show the difference in performance and resource usage between Apache Spark and Apache Flink.
Keywords	بلورشناسی ,خوشه‌بندی ,داده‌های حجیم ,آپاچی فلینک ,آپاچی اسپارک