خوشه‌بندی مقالات علمی بر پایه الگوریتم k_means مطالعه موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک)

Fa | Ar | En

خوشه‌بندی مقالات علمی بر پایه الگوریتم k_means مطالعه موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک)


نویسنده	سلیمانی نژاد عادل ,سلاجقه مژده ,طیبی الهام
منبع	پژوهشنامه پردازش و مديريت اطلاعات - 1397 - دوره : 34 - شماره : 2 - صفحه:871 -896
چکیده	با رشد روزافزون منابع و مقالات در سطح وب، به کارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، به کارگیری تکنیک های متن کاوی، گامی ارزشمند در جهت کشف دانش از مستندات متنی به شمار می رود. هدف اصلی این پژوهش خوشه بندی پایگاه »پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) « بر اساس فنون متن کاوی است تا مقالات موجود به چند خوشه تقسیم شوند؛ به طوری که مقالات خوشه های مختلف حداکثر تفاوت ممکن و مقالات موجود در هر خوشه بیشترین شباهت را با هم داشته باشند. مقالات حوزه های مرتبط با فناوری اطلاعات انتخاب شدند. بدین منظور، ابتدا تمام کلیدواژه های حوزه های فناوری اطلاعات بر اساس دفعات بسامد آن ها در مقالات پایگاه انتخاب و سپس، مقالات هر کلیدواژه از پایگاه »ایرانداک « استخراج گردید. آنگاه، با استفاده از نرم افزار notepad++ مجموعه داده مورد نظر ایجاد گردید. در این پژوهش برای انجام خوشه بندی از الگوریتم k_means و از معیار تابع فاصله اقلیدسی برای اندازه گیری تشابه خوشه ها استفاده گردید. سپس، نتایج حاصل از خوشه بندی مورد تجزیه و تحلیل قرار گرفت تا میزان شباهت و الگوی مناسب میان مقالات کشف شد. الگوی مورد نظر نشان داد که بیشترین میزان مشابهت میان مقالات دو خوشه داده کاوی و شبکه عصبی با فاصله اقلیدسی 365/1 وجود دارد و کمترین میزان شباهت میان مقالات دو خوشه بهینه سازی و پردازش تصویر با فاصله 387/1 گزارش شده است. دانش حاصل از پژوهش عبارت است از: خوشه بندی مقالات مرتبط با بیشترین و کمترین میزان مشابهت با یکدیگر، یافتن الگوی جدید جهت دسترسی سریع و آسان به مقالات مشابه، و کشف ارتباط پنهان میان موضوعات مختلف. این دانش به پژوهشگران کمک می کند که بتوانند مقالات موضوعی مرتبط با تخصص خود و مشابه با موضوع مورد مطالعه را به نحوی مطلوب تر شناسایی کنند.
کلیدواژه	k_means algorithm، متن کاوی، خوشه بندی، الگوریتم k_means، معیار تابع فاصله اقلیدسی، پایگاه ایرانداک
آدرس	دانشگاه شهید باهنر کرمان, بخش علم اطلاعات و دانش شناسی, ایران, دانشگاه شهید باهنر کرمان, بخش علم اطلاعات و دانش شناسی, ایران, دانشگاه شهید باهنر کرمان, بخش علم اطلاعات و دانش شناسی, ایران
پست الکترونیکی	tayebiniya.elham@yahoo.com

Clustering scientific articles based on the k_means algorithmCase Study: Iranian Research Institute for information Science and Technology (IranDoc)

Authors	Soleimani Nezhad Adel ,salajegheh Mozhdeh ,Tayyebi Nia Elham