|
|
بکارگیری خوشهبندی مفهومی برای استخراج عبارات کلیدی و اصطلاحات مرتبط: مطالعه موردی متون حوزه ارتباطات علمی
|
|
|
|
|
نویسنده
|
کیانی شاهوندی رجب ,شعبانی احمد ,عاصمی عاصفه ,محمدی استانی مرتضی
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1403 - دوره : 39 - شماره : 4 - صفحه:1477 -1505
|
چکیده
|
ارتباط علمی از انواع و گونه های ارتباطات است که از طریق به کارگیری روش ها و ابزارهای ارتباطی و با هدف تبادل دانش و اطلاعات علمی انجام میشود. به منظور احراز دیدگاهی جامع درباره ارتباطات علمی و پژوهشی و تقویت آن باید اصطلاحات و مفاهیم آن شناسایی گردد. از این رو، هدف اصلی پژوهش حاضر شناسایی و خوشه بندی مفهومی اصطلاحات و مفاهیم کلیدی در حوزه ارتباطات علمی با استفاده از تکنیک های متن کاوی است.روش پژوهش حاضر از لحاظ رویکرد، کمی و از لحاظ هدف، کاربردی است. برای شناسایی و خوشه بندی اصطلاحات کلیدی در حوزه ارتباطات علمی از تکنیک های مختلف متن کاوی استفاده گردید. جامعه آماری پژوهش حاضر، مشتمل بر چکیده مقالات مرتبط با حوزه ارتباطات علمی مستخرج از پایگاه های اطلاعاتی «وب آوساینس» و «اسکوپوس» به تعداد 558 مقاله و روش نمونه گیری، سرشماری بود. ابتدا تمامی اصطلاحات و عبارات اسمی با استفاده از کتابخانه های موجود با کدنویسی به زبان «پایتون» استخراج، و فراوانی واژگان محاسبه گردید. سپس هر عبارت مرکب به واژگان تشکیل دهنده آن تجزیه شده و بر مبنای واژه نامه «گلاو» و با محاسبه میانگین بردارهای آن کلمات، یک بردار عددی تخصیص یافت. برای اصطلاحات ناشناخته نیز که در واژهنامه «گلاو» وجود نداشت یک عبارت معادل با استفاده از واژگان موجود جهت توصیف آن، جایگزین و بردار عددی عبارت ساخته شد و خوشه بندی (به روش کا مینز) بر روی آن واژگان انجام شد. یافته ها نشان داد که از 17930 کلیدواژه مستخرج، تعداد 13651 واژه، عبارت اسمی بود. همچنین، 16 درصد از اصطلاحات حوزه ارتباطات علمی، تکواژهای و 84 درصد آن مرکب بودند. پس از ایجاد بردارهای اصطلاحات مرکب و انجام خوشه بندی، از 792 عبارت یا اصطلاح در حوزه ارتباطات علمی، تعداد 40 خوشه مفهومی ایجاد گردید. پس از تعدیل و حذف خوشه های ضعیف، سرانجام تعداد 22 خوشه در حوزه ارتباطات علمی شناسایی گردید. شناسایی مفاهیم اصلی در ارتباطات علمی در قالب خوشه های مفهومی و عناصر آن از نتایج پژوهش حاضر قلم داد میشود. از مهمترین یافته های دیگر پژوهش، تخصیص بردارهای عددی به عبارات ترکیبی از روی بردار واژگان تشکیل دهنده آنها و سپس استفاده از این بردارها برای خوشه بندی و دسته بندی عبارات و همچنین قابلیت بهبود و تصحیح بعضی از خوشه ها بود. این روش در خوشه بندی و دسته بندی مفاهیم امکان توجه به جنبه های معناشناسی و یادگیری را مورد توجه قرار میدهد و به تحلیل دقیق اصطلاحات و عبارات کلیدی در حوزه های مختلف کمک خواهد کرد.
|
کلیدواژه
|
ارتباطات علمی، متن کاوی، خوشه بندی مفهومی، عبارت اسمی، واژه نامه گلاو، رویکردهای معنایی
|
آدرس
|
دانشگاه اصفهان, ایران, دانشگاه اصفهان, ایران, دانشگاه کوروینوس بوداپست, مجارستان, دانشگاه اصفهان, ایران
|
|
|
|
|
|
|
|
|
|
|
using conceptual clustering to extraction of key phrases and related terms: a case study of scientificcommunication texts
|
|
|
Authors
|
kiyani shahvandi rajab ,shabani ahmad ,asemi asefeh ,mohammadi ostani morteza
|
Abstract
|
scientific communication encompasses various types and forms of communication conducted through the use of communication methods and tools, aiming to exchange scientific knowledge and information. to gain a comprehensive understanding of scientific and research communications and enhance them, it is crucial to identify the terms and concepts. therefore, the main objective of this research is to identify and conceptually cluster key terms in the field of scientific communication using text mining techniques. the present research method is quantitative in terms of approach and practical in terms of purpose and utilized various text mining techniques for identifying and clustering key terms in the field of scientific communication. the research population consists of abstracts of articles related to scientific communication, extracted from databases such as web of science and scopus, totaling 558 articles. the sampling method was census. initially, all nominal phrases were extracted using available libraries. each compound phrase was decomposed into its constituent words, and based on glove dictionary, the average vectors of those words were calculated, assigning a numerical vector to each compound phrase. the researchers created an equivalent expression using existing vocabulary to describe unknown terms that did not exist in the glove dictionary. the clustering (using the k means method) was performed on these vectors. the findings revealed that out of 17,930 extracted keywords, 13,651 terms were noun phrases. also, 16% of terms in the field of scientific communication were single words and 84% of them were compound. after creating vectors of compound terms and performing clustering, 40 conceptual clusters were created from 792 phrases or terms in the field of scientific communication. after adjusting and removing weak clusters, researchers finally identified 22 clusters in the field of scientific communication. identifying the concepts and components in scientific communication in the form of conceptual clusters and its elements is attributed to the results of this research. one of the most significant findings was the assignment of numerical vectors to composite phrases based on the vectors of their constituent words. these vectors were then used for clustering and categorizing phrases, as well as improving and correcting some clusters. this method pays attention to the semantics aspects and learning in the clustering and categorization of concepts and, will aid to precise analysis of key terms and phrases in various fields.
|
Keywords
|
scientific communication ,text mining ,conceptual clustering ,nominal phrase ,glove dictionary ,semantic approaches
|
|
|
|
|
|
|
|
|
|
|