>
Fa   |   Ar   |   En
   ارائه روش رده‌بندی تک‌رده‌ای برای شناسایی متون پژوهشی حوزه محیط زیست ایران با استفاده از ماشین بردار پشتیبان  
   
نویسنده ربیعی محمد ,حسینی مطلق مهدی ,مینایی بیدگلی بهروز
منبع پژوهشنامه پردازش و مديريت اطلاعات - 1398 - دوره : 34 - شماره : 3 - صفحه:1211 -1234
چکیده    رده بندی متون پژوهشی به منظور شناسایی و تحلیل عرضه و تقاضای پژوهشی در حوزه های مختلف علوم اهمیت ویژه ای دارد. در این میان رده بندی پژوهش های حوزه محیط زیست به دلیل اهمیت فراوان آن در کشور و نیز میان رشته ای بودن آن ضروری است. این پژوهش روش رده بندی تک رده ای متون پژوهشی این حوزه را با استفاده از ماشین بردار پشتیبان ارائه می دهد و به ارزیابی پارامترهای مهم تاثیرگذار در کیفیت این رده بندی می پردازد. نتایج نشان می دهد که استفاده از مجموعه داده هسته توصیفی در یادگیری مدل، کارایی بهتری نسبت به هسته محتوایی دارد. همچنین، استفاده از هسته چندجمله ای و وزن دهی دودویی واژه ها در ماتریس بردار ویژگی ها نتایج بهتری نسبت به حالت های معمول دیگر ارائه می کند. در این مطالعه، روش جدید وزن دهی با نام ngtf معرفی و ارائه شده است که نتایج ارزیابی آن نسبت به روش های دیگر، به ویژه در معیار دقت، برتری قابل توجهی دارد. از این رو، می توان از این روش وزن دهی برای تعیین واژگان نماینده یک حوزه پژوهشی استفاده کرد.
کلیدواژه محیط‌زیست، رده‌بندی تک‌رده‌ای، ماشین بردار پشتیبان، متن‌کاوی، وزن‌دهی ng-tf
آدرس دانشگاه علم و صنعت ایران, ایران, دانشگاه علم و صنعت ایران, ایران, دانشگاه علم و صنعت ایران, ایران
پست الکترونیکی b_minaei@iust.ac.ir
 
   Using One-Class SVM for Scientific Documents ClassificationCase study: Iranian Environmental Thesis  
   
Authors Rabiei Mohammad ,MahdiHosseini-Motlagh Seyyed-Mahdi ,Minaei Bidgoli Behrouz
Abstract    The classification of research studies is important in order to identify and analyze the research supply and demand in various fields of science. In particular, the classification of environmental research is essential because of its importance in Iran and its interdisciplinary nature. This research proposes OneClass Classification (OCC) method to classify the research studies in this domain using Support Vector Machine (SVM) and consequently evaluates important parameters affecting the quality of this classification. The results show that the use of descriptive metadata has better performance than the content metadata in order to make a core data set to learn the model. Moreover, the use of the polynomial kernel and the binary weighing of words in the features vector matrix leads to better results than other states. In this paper a new weighing method has been proposed which is superior to the other methods especially in precision criterion. We call this weighing method as NGTF, which can be used in termdocument matrix to determine the indicator terms of scientific domains.
Keywords Environment ,One-Class Classification ,Support Vector Machine (SVM) ,Text Mining ,NG-TF Weighting
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved