جستاری بر فرایند سازماندهی و بازیابی متون وبی مبتنی بر تجمیع مفاهیم معنایی در راستای سازماندهی دانش

Fa | Ar | En

جستاری بر فرایند سازماندهی و بازیابی متون وبی مبتنی بر تجمیع مفاهیم معنایی در راستای سازماندهی دانش


نویسنده	انبایی فریمانی سعیده ,طباطبایی حمید ,کفاشان کاخکی مجتبی
منبع	پژوهشنامه پردازش و مديريت اطلاعات - 1398 - دوره : 34 - شماره : 4 - صفحه:1879 -1904
چکیده	سازماندهی و بازیابی دانش منتشرشده در محیط وب به‌عنوان یکی از مهم‌ترین کاربردهای متن‌کاوی مطرح است. از جمله چالش‌های سازماندهی مجموعه عظیمی از متون در قالب یک پیکره متنی، ابعاد زیاد ویژگی‌ها و خلوت بودن ماتریس ویژگی‌هاست. نحوه‌ انتخاب ویژگی‌ها و کاهش آن‌ها در این مسئله تاثیر به‌سزایی در بالاتر رفتن دقت سازماندهی و بازیابی متون دارد. در بسیاری از پژوهش‌ها به بررسی جداگانه این دو چالش پرداخته شده است. این پژوهش با رویکرد توجه همزمان به این دو چالش انجام گرفته است. پس از تعیین متون مرتبط با 20 گروه خبری وبی و پس از فاز پیش‌پردازش متون با استفاده از الگوریتم الگو‌سازی عنوان »ال‌دی‌اِی «، کیسه‌ای (تجمیعی) از مفاهیم معنایی برای پیکره متنی مورد نظر ساخته شد. به‌منظور بررسی میزان تاثیر واژه‌‌های پیکره متون در هر مفهوم پنهان، به بررسی نحوه وزن‌دهی واژگان یک پیکره، در مفاهیم استخراج‌شده توسط الگوریتم »ال‌دی‌اِی « پرداخته شد. از این رو، برای هر متن یک توزیع احتمال رخداد حول هر عنوان استخراج گردید که برای سازماندهی و بازیابی دانش موجود در آن مورد استفاده قرار گرفت. برای سازماندهی آن از الگوریتم نزدیک‌ترین k همسایه با معیار شباهت واگرای »کولبک لیبلر « که میزان فاصله دو توزیع احتمال را می‌سنجد؛ استفاده شد. نتایج آزمون‌ها نشان داد که میزان صحت سازماندهی روش پیشنهادی در صورتی که از معیار وزن‌دهی واکشی اطلاعات متقابل نقطه‌ای و الگوریتم klknn استفاده شده باشد، 82.5 درصد است. نتایج تحلیل‌ها نشان داد که این روش دارای دقتی مشابه با روش‌هایی است که از فنون یادگیری عمیق استفاده می‌نمایند. افزون بر این، روش به‌کاررفته در این پژوهش نشان‌دهنده پیچیدگی کمتر در فرایند سازماندهی و بازیابی متون مورد مطالعه پژوهش بود.
کلیدواژه	متن کاوی، طبقه بندی متن، الگوسازی عنوان، بازیابی، سازماندهی دانش، واکشی اطلاعات متقابل نقطه ای
آدرس	دانشگاه آزاد اسلامی واحد مشهد, گروه مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد قوچان, گروه مهندسی کامپیوتر, ایران, دانشگاه فردوسی مشهد, گروه علم اطلاعات و دانش شناسی, ایران
پست الکترونیکی	kafashan@ferdowsi.um.ac.ir

An Investigation into the Process of Organizing and Retrieving Web Texts based on the Integration of Semantic Concept in order to Organize Knowledge

Authors	Anbaee Farimani Saeede ,Tabatabaee Hamid ,kaffashan kakhki Mojtaba
Abstract	Improvement in information retrieval performance relates to the method of knowledge extraction from large amounts of text information on web. Text classification is a way of knowledge extraction with supervised machine learning methods. This paper proposed KullbackLeibler divergence KNN for classifying extracted features based on term weighting with Latent Dirichlet Allocation algorithm. LDA is NonNegative matrix factorization method proposed for topic modeling and dimension reduction of high dimensional feature space. In traditional LDA, each component value is assigned using the information retrieval Term Frequency measure. While this weighting method seems very appropriate for information retrieval, it is not clear that it is the best choice for text classification problems. Actually, this weighting method does not leverage the information implicitly contained in the categorization task to represent documents. In this paper, we introduce a new weighting method based on Point wise Mutual Information for accessing the importance of a word for a specific latent concept, then each document classified based on probability distribution over the latent topics. Experimental result investigated when we used Pointwise Mutual Information measure for term weighing and K Nearest Neighbor with KullbackLeibler distance for classification, accuracy has been 82.5%, with the same accuracy versus probabilistic deep learning methods.
Keywords	: Text Mining ,Text Classification ,Topic Modeling ,Latent Dirichlet llocation ,Document Representation ,Knowledge Organization ,Pointwise Mutual Information