|
|
بررسی نقش هستیشناسی و نمودار دانش در طبقهبندی اسناد متنی: مروری بر مطالعات
|
|
|
|
|
نویسنده
|
خلیلیان سعیده ,پشوتنی زاده میترا ,منصوری علی ,برادران کاشانی حمیدرضا
|
منبع
|
مطالعات كتابداري و سازماندهي اطلاعات - 1403 - دوره : 35 - شماره : 2 - صفحه:167 -196
|
چکیده
|
هدف: باتوجه به افزایش نرخ استفاده از اینترنت و افزایش حجم اسناد الکترونیکی قابلمشاهده در وب، طبقهبندی خودکار متن تبدیل به یکی از روشهای کلیدی برای ارتقای بازیابی اطلاعات و مدیریت دانش مجموعههای متنی دیجیتالی شده است. افراد با طبقهبندی متون میتوانند اطلاعات موردنیاز خود را با دقت بیشتر و سرعت بالاتر جستجو و بازیابی کنند. آن چیزی که در بحث طبقهبندی خودکار اسناد حائز اهمیت است، برچسبگذاری اسناد به کلاسهای از پیش تعریف شده است، بهگونهای که اسنادی که در یک طبقه جای میگیرند بیشترین شباهت و با اسناد سایر طبقهها بیشترین تفاوت را داشته باشند و قابلیت استفاده از روابط معنایی را داشته باشد. در این راستا، پژوهش حاضر به بررسی نقش هستی شناسی و نمودار دانش در طبقهبندی خودکار اسناد متنی میپردازد.روش: این مطالعه به مرور پژوهش ها و اسناد مرتبط با کاربرد ابزارهای معنایی مانند هستی شناسی ها و نمودار دانش در طبقه بندی اسناد متنی پرداخته است. به منظور جمعآوری متون، سه پایگاه اطلاعاتی داخلی شامل «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی» و «مرجع دانش» و سه پایگاه استنادی خارجی یعنی «وب آو ساینس»، «اسکوپوس» و «گوگل اسکالر» بدون درنظرگرفتن بازۀ زمانی در هر دو دسته بررسی شده است.یافتهها: نتایج واکاوی متون نشان داد در مدل فضای برداری ارتباط معنایی بین کلمات در نظر گرفته نمی شود و ترتیب کلمات در جملات از بین میرود. با نادیدهگرفتن روابط معنایی و نحوی مختلف بین کلمات در زبان طبیعی، بازنمایی متفاوتی از اسناد فراهم میشود؛ اما هستیشناسیها و نمودار دانش با دریافت معنای موجودیتها و کلاسها به تقویت مدلهای یادگیری ماشینی کمک مینمایند. استفاده از این ابزارها به عنوان یک مرجع خارجی در حین فرایند طبقهبندی عمل میکند و دانش زمینه را برای مدلهای طبقهبندی فراهم مینماید. بهطورکلی استفاده از این ابزارها به ماشیننها اجازه میدهند معنای دادههایی را که با آنها کار میکنند، درک کنند.نتیجهگیری: کاربست هستیشناسیها و نمودار دانش در طبقهبندی اسناد متنی میتواند موجب تقویت نتایج الگوریتمهای یادگیری ماشین از طریق بهره برداری از دانش زمینه شود. این ابزارها میتواند معانی کلمات را از جملات دارای ابهام آزاد نموده و مشکلات مرتبط با زبان طبیعی را حل کند. استفاده از هستیشناسی و نمودار دانش میتواند بهطور موثری در طبقهبندی اسناد متنی کمک کند و باعث ارتقای دقت و کارایی مدلهای طبقهبندی شود؛ اما ساخت و ادغام هستی شناسی و نمودار دانش امری خستهکننده، زمان بر و پیچیده است که امکان پذیری و ارزش عملی آنها را محدود میکند. در زبان فارسی علاوه بر مشکل مطرحشده در بهکارگیری هستیشناسیها و نمودار دانش در طبقهبندی اسناد، محدودیتهایی مانند ویژگیهای خاص زبان فارسی در نگارش و محدودیت فنی وجود دارد؛ لذا استفاده از هستی شناسی و نمودارهای دانش عمومی و یا دامنه در بحث طبقه بندی اسناد نیازمند توجه به این محدودیتها و پیچیدگیهای فنی است و علاوه بر این مستلزم توسعه و تلاشهای بیشتری بالاخص در زبان فارسی است.
|
کلیدواژه
|
طبقهبندی خودکار، اسناد متنی، نمودار دانش، هستیشناسی، دانش دامنه
|
آدرس
|
دانشگاه اصفهان, ایران, دانشگاه اصفهان, گروه علم اطلاعات و دانش شناسی, ایران, دانشگاه اصفهان, گروه علم اطلاعات و دانش شناسی, ایران, دانشگاه اصفهان, گروه مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
hrb.kashani@eng.ui.ac.ir
|
|
|
|
|
|
|
|
|
the role of ontology and knowledge graph in text document classification: a review of studies
|
|
|
Authors
|
khalilian saiede ,pashootanizade mitra ,mansori ali ,baradaran kashani hamidreza
|
Abstract
|
purpose: with the increasing use of the internet and the growing volume of electronically accessible documents on the web, automatic text classification has become a critical method for enhancing information retrieval and managing digital text collections. text classification allows individuals to search for and retrieve information more accurately and quickly. the significance of automatic document classification lies in labeling documents into predefined classes so that documents within a class exhibit the highest similarity and the most remarkable dissimilarity with documents from other classes while utilizing semantic relationships. this study investigates the application of ontology and knowledge graphs in automatic text document classification.method: this study reviewed research and documents related to applying semantic tools such as ontologies and knowledge graphs in text document classification. to collect texts, three domestic databases, including the &national journal database,& the &scientific information database of jihad university,& and &marefate danesh,& along with three internal databases &magiran,& &sid& and &civilica& and three external citation databases, such as &web of science&, &scopus& and &google scholar& it has been examined in both categories, regardless of the period.findings: results of text exploration show that the vector space model does not consider the semantic relationships between words and disregards the word order in sentences. neglecting the semantic and syntactic relationships between words in natural language provides a different representation of documents. however, ontologies and knowledge graphs help strengthen machine learning models by capturing the meaning of entities and classes. these tools act as an external reference during the classification process and provide domain knowledge for classification models. using these tools generally allows machines to comprehend the meaning of the data they work with.conclusion: the application of ontologies and knowledge graphs in classifying textual documents can strengthen the results of machine learning algorithms through background knowledge. these tools can free the meanings of words from ambiguous sentences and solve problems related to natural language. using ontology and knowledge graphs can effectively help classify textual documents and improve the accuracy and efficiency of classification models. however, constructing and integrating ontologies and knowledge graphs is a tedious, time-consuming, and complex task that limits the feasibility and practical application of these tools. in the persian language, in addition to the problems raised in the application of ontologies and knowledge graphs in the classification of documents, there are limitations such as the specific features of the language in writing and technical limitations. therefore, the use of ontology and knowledge graphs in discussing the classification of textual documents requires attention to linguistic limitations and technical complexity, and the need for further development and efforts is felt, especially in persian.
|
Keywords
|
automatic classification ,text documents ,knowledge graph ,ontology ,domain knowledge
|
|
|
|
|
|
|
|
|
|
|