|
|
دادهکاوی و استقرار دادگان اصطلاحنامه چندزبانۀ فرهنگی ایران (اصفا) در چهارچوب کریسپ
|
|
|
|
|
نویسنده
|
اکبری داریان سعیده
|
منبع
|
مطالعات كتابداري و سازماندهي اطلاعات - 1402 - دوره : 34 - شماره : 1 - صفحه:58 -82
|
چکیده
|
هدف: نظام سادۀ سازماندهی دانش (اسکاس) یک مدل دادهای رایج برای بهاشتراکگذاری و پیونددهی نظامهای سازماندهی دانش از طریق وب است. اسکاس، مسیر مهاجرت استاندارد و کمهزینه را برای انتقال نظامهای سازمان دانش موجود به وب معنایی ارائه میدهد. پیوستن اصفا به جریان وب معنایی نیازمند تبدیل و استقرار دادگان اصفا براساس اسکاس در قالب گراف آر.دی.اف. است. به این منظور باید رکوردهای مبتنی بر مارک ایران مهندسی مجدد شوند. هدف پژوهش حاضر، مهندسی مجدد دادگان اصفا با دادهکاوی آنها در چهارچوب کریسپ و استقرار آنها بر روی پلتفرم اسکاسموس است.روش: این پژوهش از نوع توسعهای – کاربردی است و از روششناسی کریسپ-دی.ام.، از نوع بدون نظارت و خوشهبندی سلسلهمراتبی برای دادهکاوی استفاده شده است. در مرحلۀ اول درک کسب و کار، هدف اصلی تبدیل دادگان اصفا به مدل دادهای اسکاس در قالب گراف آر.دی. اف. تعیین شد. در مرحلۀ درک داده، دادههای میراثی اصفا شامل 11006 رکورد ذخیره شده در قالب مارک ایران و شامل 18 حوزه، آموزش و پرورش، ادبیات، ارتباطات، اقتصاد، تاریخ، تصوف و عرفان، جامعهشناسی، جغرافیا، حقوق، روانشناسی، زبانشناسی، دین، علوم سیاسی، فلسفه، فناوری و علوم تجربی، کتابداری و اطلاع رسانی، مدیریت و فرهنگ و هنر است. در مرحلۀ سوم آمادهسازی داده، دادههای مفقود و پرت شناسایی و ویرایش شد. برای انتخاب ویژگیها در لایۀ پیشپردازش مهندسی داده، عناصر ضروری برای تبدیل به اسکاس شناسایی و جدول انطباق آنها با فیلدهای مارک ایران تدوین گردید. در مرحلۀ مدلسازی، مقادیر ویژگی هدف با تکنیک خوشهبندی سلسلهمراتبی و با استفاده از ماکروکد در اکسل تولید شد. ارزیابی مدل با تکنیک بررسی بصری و روش نمونهگیری تصادفی مورد تایید قرار گرفت. در مرحلۀ ششم تبدیل دادههای مارک ایران به اسکاس در قالب گراف آر.دی.اف. با استفاده از ابزار اسکاسپلی انجام و دادهها به بستر پلتفرم ووکبنچ انتقال یافت. با استفاده از قالب تورتل، دادگان اصفا در پلتفرم اسکاسموس مستقر شد.یافتهها: یافته اصلی پژوهش، استقرار و توسعۀ دادگان اسکاس اصفا در پلتفرم منبع باز اسکاسموس به نشانی skosmos.nlai.ir است. مجموع رکوردها پس از ایجاد رکوردهای مربوط به حوزه و مجموعه برای خوشهبندی به 11880 رکورد افزایش یافت. در مرحلۀ آمادهسازی داده یکی از یافتههای مهم، تدوین جدول انطباق بین عناصر هستۀ اسکاس و فیلدهای مارک ایران بود.نتیجهگیری: در این پژوهش با بهرهگیری از علم داده، روش نوآورانهای برای دادهکاوی دادگان اصطلاحنامهای بهکار رفت. روششناسیهای بهکار رفته در ادبیات این پژوهش تنها در دو مرحلۀ آمادهسازی و استقرار و توسعه از شش مرحلۀ بهکار رفته در این پژوهش جا گرفتند.
|
کلیدواژه
|
دادهکاوی، اسکاس، مارک ایران، گراف آر.دی.اف. مهندسی مجدد، اسکاسموس، اصطلاحنامه اصفا
|
آدرس
|
سازمان اسناد و کتابخانه ملی ایران, ایران
|
پست الکترونیکی
|
sakbaridaryan@gmail.com
|
|
|
|
|
|
|
|
|
data mining and deployment of multilingual iranian cultural thesaurus (asfa) dataset in the crisp framework
|
|
|
Authors
|
akbari daryan saeedeh
|
Abstract
|
purpose: the simple knowledge organization system (skos) is a widely used data model for sharing and linking knowledge organization systems on the web. it offers a cost-effective way to migrate existing knowledge organization systems to the semantic web. to integrate asfa into the semantic web, the asfa dataset needs to be converted and deployed as an rdf graph based on skos. to achieve this, the records in asfa’s iran marc format must be re-engineered. this study aims to re-engineer the asfa dataset using data mining in the crisp framework and deploy it on the open-source platform skosmos. method: the study used the developmental-applied type of research and employed the crisp-d.m. methodology, unsupervised type, and hierarchical clustering technique for data mining to start the project, we first needed to understand the business goal. this goal was to convert the asfa dataset into the skos data model, creating an rdf graph. it was discovered that asfa’s heritage data comprises 11,006 records categorized into 18 fields, including education, literature, communication, economy, history, sufism and mysticism, sociology, geography, law, psychology, linguistics, religion, political science, philosophy, technology, experimental science, librarianship and information, management, culture, and art. the data was prepared by identifying and correcting missing and outlier data and before starting the project, our team needed to fully comprehend the business’s objective. the ultimate goal was to convert the asfa dataset into the skos data model. this was done to better comprehend the business objective. creating an rdf graph. the modeling stage utilized the hierarchical clustering technique macrocode in excel to generate target feature values. the model was evaluated through a visual inspection technique and random sampling method. in the sixth step, iran marc data was converted to skos as an rdf graph using the skosplay tool, and the data was transferred to the vocbench platform. asfa dataset was deployed on the skosmos platform using the turtle format.findings: the main finding of this study is the deployment and development of asfa dataset based on skos/rdf on the open source platform skosmos at kosmos.nlai.ir. the total number of records increased to 11,880 records creating collection records for clustering. one of the important findings during the data preparation stage was the compilation of the mapping table between skos core elements and iran marc fields.conclusion: by integrating stages of methodologies used in the literature review within the crisp framework, an innovative method was developed for converting thesauri into a lightweight ontology based on skos/rdf graph format.
|
Keywords
|
data mining ,skos ,iran marc ,rdf graph ,reengineering ,skosmos ,asfa thesaurus
|
|
|
|
|
|
|
|
|
|
|