>
Fa   |   Ar   |   En
   معماری سامانه گراف دانش زبان فارسی  
   
نویسنده سجادی محمد باقر ,مینایی بیدگلی بهروز
منبع پژوهشنامه پردازش و مديريت اطلاعات - 1398 - دوره : 35 - شماره : 2 - صفحه:425 -462
چکیده    گراف دانش به عنوان یکی از بسترهای مهم جهت ورود به عرصه وب معنایی و توسعه ابزارهای پردازش زبان طبیعی شناخته می شود. تاکنون پایگاه های دانش مختلفی در زبان های گوناگون ایجاد شده است، اما فقدان چنین پایگاهی در کاربردهای پژوهشی و صنعتی که به زبان فارسی اختصاص داشته باشد، کاملاً مشهود است. در این مقاله جامع ترین پایگاه دانش زبان فارسی به صورت عمومی و چنددامنه ای مشتمل بر 500 هزار موجودیت و 7 میلیون رابطه میان آن ها با عنوان »فارس بیس « ارائه می گردد که به صورت متن باز در دسترس است. منابع اطلاعاتی »فارس بیس « عبارت اند از: اطلاعات ساخت یافته »ویکی پدیا « مانند جعبه های اطلاعاتی، جداول وب و همچنین اطلاعاتی که توسط ماژول استخراج گر رابطه از متن خام استخراج شده اند. موجودیت های گراف دانش در یک هستان شناسی برگرفته از »دی بی پدیا « و سفارشی شده برای »فارس بیس «، سازماندهی شده است. به منظور پیوند جعبه های اطلاعاتی »ویکی پدیا « به هستان شناسی بیش از 7000 نگاشت میان الگوها و خصیصه های »ویکی پدیا « با هستان شناسی برقرار شده است. همچنین، با روش های یادگیری ماشین و با نظارت خبرگان، قسمتی از هستان شناسی و تعدادی از موجودیت ها به »فارس نت « متصل شده اند. مدل داده ای گراف دانش فارسی بر اساس استاندارد وب معنایی و به صورت rdf پیاده سازی شده است. بنابراین، داده ها به صورت سه تایی در پایگاه دانش ذخیره شده و می توان از طریق زبان sparql پرس وجوهای معنایی را بیان نمود. در حال حاضر، اطلاعات متنوعی به صورت ساخت یافته راجع به اشخاص مشهور، مکان های مهم، سازمان ها و شرکت ها، آثار ادبی و هنری، گونه های زیستی شامل گیاهان و حیوانات، رویدادها، زیست شناسی و اخترشناسی در این گراف قابل دسترسی است. به منظور خدمت رسانی به موتورهای جست وجو یک سامانه جست وجو روی موجودیت ها و گزاره های آن پیاده سازی شده است. »فارس بیس « از چهار جنبه صحت، فراخوانی، پوشش، و تازگی اطلاعات مورد ارزیابی قرار گرفته که نتایج به دست آمده حکایت از غنی بودن آن دارد. بستر گراف دانش می تواند در کاربردهای بسیاری نظیر موتورهای جست وجو، سامانه پرسش و پاسخ، بازیابی اطلاعات، پردازش زبان طبیعی، تشخیص موجودیت، مشابهت یابی متن و هر کاربردی که نیازمند موجودیت های فارسی و ارتباط میان آن هاست، مورد استفاده قرار گیرد.
کلیدواژه گراف دانش، زبان فارسی، چارچوب توصیف منبع، وب معنایی، داده ‌های پیوندی
آدرس دانشگاه آزاد اسلامی واحد تهران مرکزی, دانشکده کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده کامپیوتر, ایران
پست الکترونیکی b_minaei@iust.ac.ir
 
   The Architecture of Farsi Knowledge Graph System  
   
Authors Sajadi Mohamad Bagher ,Minaei Bidgoli Behrouz
Abstract    The knowledge graph plays an important role in the Semantic Web and Natural Language Processing (NLP) tools. There are many knowledge bases in different languages, however lack of Farsispecific knowledge base appears some defects in research and industrial applications. In this study, the most comprehensive knowledge base in Farsi language is presented, which consists of more than 500K of entities and 7 million relations, which is accessible in an open source repository. Data is supplied from four sources: Farsi Wikipedia and its structured data such as infoboxes, web tables, Wiki tables, and a relation extraction module. A variety of challenges of triple extraction from web tables, especially wiki tables, is addressed and some solutions to tackle these challenges are offered. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. The FKG consists of several main parts including triple extraction from raw text, triple extraction from structured data, knowledge base creation, a search system on the knowledge base, and an entity linking module. In this paper, overall architecture of these parts is discussed in detail. One of the major contribution of this work is mapping of the ontology to the FarsNet, the Persian WordNet, for research purposes. In this graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. For evaluation purposes, a small part of triples were randomly collected to build a test dataset for manually inspection. Experimental results demonstrate that more than 94% of triples were obtained correctly through the process of extraction, conversion, mapping, transformation and store. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in developingthis emerging technology.
Keywords Knowledge Base ,RDF ,Semantic Web ,Farsi Language ,Linked Data
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved