>
Fa   |   Ar   |   En
   دادگان پرسش و پاسخ زبان فارسی  
   
نویسنده فروتن راد جواد ,حورعلی مریم ,کیوان راد محمدعلی
منبع پردازش علائم و داده ها - 1402 - شماره : 4 - صفحه:107 -120
چکیده    پاسخ سریع و دقیق به سوالات مطرح شده به زبان طبیعی یکی اهداف مهم در توسعه سیستم‌های پرسش‌وپاسخ است که در آن رایانه یک متن و سوال را درک می‌کند و پاسخ دقیق را برای کاربر ارائه می‎‌نماید. با اینکه پیشرفت‌های زیادی در این حوزه صورت‌گرفته است اما همچنان جزو مسائلی است که نیاز به ارتقا خصوصاً برای زبان‌های غیر از انگلیسی مثل زبان فارسی است. در این مقاله دادگان پرسش‌وپاسخ زبان فارسی (farsiquad) تهیه شده که توسط انسان و از مقالات ویکی‌پدیای فارسی ایجاد گردیده و در دو نسخه منتشر شده است. نسخه 1 شامل  10000+ پرسش‌وپاسخ و نسخه 2 این شامل مجموعه بیش از 145000+ ردیف است. این دادگان قابلیت تجمیع با نسخه انگلیسی squad و سایر دادگان زبان‌های دیگر که از این استاندارد استفاده کرده باشند را دارد و برای عموم منتشر شده است. این دادگان جهت ساخت مدل‌های هوش مصنوعی مبتی بر یادگیری عمیق و برای استفاده در سامانه‌های پرسش و پاسخ زبان فارسی است.  نتایج این تحقیق نشان می‌دهد دادگان پرسش‌وپاسخ زبان فارسی ایجاد شده می‌تواند پاسخ به سوالات مطرح شده به زبان طبیعی فارسی را با معیار تطابق دقیق 78 درصد و معیار f1 87 درصد برساند که هنوز نیازمند ارتقا است.    
کلیدواژه دادگان پرسش‌ و پاسخ زبان فارسی، سیستم‌های پرسش ‌و پاسخ، درک مطلب، یادگیری عمیق، پردازش زبان طبیعی
آدرس دانشگاه صنعتی مالک اشتر, ایران, دانشگاه صنعتی مالک اشتر, مجتمع برق و کامپیوتر, ایران, دانشگاه صنعتی مالک اشتر, مجتمع برق و کامپیوتر, ایران
پست الکترونیکی keyvanrad@aut.ac.ir
 
   farsi question and answer dataset (farsiquad)  
   
Authors forutanrad javad ,hourali maryam ,keyvanrad mohammadali
Abstract    fast and accurate answer to the questions asked in natural language is one of the important goals in the development of question and answer systems in which the computer understands a context and question and provides the exact answer to the user. although there has been a lot of progress in this area, it is still among the issues that need to be improved, especially for languages ​​other than english, such as persian. farsiquad (farsiquad) was created by humans from persian wikipedia articles and published in two versions. version 1 contains 10,000+ questions and answers and version 2 contains a collection of over 145,000+ rows. this database has the ability to integrate with the english version of squad and other databases of other languages ​​that have used this standard.the results of this research show that the created persian language question and answer database can provide the user with the answer to the questions asked in the natural persian language with an exact matching criterion of 78%  and an f1 criterion of 87%, and it still needs to be improved. 
Keywords question and answer dataset ,question and answer systems ,reading omprehension ,deep learning ,natural language processing ,factoid questions
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved