|
|
دادگان پرسش و پاسخ زبان فارسی
|
|
|
|
|
نویسنده
|
فروتن راد جواد ,حورعلی مریم ,کیوان راد محمدعلی
|
منبع
|
پردازش علائم و داده ها - 1402 - شماره : 4 - صفحه:107 -120
|
چکیده
|
پاسخ سریع و دقیق به سوالات مطرح شده به زبان طبیعی یکی اهداف مهم در توسعه سیستمهای پرسشوپاسخ است که در آن رایانه یک متن و سوال را درک میکند و پاسخ دقیق را برای کاربر ارائه مینماید. با اینکه پیشرفتهای زیادی در این حوزه صورتگرفته است اما همچنان جزو مسائلی است که نیاز به ارتقا خصوصاً برای زبانهای غیر از انگلیسی مثل زبان فارسی است. در این مقاله دادگان پرسشوپاسخ زبان فارسی (farsiquad) تهیه شده که توسط انسان و از مقالات ویکیپدیای فارسی ایجاد گردیده و در دو نسخه منتشر شده است. نسخه 1 شامل 10000+ پرسشوپاسخ و نسخه 2 این شامل مجموعه بیش از 145000+ ردیف است. این دادگان قابلیت تجمیع با نسخه انگلیسی squad و سایر دادگان زبانهای دیگر که از این استاندارد استفاده کرده باشند را دارد و برای عموم منتشر شده است. این دادگان جهت ساخت مدلهای هوش مصنوعی مبتی بر یادگیری عمیق و برای استفاده در سامانههای پرسش و پاسخ زبان فارسی است. نتایج این تحقیق نشان میدهد دادگان پرسشوپاسخ زبان فارسی ایجاد شده میتواند پاسخ به سوالات مطرح شده به زبان طبیعی فارسی را با معیار تطابق دقیق 78 درصد و معیار f1 87 درصد برساند که هنوز نیازمند ارتقا است.
|
کلیدواژه
|
دادگان پرسش و پاسخ زبان فارسی، سیستمهای پرسش و پاسخ، درک مطلب، یادگیری عمیق، پردازش زبان طبیعی
|
آدرس
|
دانشگاه صنعتی مالک اشتر, ایران, دانشگاه صنعتی مالک اشتر, مجتمع برق و کامپیوتر, ایران, دانشگاه صنعتی مالک اشتر, مجتمع برق و کامپیوتر, ایران
|
پست الکترونیکی
|
keyvanrad@aut.ac.ir
|
|
|
|
|
|
|
|
|
farsi question and answer dataset (farsiquad)
|
|
|
Authors
|
forutanrad javad ,hourali maryam ,keyvanrad mohammadali
|
Abstract
|
fast and accurate answer to the questions asked in natural language is one of the important goals in the development of question and answer systems in which the computer understands a context and question and provides the exact answer to the user. although there has been a lot of progress in this area, it is still among the issues that need to be improved, especially for languages other than english, such as persian. farsiquad (farsiquad) was created by humans from persian wikipedia articles and published in two versions. version 1 contains 10,000+ questions and answers and version 2 contains a collection of over 145,000+ rows. this database has the ability to integrate with the english version of squad and other databases of other languages that have used this standard.the results of this research show that the created persian language question and answer database can provide the user with the answer to the questions asked in the natural persian language with an exact matching criterion of 78% and an f1 criterion of 87%, and it still needs to be improved.
|
Keywords
|
question and answer dataset ,question and answer systems ,reading omprehension ,deep learning ,natural language processing ,factoid questions
|
|
|
|
|
|
|
|
|
|
|