|
|
مجموعهداده چندسطحی فارسی برای بازیابی اطلاعات
|
|
|
|
|
نویسنده
|
عابدزاده علی ,رمضانی رضا ,فاطمی افسانه
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1403 - دوره : 39 - شماره : 3 - صفحه:1109 -1137
|
چکیده
|
هر سامانه بازیابی اطلاعات وظیفه دارد با دریافت یک پُرسه، اسناد مرتبط با آن پُرسه را بازیابی کند. این بازیابی از میان مجموعهای بزرگ از هزاران تا میلیونها سند انجام میشود. در سالهای اخیر، پژوهشهای زیادی برای توسعه سامانههای بازیابی اطلاعات با استفاده از مدلهای زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علتهای اصلی این امر، نبودِ یک مجموعهداده فارسی مناسب برای آموزش مدلهای زبان است. در این پژوهش، ابتدا یک مجموعهداده بازیابی اطلاعات فارسی ارائه شده و پس از آن، روشهایی برای غنیسازی این مجموعهداده مورد بحث قرار گرفته است. این غنیسازی با کمک چندسطحی کردن ارتباط میان پُرسه و سند انجام میشود؛ به نحوی که مجموعهداده جدید میتواند رابطه بین پُرسه و سند را بهجای دو سطح (کاملاً نامرتبط، کاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسیار مرتبط، و کاملاً مرتبط) نشان دهد. مجموعهداده ایجادشده persianmlir نام دارد. آزمایشها بیانگر بهبود عملکرد سامانه، هم برای زبان فارسی و هم برای زبان انگلیسی است و این میزان بهبود برای زبان فارسی 1.87 درصد است.
|
کلیدواژه
|
بازیابی اطلاعات، مدلهای زبان، مجموعهداده بازیابی اطلاعات، مجموعهداده فارسی
|
آدرس
|
دانشگاه اصفهانکامپیوتر؛ دانشگاه اصفهان., دانشکده مهندسی کامپیوتر, ایران, دانشگاه اصفهان, دانشکده مهندسی کامپیوتر, ایران, دانشگاه اصفهانمهندسی کامپیوتر؛ دانشگاه اصفهان., دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
a_fatemi@eng.ui.ac.ir
|
|
|
|
|
|
|
|
|
multi-level persian dataset for information retrieval
|
|
|
Authors
|
abedzadeh ali ,ramezani reza ,fatemi afsaneh
|
Abstract
|
an information retrieval system tries to retrieve documents related to a question/query. the retrieval is done from a largeinformation retrieval systems are an essential part of many smart systems. the applications of this research field include search engines such as google and bing, question-answering systems, modern databases, etc. an information retrieval system tries to retrieve documents related to a question/query. the retrieval is done from a large collection of documents, and the size of this collection can be from a few thousand documents to millions of documents. in recent years, a lot of research has been done to develop information retrieval systems using language models. however, in this research field, no research has been done for the persian language. one of its main reasons is the lack of a suitable persian dataset for training language models. in this research, first, a persian dataset for information retrieval is presented. after that, methods for enriching this data set are investigated. this enrichment is done by defining multi-level relationships between a document and a question. in this regard, the new dataset can show the relationship between question and document in four levels (unrelated, related, highly related, completely related) instead of two levels (completely unrelated, completely related). the name of the generated dataset is persianmlir. experiments show that by using multi-level relationships, the performance of the system improves for both persian and english languages, where the improvement is 1.87% for the persian language. the results conclude that enriching information retrieval datasets by increasing the number of relations between query and document lead to improving the performance of information retrieval systems.
|
Keywords
|
information retrieval ,language models ,information retrieval dataset ,persian dataset
|
|
|
|
|
|
|
|
|
|
|