|
|
گسترش پرسوجو با سرپرستی ضعیف با استفاده از شبکه سیامی عمیق حافظه کوتاه-مدت طولانی
|
|
|
|
|
نویسنده
|
کاوه یزدی فاطمه ,زارع بیدکی علی محمد
|
منبع
|
مهندسي برق دانشگاه تبريز - 1399 - دوره : 50 - شماره : 2 - صفحه:813 -824
|
چکیده
|
عدمهمخوانی واژگان مهمترین چالش پیش روی سیستمهای بازیابی اطلاعات از وب هستند. عدمهمخوانی واژگانی به تفاوتهای موجود بین پرسوجوهای کاربران و محتوای اسناد وب در حالی اطلاق میگردد که هر دو به یک موضوع واحد اشاره دارند. روشهای گسترش پرسوجو برای رویارویی با مشکل عدمهمخوانی واژگانی، پرسوجوی کاربر را بازآرایی مینمایند تا بدینوسیله همپوشانی بین عبارتهای موجود در پرسوجو و اسناد را افزایش دهند. در این مقاله یک چهارچوب گسترش پرسوجوی مبتنی بر شبکه سیامی عمیق حافظه کوتاهمدت طولانی ارائه شده است. به علاوه، برای نخستین بار وابستگی ارتباطی در این مقاله تعریف شده و برای برچسبگذاری جفتهای متشکل از پرسوجوی کاربر و پرسوجوی جایگزین مورد استفاده قرار گرفته است. شبکه سیامی آموزش داده شده با استفاده از جفتهای برچسبگذاری شده با نظارت ضعیف، علاوه بر ارائه برچسب برای جفتهای ورودی، هزینه همسنجی آنها را نیز محاسبه نموده و اعلام میکند. پس از برچسبگذاری، جفتهای با کمترین هزینه همسنجی انتخاب و در هم ادغام میشوند تا به یک پرسوجوی گسترش یافته تبدیل شوند. نتایج آزمایشات نشاندهنده برتری روش پیشنهادی بر سایر روشهای مشابه گسترش پرسوجوی مبتنی بر جاسازی کلمات بوده است.
|
کلیدواژه
|
بازیابی اطلاعات، گسترش پرسوجو، جاسازی کلمات، وابستگی معنایی، وابستگی ارتباطی، شبکه سیامی عمیق، سلول حافظه کوتاه-مدت طولانی
|
آدرس
|
دانشگاه یزد, گروه مهندسی کامپیوتر, ایران, دانشگاه یزد, گروه مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
alizareh@yazd.ac.ir
|
|
|
|
|
|
|
|
|
Weakly Supervised Query Expansion using Deep Siamese LSTM
|
|
|
Authors
|
زارع بیدکی علی محمد
|
Abstract
|
Term mismatch is the most important challege in web information retrieval. The term mismatch problem is defined as differences between user queries and contents of documents while referring to the same topic. Query expansion methods deal with term mismatch by reformulating the queries to increase their termoverlap with relevant documents. In this paper, we proposed a query expansion framework based on a deep Siamese LSTM neural network. In addition, we defined the relevant relatedness for the first time and used this concept to label pairs made from user query and candidate query. Weaklysupervised labeled pairs are utilized in training of the deep Siamese network. The trained Siamese network provides labels for testset pairs in addition to contrastive loss values. The contrastive loss value reflects the cost of pulling together similar pairs. Pairs with minimum contrastive loss values are selected and merged together to form one expanded query. Results of our tests showed that the proposed framework outperforms similar word embedding based query expansion methods.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|