|
|
ارائه مدلی برای بازیابی اطلاعات متنی با استفاده از اعداد فاصله ای
|
|
|
|
|
نویسنده
|
تحیری هومان ,قهرمانی فرزاد
|
منبع
|
فناوري اطلاعات و ارتباطات ايران - 1399 - دوره : 12 - شماره : 45-46 - صفحه:71 -94
|
چکیده
|
با گسترش و توسعه وب و افزایش محتوای آنلاین، اهمیت سیستم های بازیابی اطلاعات که بتوانند با دقت بالاتری به نیازهای اطلاعاتی کاربران پاسخ دهند، بیشتر از پیش مشخص است. یک بخش مهم در طراحی هر سیستم بازیابی اطلاعات، انتخاب روشی مناسب برای مدل کردن آن سیستم است که در این راستا تعیین روش وزن دهی به لغات جهت بیان میزان اهمیت آنها در اسناد و پرس وجوها، نقش به سزائی دارد. روش های مختلفی در خصوص چگونگی وزن دهی به لغات ارائه شده که غالباً یک وزن عددی را تخصیص می دهند اما نمی توان با قطعیت گفت که بهترین روش وزن دهی کدام است. با توجه به ابهام و عدم قطعیتی که در این زمینه وجود دارد، در این مقاله مدلی ارائه شده که به جای استفاده از یک مقدار وزنی، با استفاده از وزن های بدست آمده از تعدادی روش وزن دهی پایه که به دقت انتخاب شده اند، برای هر لغت بازه ای از وزن ها را به عنوان یک وزن فاصله ای محاسبه می کند. در این مدل با انجام تجمیع مناسب، میزان ارتباط هر سند با پرس وجوی ورودی نیز به صورت یک وزن فاصله ای تعیین شده و برحسب آنها می توان با استفاده از یکی از سه روش پیشنهادی، اسناد را رتبه بندی کرد. در آزمایش های انجام شده بر روی مجموعه داده های معتبر cranfield و medline، اثرات نرما ل سازی طول بردار وزن های پایه، استفاده از مولفه های مختلف در فاکتور فرکانس لغت و فاکتور فرکانس مجموعه مورد مطالعه و بحث قرار گرفته است و مشخص شد که انتخاب مجموعه ای مناسب از روش های وزن دهی پایه برای اعمال روش پیشنهادی، به همراه استفاده از روش رتبه بندی مناسب، تاثیر به سزائی در بهبود بازدهی سیستم خواهد داشت. با انتخاب های مناسب، برای دو مجموعه داده مذکور به ترتیب map با مقادیر 0.43323 و 0.54580 بدست آمد. این نتایج نشان داد که روش پیشنهادی نه تنها باعث بهبود نسبت به هر یک از روش های وزن دهی پایه می شود، بلکه در مقایسه با چند روش وزن دهی پیچیده اخیر نیز بهتر عمل می کند.
|
کلیدواژه
|
بازیابی اطلاعات متنی، رتبه بندی اسناد، وزن دهی لغات، اعداد فاصله ای، وزن فاصله ای
|
آدرس
|
دانشگا شیراز, دانشکده مهندسی برق و کامپیوتر, بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات, ایران, دانشگاه شیراز, دانشکده برق مهندسی و کامپیوتر, بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
f.ghahramani@shirazu.ac.ir
|
|
|
|
|
|
|
|
|
Proposing an Information Retrieval Model Using Interval Numbers
|
|
|
Authors
|
Tahayori Hooman ,ghahremani farzad
|
Abstract
|
Recent expansions of web demands for more capable information retrieval systems that more accurately address the users' information needs. Weighting the words and terms in documents plays an important role in any information retrieval system. Various methods for weighting the words are proposed, however, it is not straightforward to assert which one is more effective than the others. In this paper, we have proposed a method that calculates the weights of the terms in documents and queries as interval numbers. The interval numbers are derived by aggregating the crisp weights that are calculated by exploiting the existing weighting methods. The proposed method, calculates an interval number as the overall relevancy of each document with the given query. We have discussed three approaches for ranking the interval relevancy numbers. In the experiments we have conducted on Cranfield and Medline datasets, we have studied the effects of weight normalization, use of variations of term and document frequency and have shown that appropriate selection of basic term weighting methods in conjunction with their aggregation into an interval number would considerably improve the information retrieval performance. Through appropriate selection of basic weighting methods we have reached the MAP of 0.43323 and 0.54580 on the datasets, respectively. Obtained results show that he proposed method, outperforms the use of any single basic weighting method and other existing complicated weighting methods.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|