روش جدید متنکاوی برای استخراج اطلاعات زمینه کاربر بهمنظور بهبود رتبهبندی نتایج موتور جستجو
|
|
|
|
|
نویسنده
|
داودی مقدم جواد ,احمدی علی
|
منبع
|
پردازش علائم و داده ها - 1396 - دوره : 14 - شماره : 3 - صفحه:65 -82
|
چکیده
|
یکی از بزرگ ترین مشکلات پیش روی موتورهای جستجو، رفع ابهاماتی است که در جستار کاربران وجود دارد. این ابهامات می تواند دلایل متعددی داشته باشد که از جمله آنها تعدد معانی و مفاهیم مرتبط با یک جستار یا کاربردهای مختلف آن جستار است. اگر موتور جستجو نتواند این ابهام را به شکل صحیح برطرف کند، در ارائه نتایج خود به کاربر دچار اختلال و خطا خواهد شد و نیاز کاربر را برطرف نخواهد کرد. این موضوع نقش مهمی در تعیین میزان کارایی موتور جستجو خواهد داشت. در این مقاله هدف آن است تا با جمع آوری اطلاعات زمینه کاربر در طول زمان، به تفسیر جستار کاربر کمک کرده و درنتیجه آن رتبه بندی نتایج موتور جستجو را بهبود بخشیم. زمینه کاربر به هر اطلاعاتی گفته می شود که به شناخت ویژگی ها و خصوصیات کاربر کمک کند. در این مقاله متن صفحات وبی که کاربر از آن ها بازدید می کند، مورد پردازش قرار می گیرند تا مفاهیم اصلی و کلیدی آن ها استخراج شود. استخراج این مفاهیم (زمینه کاربر) که در سمت کاربر و بر روی سیستم وی اتفاق خواهد افتاد، با افزونه ای خواهد بود که به همین منظور تولید و بر روی مرورگر نصب می شود؛ سپس زمینه کاربر، در ساختاری خاص در سمت کاربر و برای هر کاربر به صورت خصوصی نگهداری می شوند. هنگامی که جستجویی انجام می شود (با توجه به خلاصه ای که موتور جستجو در ازای معرفی هر پیوند ارائه می دهد)، میزان شباهت نتایج موتور جستجو با زمینه کاربر مورد محاسبه قرار گرفته و به ازای هر نتیجه میزان شباهت آن با زمینه کاربر محاسبه می شود؛ سپس آن نتایجی به کاربر پیشنهاد می شوند (در مرورگر پررنگ می شوند) که با زمینه وی تطبیق بیشتری داشته باشند. همان طور که از نتایج آزمایش های پایان مقاله مشهود است، استفاده از زمینه کاربر در رتبه بندی نتایج موتور جستجو تاثیر قابل توجهی دارد. بررسی ها نشان می دهد که در ارائه 10 نتیجه اول مربوط به 30 جستار دارای ابهام، به طور میانگین روش پیشنهادی 43% و موتور جستجوی گوگل 16% از نتایج خود را مرتبط با مفهوم اصلی جستار مورد نظر ارائه کرده اند.
|
کلیدواژه
|
متنکاوی، بازیابی اطلاعات، زمینه کاربر، رتبه بندی نتایج موتور جستجو
|
آدرس
|
دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
ahmadi@eetd.kntu.ac.ir
|
|
|
|
|