|
|
|
|
طراحی و پیادهسازی یک خزشگر زبانی جهت بهبود سازوکار خزش در مستندات فارسی وب
|
|
|
|
|
|
|
|
نویسنده
|
عظیمزاده معصومه ,یاری علیرضا ,آلاحمد ابوالفضل
|
|
منبع
|
international journal of information and communication technology research - 2009 - دوره : 1 - شماره : 4 - صفحه:15 -27
|
|
چکیده
|
حجم زیاد، ماهیت پویا و غیرقابل کنترل وب چالشهای زیادی را در خصوص خزش وب ایجاد نموده است. روشهای خزش به طور کلی به دو دستهعمومی و متمرکز قابل تقسیم هستند. در روش خزش عمومی همه صفحات وب جمعآوری میشوند و در روش خزش متمرکز تنها بخشی از صفحات وب که باموضوع خاصی مرتبط هستند،جمعآوری میگردند. خزش زبانی به نوعی از خزش متمرکز اطلاق میشود که صفحات نوشته شده به زبان مورد نظر را جمع-آوری میکند. با توجه به اینکه وب حاوی گستره وسیعی از دادههای بدون ساختار و نوشته شده به زبانهای مختلف است، نحوه انجام خزش زبانی ازجملهچالشهای بازیابی اطلاعات در محیط وب است. دراین مقاله برای بهبود خزش مستندات فارسی وب، یک خزشگر زبانی پیشنهاد گردیده و تشریح شده است.نتایج حاصل از پیاده سازی و تست این خزشگر نشان میدهد خزشگر زبانی در خزش صفحات فارسی وب با کارایی بهتری عمل میکند.
|
|
کلیدواژه
|
خزشگر فارسی ,خزش متمرکز ,خزش زبانی ,بازیابی اطلاعات
|
|
آدرس
|
مرکز تحقیقات مخابرات ایران, مرکز تحقیقات مخابرات ایران پژوهشکده فناوری اطلاعات, ایران, مرکز تحقیقات مخابرات ایران, مرکز تحقیقات مخابرات ایران پژوهشکده فناوری اطلاعات, ایران, دانشگاه تهران, دانشگاه تهران گروه تحقیقاتی پایگاه دادهها, ایران
|
|
پست الکترونیکی
|
a.aleahmad@ece.ut.ac.ir
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|