استخراج، بررسی و مقایسۀ باهم‌آیی کلمه‌ها از متن خبرهای وب‌گاه انگلیسی رادیوی صدا و سیما

Fa | Ar | En

استخراج، بررسی و مقایسۀ باهم‌آیی کلمه‌ها از متن خبرهای وب‌گاه انگلیسی رادیوی صدا و سیما


نویسنده	یوسفان احمد ,ابراهیم‌زاده دانیال ,عباسیان مسعود
منبع	سومين كنفرانس ملي كامپيوتر،فناوري اطلاعات و كاربردهاي هوش مصنوعي - 1398 - دوره : 3 - سومین کنفرانس ملی کامپیوتر،فناوری اطلاعات و کاربردهای هوش مصنوعی - کد همایش: 98190-23419 - صفحه:0 -0
چکیده	در این پژوهش به روش‌های گوناگون به استخراج و مقایسۀ باهم‌آیی‌های کلمه‌ها و دسته‌بندی آنها از روی بخشی از بایگانی خبرهای وب‌گاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها، آنها را پردازش کردیم و داده‌های غیر‌خبری را از آن حذف کردیم. برچسب‌های html هر خبر را اصلاح و با تابع‌های آماده در زبان پایتون، برچسب‌های اصلاح‌شده را از متن جدا کردیم. کلمه‌های متن‌های پالایش شده را به کمک بستۀ nltk بر پایۀ نقش آنها در جمله، برچسب‌گذاری و ریشه‌یابی نمودیم. باهم‌آیی‌های کلمه‌ها را بر پایۀ معیارهای تناظر به دست آورده، مقایسه و تحلیل کردیم. همچنین اثراتِ کلمه‌های ایست‌واژه را در استخراجِ باهم‌آیی‌ها بررسی کردیم. در این پژوهش از میانِ روش‌های موجود در این زمینه، مهم‌ترین و کم‌خطا‌ترین روش‌ها را برگزیده و ترکیب کردیم و به نتیجه‌های سودمندی برای باهم‌آیی‌های کلمه‌ها در متن خبرهای این وب‌گاه دست یافتیم.
کلیدواژه	باهم‌آیی، ایست‌واژه، معیار تناظر، نقش کلمات در جمله، nltk
آدرس	, iran, , iran, , iran
پست الکترونیکی	msd.abasian@gmail.com



Authors