|
|
|
|
استخراج، بررسی و مقایسۀ باهمآیی کلمهها از متن خبرهای وبگاه انگلیسی رادیوی صدا و سیما
|
|
|
|
|
|
|
|
نویسنده
|
یوسفان احمد ,ابراهیمزاده دانیال ,عباسیان مسعود
|
|
منبع
|
سومين كنفرانس ملي كامپيوتر،فناوري اطلاعات و كاربردهاي هوش مصنوعي - 1398 - دوره : 3 - سومین کنفرانس ملی کامپیوتر،فناوری اطلاعات و کاربردهای هوش مصنوعی - کد همایش: 98190-23419 - صفحه:0 -0
|
|
چکیده
|
در این پژوهش به روشهای گوناگون به استخراج و مقایسۀ باهمآییهای کلمهها و دستهبندی آنها از روی بخشی از بایگانی خبرهای وبگاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه دادۀ خبرها، آنها را پردازش کردیم و دادههای غیرخبری را از آن حذف کردیم. برچسبهای html هر خبر را اصلاح و با تابعهای آماده در زبان پایتون، برچسبهای اصلاحشده را از متن جدا کردیم. کلمههای متنهای پالایش شده را به کمک بستۀ nltk بر پایۀ نقش آنها در جمله، برچسبگذاری و ریشهیابی نمودیم. باهمآییهای کلمهها را بر پایۀ معیارهای تناظر به دست آورده، مقایسه و تحلیل کردیم. همچنین اثراتِ کلمههای ایستواژه را در استخراجِ باهمآییها بررسی کردیم. در این پژوهش از میانِ روشهای موجود در این زمینه، مهمترین و کمخطاترین روشها را برگزیده و ترکیب کردیم و به نتیجههای سودمندی برای باهمآییهای کلمهها در متن خبرهای این وبگاه دست یافتیم.
|
|
کلیدواژه
|
باهمآیی، ایستواژه، معیار تناظر، نقش کلمات در جمله، nltk
|
|
آدرس
|
, iran, , iran, , iran
|
|
پست الکترونیکی
|
msd.abasian@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|