بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

Fa | Ar | En

بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه


نویسنده	عبدوس محمد ,مینایی بیدگلی بهروز
منبع	پردازش علائم و داده ها - 1396 - دوره : 14 - شماره : 4 - صفحه:43 -54
چکیده	تشخیص موجودیت های نامدار فرآیندی است که در آن اسامی اشخاص، مکان ها(شهرها، کشورها، دریاها و غیره)، سازمان ها(شرکت های خصوصی و دولتی، نهادهای بین المللی و غیره)، تاریخ، واحدهای پولی و درصدها در یک متن شناسایی می شوند. تشخیص موجودیت های نامدار نقشی اساسی در سامانه های پرسش و پاسخ، خلاصه سازی، ترجمه ماشینی، برچسب زن نقش معنایی، جستجوی معنایی، استخراج رابطه و شناسایی نقل قول دارند. در این مقاله ابتدا فرهنگ واژگان موجودیت های سازمان، مکان و اشخاص با استفاده از محتوای ویکی پدیای فارسی استخراج شد؛ سپس با استفاده از قواعد، سامانه پیشنهادی توسعه یافت. در ادامه دقت شناسایی موجودیت های نامدار با استفاده از کسره اضافه که یکی از ویژگی های مهم زبان فارسی است، بهبود داده شد. جهت ارزیابی سامانه تعداد 42 هزار کلمه از پیکره بی جن خان به صورت دستی برچسب زده شدند و معیار f 81/92 درصد به دست آمد. نتایج حاکی از آن است که با استفاده از کسره اضافه در سامانه های تشخیص موجودیت دقت آن ها به طور قابل ملاحظه ای افزایش می یابد.
کلیدواژه	تشخیص موجودیت‌های نامدار پردازش زبان طبیعی، مبتنی بر قاعده، ویکی‌پدیا، کسره اضافه
آدرس	دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران. شرکت آرمان رایان شریف, آزمایشگاه پردازش و تحلیل متن, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران

Improving Named Entity Recognition Using Izafe in Farsi

Authors