|
|
روشی جدید جهت استخراج موجودیتهای اسمی در عربی کلاسیک
|
|
|
|
|
نویسنده
|
سجادی محمدباقر ,رشیدی حسن ,مینایی بیدگلی بهروز
|
منبع
|
پردازش علائم و داده ها - 1396 - دوره : 14 - شماره : 2 - صفحه:59 -74
|
چکیده
|
تشخیص واحدهای اسمی به عنوان یکی از سامانه های پردازش زبان طبیعی عبارت از تشخیص اسامی خاص و طبقه بندی آن ها به یکی از گروه های شخص، مکان، سازمان و زمان است. این عملیات به دلیل تاثیر قابل توجه در بهبود کارایی دیگر حوزه های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه بندی نتایج جستجو و پرسش و پاسخ، در سال های اخیر مورد توجه پژوهش گران در زبان عربی نیز قرار گرفته است. گرچه بیشتر پژوهش ها در این حوزه روی عربی استاندارد امروزی انجام شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می شود. در این پژوهش یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از 130 هزار کلمه برچسب گذاری شده توسط متخصصان، معرفی می شود؛ همچنین از یک فرهنگ لغات شامل 18000 اسامی اشخاص که از کتب حدیثی استخراج شده است، به عنوان منابع خارجی استفاده می شود. مدل پیش بینی، بر اساس مجمع رده بندها و یک روش دو مرحله ای پیشنهاد شده است؛ به طوری که در مرحله نخست تشخیص واحدهای اسمی از طریق الگوریتم آدابوست m1 و در مرحله دوم طبقه بندی آن ها به گروه های از پیش تعیین شده توسط الگوریتم آدابوست m2 انجام می شود. به منظور غلبه بر چالش های زبان عربی عملیات نشانه گذاری، برچسب گذاری ادات سخن و قطعه کردن عبارت پایه به کار گرفته شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به دست آمده از مدل پیشنهادی در ارزیابی fmeasure معادل 85/86 درصد است که بیان گر عملکرد مطلوب مدل است. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده اند.
|
کلیدواژه
|
تشخیص واحدهای اسمی، مجمع ردهبندها، روش بوستینگ، زبان عربی کلاسیک
|
آدرس
|
دانشگاه آزاد اسلامی واحد تهران مرکزی, دانشکده کامپیوتر, ایران, دانشگاه علامه طباطبایی, دانشکده ریاضی و علوم کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده کامپیوتر, ایران
|
|
|
|
|
|
|
|
|
|
|
A New Approach for Extracting Named Entity in Classical Arabic
|
|
|
Authors
|
Sajadi Seyed mohamad bagher ,Rashidi Hassan ,Minaei bidgoli Behrooz
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|