>
Fa   |   Ar   |   En
   نور-قطعه: یک دادگان معیار برای ارزیابی رو شهای جداساز واژگان عربی در دامنه ی متون فقهی  
   
نویسنده الشهیب هدی ,مینایی بهروز ,شناسا محمد ابراهیم ,حسینی علی
منبع فناوري اطلاعات و ارتباطات ايران - 1402 - دوره : 15 - شماره : 57-58 - صفحه:153 -164
چکیده    زبان عربی ریخت‌‌شناسی بسیار غنی و پیچیده‌ای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک می‌کند. در مجموعه داده‌های ریخت‌شناسی تنوع برچسب و تعداد نمونه‌های دادگان به ارزیابی روش‌های ریخت‌شناسی کمک بیشتری می‌کند، در این پژوهش مجموعه داده ریخت‌شناسی که ارائه می‌کنیم شامل حدود 223690 کلمه از کتاب شرائع الاسلام در 52 باب فقهی است و توسط متخصصین برچسب‌گذاری شده است این مجموعه دادگان با داشتن از نظر حجم و تنوع کلمات نسبت به سایر دادگان های موجود برتر می باشد و تا جایی که می دانیم هیچ دادگانی از متون فقهی عربی در این زمینه وجود ندارد. برای ارزیابی دادگان، سامانه فراسه را بر روی متون اعمال کردیم و کیفیت جداسازی واژه ها را از طریق چهار معیار بر روی سامانه فراسه گزارش کردیم.
کلیدواژه جداسازی واژگان، زبان عربی، حاشیه‌نویسی، دادگان، برچسب‌گذاری صرفی
آدرس دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, گروه مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد تهرا ن شمال, دانشکده مهندسی برق و کامپیوتر, ایران, پژوهشکده علوم اسلامی و انسانی دیجیتال (نور), آزمایشگاه هوش مصنوعی, ایران
 
   noor-ghateh: a benchmark dataset for evaluating arabic word segmenters in hadith domain  
   
Authors ashoheib hoda ,minaei bidgoli behrooz ,shenassa mohammad ebrahim ,hossayni ali
Abstract    the arabic language has a very rich and complex morphology, which is very useful for the analysis of the arabic language, especially in traditional arabic texts such as historical and religious texts, and helps in understanding the meaning of the texts. in the morphological data set, the variety of labels and the number of data samples helps to evaluate the morphological methods, in this research, the morphological dataset that we present includes about 22, 3690 words from the book of sharia alislam, which have been labeled by experts, and this dataset is the largest in terms of volume and the variety of labels is superior to other data provided for arabic morphological analysis. to evaluate the data, we applied the farasa system to the texts and we report the annotation quality through four evaluation on the farasa system.
Keywords morphology ,arabic language ,annotation ,dataset ,morphological analysis.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved