|
|
نور-قطعه: یک دادگان معیار برای ارزیابی رو شهای جداساز واژگان عربی در دامنه ی متون فقهی
|
|
|
|
|
نویسنده
|
الشهیب هدی ,مینایی بهروز ,شناسا محمد ابراهیم ,حسینی علی
|
منبع
|
فناوري اطلاعات و ارتباطات ايران - 1402 - دوره : 15 - شماره : 57-58 - صفحه:153 -164
|
چکیده
|
زبان عربی ریختشناسی بسیار غنی و پیچیدهای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک میکند. در مجموعه دادههای ریختشناسی تنوع برچسب و تعداد نمونههای دادگان به ارزیابی روشهای ریختشناسی کمک بیشتری میکند، در این پژوهش مجموعه داده ریختشناسی که ارائه میکنیم شامل حدود 223690 کلمه از کتاب شرائع الاسلام در 52 باب فقهی است و توسط متخصصین برچسبگذاری شده است این مجموعه دادگان با داشتن از نظر حجم و تنوع کلمات نسبت به سایر دادگان های موجود برتر می باشد و تا جایی که می دانیم هیچ دادگانی از متون فقهی عربی در این زمینه وجود ندارد. برای ارزیابی دادگان، سامانه فراسه را بر روی متون اعمال کردیم و کیفیت جداسازی واژه ها را از طریق چهار معیار بر روی سامانه فراسه گزارش کردیم.
|
کلیدواژه
|
جداسازی واژگان، زبان عربی، حاشیهنویسی، دادگان، برچسبگذاری صرفی
|
آدرس
|
دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, گروه مهندسی کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد تهرا ن شمال, دانشکده مهندسی برق و کامپیوتر, ایران, پژوهشکده علوم اسلامی و انسانی دیجیتال (نور), آزمایشگاه هوش مصنوعی, ایران
|
|
|
|
|
|
|
|
|
|
|
noor-ghateh: a benchmark dataset for evaluating arabic word segmenters in hadith domain
|
|
|
Authors
|
ashoheib hoda ,minaei bidgoli behrooz ,shenassa mohammad ebrahim ,hossayni ali
|
Abstract
|
the arabic language has a very rich and complex morphology, which is very useful for the analysis of the arabic language, especially in traditional arabic texts such as historical and religious texts, and helps in understanding the meaning of the texts. in the morphological data set, the variety of labels and the number of data samples helps to evaluate the morphological methods, in this research, the morphological dataset that we present includes about 22, 3690 words from the book of sharia alislam, which have been labeled by experts, and this dataset is the largest in terms of volume and the variety of labels is superior to other data provided for arabic morphological analysis. to evaluate the data, we applied the farasa system to the texts and we report the annotation quality through four evaluation on the farasa system.
|
Keywords
|
morphology ,arabic language ,annotation ,dataset ,morphological analysis.
|
|
|
|
|
|
|
|
|
|
|