|
|
ارزیابی تجربی و مطالعه الگوریتم های ریشه یابی متن
|
|
|
|
|
نویسنده
|
صانعی نژاد محمد امین ,همایونی هاله ,جعفرزاده مهسا
|
منبع
|
ششمين همايش ملي فناوريهاي نوين در مهندسي برق، كامپيوتر و مكانيك ايران - 1402 - دوره : 6 - ششمین همایش ملی فناوریهای نوین در مهندسی برق، کامپیوتر و مکانیک ایران - کد همایش: 02221-18264 - صفحه:0 -0
|
چکیده
|
در هر زبانی، کلمات با توجه به نقشی که در جملات ایفا می کنند، به شکلهای ظاهری متفاوتی خواهند بود. اما با توجه به این که تمامی آنها از یک ریشه ساخته می شوند، از نظر معنا و مفهوم در گام های بعدی تشخیصی به ما کمک شایانی خواهند نمود. ازهمین رو در بسیاری از روش های مبتنی بر nlp ، ابتدا می بایست ریشه کلمات را پیدا کنیم. برای ریشهیابی کلمات معمولاً از روش ریشه یابی(stemming) استفاده میشود که این روش در نهایت ریشهی یک کلمه را به دست می آورد. ریشهیابی متن یکی از مراحل اولیه پیشپردازش برای برنامههای پردازش زبان طبیعی است که برای تبدیل فرمهای مختلف کلمه به یک فرم ریشه استاندارد استفاده میشود. برای زبانهای مبتنی بر خط عربی، تجزیه و تحلیل کافی متن بهوسیله استمرها به دلیل تعداد زیاد ساختارهای مبهم زبان، کاری چالش برانگیز است. در ادبیات، معیارهای ارزیابی عملکرد چندگانه برای افراد بنیادی وجود دارد که هر کدام عملکرد را از جنبه خاصی توصیف میکنند. در این کار، ما روشهای ارزیابی ریشههای متنی را بررسی و تحلیل میکنیم تا معیارهایی برای اندازهگیری بهتر عملکرد پایه ابداع کنیم. نقش جنبههای مختلف اندازهگیری عملکرد بنیادی مانند ویژگیهای اصلی، شایستگیها و کاستیها با استفاده از یک زبان منابع کمیاب مورد بحث قرار میگیرد. از طریق آزمایشهایمان به این نتیجه میرسیم که معیارهای ارزیابی کنونی تنها میتوانند میانگین ترکیب کلمات را بدون توجه به صحت ریشه اندازهگیری کنند.
|
کلیدواژه
|
nlp ، ریشه یابی(stemming) ، پردازش زبان طبیعی ، الگوریتم های ریشه یابی ، استمرها
|
آدرس
|
, iran, , iran, , iran
|
|
|
|
|
|
|
|
|
|
|
experimental evaluation and study of text stemming algorithms
|
|
|
Authors
|
|
Abstract
|
in any language, words will have different appearances according to the role they play in sentences. but due to the fact that all of them are made from the same root, in terms of meaning and concept, they will help us a lot in the next diagnostic steps. therefore, in many nlp-based methods, we must first find the root of the words. to find the roots of words, the stemming method is usually used, and this method finally obtains the root of a word. text stemming is one of the first pre-processing steps for natural language processing programs, which are used to convert different word forms into a standard stem form. for languages based on arabic script, adequate analysis of text by strings is a challenging task due to the large number of ambiguous language structures. in the literature, there are multiple performance evaluation criteria for fundamental individuals, each of which describes performance in a specific aspect. in this work, we review and analyze methods for evaluating text roots to devise metrics to better measure base performance. the role of different aspects of fundamental performance measurement such as core features, competencies and shortcomings are discussed using a scarce resource language. through our experiments, we conclude that the current evaluation measures can only measure the average word combination regardless of root correctness
|
Keywords
|
stemming ,nlp ,stemming algorithm ,stemmer
|
|
|
|
|
|
|
|
|
|
|