>
Fa   |   Ar   |   En
   تحلیل‌گر تصریفی فارسی معاصر  
   
نویسنده حیدرپور داوود ,سبط الهام سادات ,بی جن خان محمود ,صالحی مصطفی ,ویسی هادی
منبع پژوهشنامه پردازش و مديريت اطلاعات - 1400 - دوره : 36 - شماره : 4 - صفحه:945 -969
چکیده    در سال‌های اخیر، کاربرد گونه نوشتاری غیررسمی زبان فارسی به‌دلیل گسترش روزافزون فضای مجازی و شبکه‌های اجتماعی و تمایل کاربران به نزدیک کردن زبان نوشتار به گفتار رشد چشمگیری داشته‌ است. با وجود این، ابزارهای پردازش این گونه زبانی به‌میزان لازم توسعه داده نشده است. تحلیلگرهای تصریفی از جمله ابزارهایی است که در پردازش زبانی کاربرد وسیعی دارد و تاکنون برای گونه غیررسمی طراحی و پیاده‌سازی نشده است. با توجه به این‌که گونه نوشتاری غیررسمی در کنار واژگان و قواعد صرفی و نحوی مختص ‌به‌خود، در بخشی از واژه‌ها و ساختارها با گونه رسمی مشترک است، در این پژوهش با پوشش فارسی رسمی و غیررسمی اولین ابزار تحلیل تصریفی فارسی معاصر برای همه اقسام واژه توسعه داده شده و تلاش شده همه ساختارهای تصریفی واژه‌های فارسی غیررسمی پوشش داده شود. این ابزار به‌صورت قاعده‌مند و مستقل از بافت و با بهره‌گیری از مبدل حالت محدود، پی‌بست‌ها و وندهای تصریفی رسمی و غیر‌رسمی را در واژه‌های زبان شناسایی و تحلیل کرده، ستاک‌های رسمی و غیررسمی را نیز استخراج می‌کند. به‌منظور پوشش دادن تمام ساخت‌ها و حالت‌های تصریفی، با توجه به رویکرد مستقل از بافت، الگوریتم برای هر واژه، تمام خوانش‌ها و معانی گوناگونی را که می‌تواند بسته به قرارگیری در بافت‌های گوناگون داشته‌ باشد، تحلیل و ارائه می‌کند. به‌منظور استخراج و بررسی واژگان و قواعد تصریفی و نگارشی گونه غیر رسمی، پیکره فارسی معاصر از سیاق‌ها و زیرسیاق‌های گوناگون این گونه زبانی تهیه شده و در طراحی و آزمون تحلیلگر مورد استفاده قرار گرفت. آزمون تحلیلگر با استفاده از 1786 واژه یکتای استخراج‌شده از پیکره، نتیجه 96.67 درصد را در معیار اف به‌دست داده است. از این ابزار می‌توان در انواع تحلیل‌ها و کاربردهای پردازش رایانه‌ای زبان فارسی و همچنین در آموزش فارسی، به‌ویژه محاوره فارسی به غیر فارسی‌زبانان استفاده کرد.
کلیدواژه پردازش زبانی، تحلیلگر تصریفی، گونه غیررسمی فارسی، فارسی معاصر، مبدل حالت محدود، آموزش فارسی
آدرس دانشگاه تهران, دانشکده علوم و فنون نوین, ایران, دانشگاه تهران, دانشکده علوم و فنون نوین, ایران, دانشگاه تهران, گروه زبانشناسی, ایران, دانشگاه تهران, دانشکده علوم و فنون نوین, ایران, دانشگاه تهران, دانشکده علوم و فنون نوین, ایران
پست الکترونیکی h.veisi@ut.ac.ir
 
   Contemporary Persian Inflectional Analyzer  
   
Authors Heidarpour Davood ,S.Sebt Elham ,Bi Jen Khan Mahmoud ,Salehi Mostafa ,Veisi Hadi
Abstract    In recent years, the use of informal writing in Persian has grown significantly due to the increasing expansion of cyberspace and social media and platforms, and the tendency of users to bring the written language closer to colloquial speech. But on the other hand, proper tools to process this language register are not developed very much. One of the tools for low level processing of textual data is an inflectional analyzer. However, such tools are not developed for this register yet. Informal words have their own structures, stems, morphemes and clitics and they also make use of formal structures and units. Moreover, this register also consists of formal words so any analyzer for informal words should have the potential to analyze formal words, too. In this paper, it is tried to cover all inflectional structures of informal Persian language to build an inflectional analyzer. A corpus of most of its known subregisters is constructed to extract words, morphemes and inflectional rules and morphotactics. A part of this corpus is used for testing the analyzer. After extracting 1786 unique words of the test part, inflectional analyzer fmeasure is equal to 97.67%. This tool can be used in computational processing of Persian language and it can also be used in teaching Persian, specifically colloquial Persian to nonPersian learners.
Keywords Computational Linguistics ,Inflectional Analyzer ,Informal Persian Register ,Contemporary Persian ,FST ,Persian Teaching
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved