|
|
طراحی و پیادهسازی سامانه شناسایی و تصحیح خطای املایی متون فارسی مبتنی بر معنای واژگان
|
|
|
|
|
نویسنده
|
دستغیب محمدباقر ,کلینی سارا ,فخراحمد مصطفی
|
منبع
|
پردازش علائم و داده ها - 1398 - شماره : 3 - صفحه:117 -128
|
چکیده
|
طراحی و پیادهسازی ابزارهای پردازش زبان طبیعی فارسی، بر اساس ویژگیهای خاص این زبان، همواره با چالشهایی مواجه است. با توجه به اینکه سامانههای تصحیح املای خودکار در حوزههای مختلفی از قبیل تصحیح پرسوجوها، بررسی املای واژگان در اینترنت و برنامههای ویراستاری متنی کاربرد دارد، لازم است تا برای زبان فارسی نیز نرمافزارهای مناسب ایجاد شود. در این مقاله ابتدا مقدمهای درخصوص انواع خطاهای املایی، راهکارهای شناسایی و تصحیح خطاها شرح داده شده و سپس به معرفی سامانه پارسیاسپل که بر اساس معنای واژگان فارسی، خطاها را شناسایی و تصحیح میکند، میپردازیم. با توجه به نتایج حاصله از ارزیابی سامانه پارسیاسپل با سایر نرمافزارهای مشابه رایج، مشخص شد که سامانه پارسی اسپل بهعنوان ابزار موثری جهت شناسایی و پیشنهاد واژههای صحیح برای خطاهای غیرواژه و واژه حقیقی است. در مراحل شناسایی و پیشنهاد، معیارf بهصورت معناداری بهبود یافته است. همچنین نتایج ارزیابی نشان داده که سامانه پارسی اسپل خطاهای واژه حقیقی بیشتری را شناسایی کرده و قادر به ارائه و پیشنهاد واژههای جایگزین صحیح، برای واژههای نادرست است و مقدار معیار بازخوانی در شناسایی خطای واژه حقیقی بهصورت معناداری بیشتر از نرمافزارهای رقیب آن است.
|
کلیدواژه
|
سیستم خطایاب فارسی، تصحیح خطای واژگان، شناسایی خطای واژگان، پردازش زبان طبیعی، مدل زبان فارسی
|
آدرس
|
مرکز منطقهای اطلاعرسانی علوم و فناوری, گروه پژوهشی طراحی و عملیات سیستمها, ایران, مرکز منطقهای اطلاعرسانی علوم و فناوری, ایران, دانشگاه شیراز, دانشکده برق و مهندسی کامپیوتر, بخش علوم و مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
fakhrahmad@shirazu.ac.ir
|
|
|
|
|
|
|
|
|
Design and implementation of Persian spelling detection and correction system based on Semantic
|
|
|
Authors
|
Dastgheib M.B. ,koleini Sara ,Fakhrahmad S.M.
|
Abstract
|
Persian Language has a special feature (grapheme, homophone, and multishape clinging characters) in electronic devices. Furthermore, design and implementation of NLP tools for Persian are more challenging than other languages (e.g. English or German). Spelling tools are used widely for editing user texts like emails and text in editors. Also developing Persian tools will provide Persian programs to check spell and reduce errors in electronic texts. In this work, we review the spelling detection and correction methods, especially for the Persian language. The proposed algorithm consists of two steps. The first step is nonword error detection and correction by intelligent scoring algorithm. The second step is readword error detection and correction. We propose a spelling system Perspell rdquo; for Persian nonword and realword errors using a hybrid scoring system and optimized language model by lexicon. This scoring system uses a combination of lexical and semantic features optimized by learning dataset. The weight of these features in scoring system is also optimized by learning phase. Perspell is compared with known Persian spellchecker systems and could overcome them in precision of detection and correction. Accordingly, the proposed Persian spellchecker system can also detect and correct realword errors. This open challenge category of spelling is a complicated and time consuming task in Persian as well as, assessing the proposed method, the Fmeasure metric has improved significantly (about 10%) for detecting and correcting Persian words. In the proposed method, we used Persian language model with bootstrapping and smoothing to overcome data sparseness and lack of data. The bootstrapping is developed using a Persian dictionary and further we used word sense disambiguation to select the correct related replaced word.
|
Keywords
|
Spell Error Detection ,Spell Error Correction ,Persian spell Checker ,NLP ,Persian Language Model
|
|
|
|
|
|
|
|
|
|
|