>
Fa   |   Ar   |   En
   طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی  
   
نویسنده حسینی‌بهشتی ملوک‌السادات ,عبدی قویدل هادی
منبع پژوهشنامه پردازش و مديريت اطلاعات - 1396 - دوره : 32 - شماره : 4 - صفحه:1143 -1170
چکیده    یکی از پایه‌ای‌ترین مراحل پردازش‌ خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌هاست. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آن‌ها می‌گردد. بدین‌ترتیب، متخصصان حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش ظهستند تا با ارائه روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته پردازش قرار داده و به داده‌ای استاندارد دست یابند. در زبان انگلیسی و برخی زبان‌های دیگر، تحقیقات متعددی در این زمینه انجام شده و به‌دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقه‌بندی انواع روش‌ها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آن‌ها را به‌طور خاص و نحوه سنجش میزان دقت پردازش آن‌ها را به‌طور عام شرح می‌دهد. در این مقاله همچنین، نحوه عملکرد سامانه‌های تک‌زبانه فارسی توصیف شده و به نحوه برخورد آن‌ها با چالش‌های زبان فارسی اشاره می‌گردد.
کلیدواژه تشخیص خطاهای املایی، استانداردسازی نویسه‌ها، طبقه‌بندی روش‌ها، سامانه‌های تک زبانه فارسی، چالش‌های زبان فارسی
آدرس پژوهشگاه علوم و فناوری اطلاعات ایران, ایران, دانشگاه صنعتی شریف, ایران
پست الکترونیکی habdi.cnlp@gmail.com
 
   Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization  
   
Authors Hosseini Beheshti Molouk Sadat ,Abdi Ghavidel Hadi
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved