طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی

Fa | Ar | En

طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی


نویسنده	حسینی‌بهشتی ملوک‌السادات ,عبدی قویدل هادی
منبع	پژوهشنامه پردازش و مديريت اطلاعات - 1396 - دوره : 32 - شماره : 4 - صفحه:1143 -1170
چکیده	یکی از پایه‌ای‌ترین مراحل پردازش‌ خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌هاست. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آن‌ها می‌گردد. بدین‌ترتیب، متخصصان حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش ظهستند تا با ارائه روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته پردازش قرار داده و به داده‌ای استاندارد دست یابند. در زبان انگلیسی و برخی زبان‌های دیگر، تحقیقات متعددی در این زمینه انجام شده و به‌دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقه‌بندی انواع روش‌ها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آن‌ها را به‌طور خاص و نحوه سنجش میزان دقت پردازش آن‌ها را به‌طور عام شرح می‌دهد. در این مقاله همچنین، نحوه عملکرد سامانه‌های تک‌زبانه فارسی توصیف شده و به نحوه برخورد آن‌ها با چالش‌های زبان فارسی اشاره می‌گردد.
کلیدواژه	تشخیص خطاهای املایی، استانداردسازی نویسه‌ها، طبقه‌بندی روش‌ها، سامانه‌های تک زبانه فارسی، چالش‌های زبان فارسی
آدرس	پژوهشگاه علوم و فناوری اطلاعات ایران, ایران, دانشگاه صنعتی شریف, ایران
پست الکترونیکی	habdi.cnlp@gmail.com

Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization

Authors	Hosseini Beheshti Molouk Sadat ,Abdi Ghavidel Hadi