طبقهبندی انواع دادگان مورد نیاز و روشهای خطایابی و استانداردسازی متنی
|
|
|
|
|
نویسنده
|
حسینیبهشتی ملوکالسادات ,عبدی قویدل هادی
|
منبع
|
پژوهشنامه پردازش و مديريت اطلاعات - 1396 - دوره : 32 - شماره : 4 - صفحه:1143 -1170
|
چکیده
|
یکی از پایهایترین مراحل پردازش خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسههاست. بدون گذر از این مرحله، ذخیرهسازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آنها میگردد. بدینترتیب، متخصصان حوزههای پردازش زبان طبیعی و زبانشناسی رایانشی همواره در تلاش ظهستند تا با ارائه روشها و الگوریتمهای مطلوب انواع دادهها را در بوته پردازش قرار داده و به دادهای استاندارد دست یابند. در زبان انگلیسی و برخی زبانهای دیگر، تحقیقات متعددی در این زمینه انجام شده و بهدنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقهبندی انواع روشها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آنها را بهطور خاص و نحوه سنجش میزان دقت پردازش آنها را بهطور عام شرح میدهد. در این مقاله همچنین، نحوه عملکرد سامانههای تکزبانه فارسی توصیف شده و به نحوه برخورد آنها با چالشهای زبان فارسی اشاره میگردد.
|
کلیدواژه
|
تشخیص خطاهای املایی، استانداردسازی نویسهها، طبقهبندی روشها، سامانههای تک زبانه فارسی، چالشهای زبان فارسی
|
آدرس
|
پژوهشگاه علوم و فناوری اطلاعات ایران, ایران, دانشگاه صنعتی شریف, ایران
|
پست الکترونیکی
|
habdi.cnlp@gmail.com
|
|
|
|
|