ارائه یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی
|
|
|
|
|
|
|
|
نویسنده
|
قیومی مسعود
|
|
منبع
|
زبان و زبان شناسي - 1397 - دوره : 14 - شماره : 1 - صفحه:21 -50
|
|
چکیده
|
متن نگاشتهشدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژههای چندواحدی هستند که از اتصال یک واژه به واژههای بعدی حاصل میشوند. مشکل دیگر واحدهای چندواژهای هستند که از جداشدگی واژههایی که با هم یک واحد واژگانی تشکیل میدهند حاصل میگردند.+- این مقاله الگوریتمی را معرفی میکند که بتواند بهطور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را بهدست آورد. الگوریتمِ معرفیشده سه مرحله دارد. در مرحلۀ اول، واژههای چندواحدی از هم جدا میشوند و واحدهای چندواژهای به یکدیگر متصل میشوند. برای این مرحله، یک الگوریتم پایۀ مبتنیبر مدل زبانی معرفی شدهاست که کار تفکیک واژههای چندواحدی به واژههای مستقل را انجام میدهد. این الگوریتم باتوجهبه چالشهای پیشآمده بهبود مییابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیلگرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژهای استفاده میکند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده میشود. مرحله سوم تکرار مرحله اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحله دوم مرتفع شود. الگوریتم معرفیشده برای واحدسازی دادۀ زبانیِ پایگاه دادههای زبان فارسی استفاده شدهاست. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژههای داده آزمون تصحیح شدهاست. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.
|
|
کلیدواژه
|
پردازش زبان طبیعی، واحدسازی داده، مدلسازی زبانی آماری، زبانشناسی پیکرهای
|
|
آدرس
|
پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران
|
|
پست الکترونیکی
|
m.ghayoomi@ihcs.ac.ir
|
|
|
|
|
|
|