ارائه یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی

Fa | Ar | En

ارائه یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی


نویسنده	قیومی مسعود
منبع	زبان و زبان شناسي - 1397 - دوره : 14 - شماره : 1 - صفحه:21 -50
چکیده	متن نگاشته‌شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه‌های بعدی حاصل می‌شوند. مشکل دیگر واحدهای چندواژه‌ای هستند که از جداشدگی واژه‌هایی که با هم یک واحد واژگانی تشکیل می‌دهند حاصل می‎گردند.+- این مقاله الگوریتمی را معرفی می‌کند که بتواند به‌طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به‌دست آورد. الگوریتمِ معرفی‌شده سه مرحله دارد. در مرحلۀ اول، واژه‌های چندواحدی از هم جدا می‌شوند و واحدهای چندواژه‌ای به یکدیگر متصل می‌شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی‌بر مدل زبانی معرفی شده‌است که کار تفکیک واژه‌های چندواحدی به واژه‌های مستقل را انجام می‌دهد. این الگوریتم باتوجه‌به چالش‌های پیش‌آمده بهبود می‌یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل‌گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه‌ای استفاده می‌کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می‌شود. مرحله سوم تکرار مرحله اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحله دوم مرتفع شود. الگوریتم معرفی‌شده برای واحدسازی دادۀ زبانیِ پایگاه داده‌های زبان فارسی استفاده شده‌است. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژه‌های داده آزمون تصحیح شده‎است. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.
کلیدواژه	پردازش زبان طبیعی، واحدسازی داده، مدل‌سازی زبانی آماری، زبان‌شناسی پیکره‌ای
آدرس	پژوهشگاه علوم انسانی و مطالعات فرهنگی, ایران
پست الکترونیکی	m.ghayoomi@ihcs.ac.ir

A Tentative Method of Tokenizing Persian Corpus based on Language Modelling

Authors	Ghayoomi Masood