|
|
application of computational linguistics to predicting language proficiency level of persian learners’ textbooks
|
|
|
|
|
نویسنده
|
ghayoomi masood
|
منبع
|
journal of language horizons, alzahra university - 2022 - دوره : 6 - شماره : 1 - صفحه:29 -52
|
چکیده
|
One subfield of assessment of language proficiency is predicting language proficiency level. this research aims at proposing a computational linguistic model to predict language proficiency level and to explore the general properties of the levels. to this end, a corpus is developed from persian learners' textbooks and statistical and linguistic features are extracted from this text corpus to train three classifiers as learners. the performance of the models vary based on the learning algorithm and the feature set(s) used for training the models. for evaluating the models, four standard metrics, namely accuracy, precision, recall, and fmeasure were used. based on the results, the model created by the random forest classifier performed the best when statistical features extracted from raw text is used. the support vector machine classifier performed the best by using linguistic features extracted from the automatically annotated corpus. the results determine that enriching the model and providing various kinds of information do not guarantee that a classifier (learner) performs the best. to discover the latent teaching methodology of the textbooks, the general performance of the classifiers with respect to the language level and the linguistic knowledge used for creating the model are studied. based on the obtained results, the amount of extracted features plays an important role in training a classifier. furthermore, the average best performance of the classifiers is extending the linguistic knowledge from syntactic patterns at proficiency level a (beginner) to all linguistic information at levels b (intermediate) and c (advanced).
|
کلیدواژه
|
machine learning ,classification ,feature ,computational cognitive model ,persian learner
|
آدرس
|
institute for the humanities and cultural studies, faculty of linguistics, iran
|
پست الکترونیکی
|
m.ghayoomi@ihcs.ac.ir
|
|
|
|
|
|
|
|
|
کاربرد زبانشناسی رایانشی برای پیشبینی سطحِ مهارت زبانیِ کتابهای درسی زبانآموزانِ فارسی
|
|
|
Authors
|
قیومی مسعود
|
Abstract
|
یکی از زیرحوزههای ارزیابی مهارت زبانی، پیشبینی سطح مهارت زبانی است. این پژوهش بهدنبال ارائۀ یک مدل زبانشناسی رایانشی برای پیشبینی سطح مهارت زبانی و کشف ویژگیهای کلی این سطوح است. برای این هدف، نگارنده یک پیکرۀ زبانی از کتابهای درسی زبانآموزان فارسی گردآوری شده و ویژگیهای زبانشناختی و آماری از این پیکرۀ متنی برای آموزش سه دستهبند بهعنوان یادگیرنده (زبانآموز) استخراج شدهاست. عملکرد مدلها بر مبنای الگوریتم یادگیری و مجموعۀ ویژگیهایی که برای آموزش مدلها به کار رفتهاست متفاوت است. برای ارزیابی مدلها، چهار معیار اندازهگیری استاندارد به نام درستی، دقت، فراخوانی و معیار اف استفاده شدهاست. بر اساس یافتهها، هنگامیکه ویژگیهای آماریِ استخراج شده از متن خام، به کار گرفته شد، مدل ساختهشده توسط دستهبند جنگل تصادفی بهترین عملکرد مدل را بهدست آورد. دستهبند ماشین بردار پشتیبان با استفاده از ویژگیهای زبانشناختی استخراجشده از پیکرة نشانهگذاریشده به صورت خودکار، بهترین عملکرد مدل را بهدست آورد. نتایج بهدستآمده مشخص میکند که غنیسازی مدل و فراهمآوری اطلاعات مختلف، تضمین نمیکند که یک دستهبند (زبانآموز) بهترین عملکرد مدل را بهدست آورد. برای کشف روششناختی آموزشی پنهان در کتابهای درسی، عملکرد کلی دستهبندها باتوجه به سطح زبانی و دانش زبانشناختی بهکاررفته برای ساخت مدل بررسی شد. براساس یافتههای بهدستآمده، تعداد ویژگیهای استخراجشده نقش بهسزایی در آموزش یک دستهبند دارد. همچنین، بهترین عملکرد میانگین دستهبندها از الگوهای دستوری در سطح مهارت زبانی الف (مبتدی)، به همة دانش زبانشناسی در سطوح ب (متوسط) و ج (پیشرفته) گسترش مییابد.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|