|
|
مدل زبانی مبتنی بر bert جهت تحلیل محتوای ورزشی در زبان فارسی
|
|
|
|
|
نویسنده
|
ستوده داود ,امیری طهرانی زاده امین
|
منبع
|
كارافن - 1402 - دوره : 20 - شماره : 1 - صفحه:341 -362
|
چکیده
|
مدلهای زبانی آموزش دیده، به دلیل کاربرد آنها در مسائل مرتبط با حوزه پردازش زبانهای طبیعی دارای اهمیت فراوانی هستند. مدلهای زبانی مانند bert از محبوبیت بیشتری میان محققان برخوردار شده است. به دلیل توجه این مدلهای زبانی به زبان انگلیسی، دیگر زبانها به برخی از مدلهای چند زبانه محدود میشوند. در این مقاله، مدل زبانی varzeshibert به منظور تحلیل محتوای ورزشی فارسی در مسائل مرتبط با این حوزه زبانی ارائه شده است. این مدل زبانی بر پایه مدل زبانی bert و با استفاده از مجموعه داده جمعآوری شده آموزش دیده است. سه مساله برای ارزیابی مدل زبانی جدید استفاده شده است: تحلیل احساسات، تشخیص نهادهای نامگذاری شده و پرکردن جای خالی. برای آموزش این مدل زبانی با توجه به عدم وجود مجموعه دادهای مناسب، یک مجموعه داده گسترده از رویدادها و اخبار ورزشی زبان فارسی از چندین مرجع برخط تهیه شده است. با توجه به تخصصی بودن حوزه این مدل و در مقایسه با مدلهای زبانی ارائه شده برای زبان فارسی، این مدل در هر سه مساله، نتایج بهتری را ارائه داده است. این مدل با 71.7% و 95.2% بهترین عملکرد را به ترتیب در بخشهای پرکردن جای خالی و برچسب زنی اجزای کلام داشته است. در تحلیل احساسات نیز مدل ورزشی، نتایج بهتری را به همراه داشته است. این نتایج نشان میدهد، بکارگیری مدل زبانی مرتبط با هر حوزه تخصصی، نتایج بهتری در مقایسه با مدلهای زبانی مرتبط اما با حوزه عمومی متون، خواهد داشت.
|
کلیدواژه
|
مدل زبانی، پردازش زبانهای طبیعی، تحلیل احساسات، تشخیص نهادهای نامگذاری شده، مجموعه داده
|
آدرس
|
دانشگاه فنی و حرفهای, گروه مهندسی کامپیوتر, ایران, دانشگاه علوم پزشکی مشهد, دانشکده پزشکی, گروه انفورماتیک پزشکی, ایران
|
پست الکترونیکی
|
amin.amiriteh@gmail.com
|
|
|
|
|
|
|
|
|
introducing a language model based on bert to analyze sports content in the persian language
|
|
|
Authors
|
sotoude davood ,amiri tehranizade amin
|
Abstract
|
seljuk pretrained language models are very important because of their application in issues related to natural language processing. language models such as bert have become more popular among researchers. due to the focus of these language models on english, other languages are limited to some multilingual models. in this article, the persiansportbert language model is presented for the purpose of persian sports analysis in topics related to this linguistic field. this language model is based on the bert language model and was trained using the collected dataset. three problems were used to evaluate the new language model: sentiment analysis, named entity recognition and text infilling. in order to train this language model, due to the lack of a suitable dataset, a wide range of sports events and news in the persian language was prepared from several online sources. due to the specialization of this model and compared to the language models presented for the persian language, this model provided better results in all three problems. this model had the best performance with 71.7% and 95.2% in text infilling and named entity recognition, respectively. in sentiment analysis, the sports model presented better results. these findings demonstrate that using a language model related to any specialized field will have better results compared to language models related to the general field of texts.
|
Keywords
|
language models ,natural language processing ,sentiment analysis ,named-entity recognition ,dataset
|
|
|
|
|
|
|
|
|
|
|