|
|
درون سازی معنایی واژه ها با استفاده از bert روی وب فارسی
|
|
|
|
|
نویسنده
|
بستان شکوفه ,زارع بیدکی علی محمد ,پژوهان محمد رضا
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1402 - دوره : 21 - شماره : 2 - صفحه:89 -100
|
چکیده
|
استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم bert از محبوبیت فزایندهای برخوردار گردیدهاند. این مسئله در زبان فارسی کمتر مورد بررسی قرار گرفته و بهعنوان یک چالش در حوزه وب فارسی مطرح میگردد. بنابراین در این مقاله، درونسازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار میگیرد که به درک معنایی هر واژه بر مبنای بافت متن میپردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیشآموزش قرار میگیرد و پس از طی دو مرحله تنظیم دقیق با معماریهای متفاوت، مدل نهایی تولید میشود. در نهایت ویژگیهای مدل استخراج میگردد و در رتبهبندی اسناد وب فارسی مورد ارزیابی قرار میگیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدلهای مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش میدهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدلهای موجود توانسته به بهبود مدل و دقت درونسازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبهبندی بر مبنای مدلهای نهایی، بیانگر بهبود دقت رتبهبندی وب فارسی نسبت به مدلهای پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.
|
کلیدواژه
|
بردار معنایی، درونسازی واژه، رتبهبندی، یادگیری عمیق
|
آدرس
|
دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
pajoohan@yazd.ac.i
|
|
|
|
|
|
|
|
|
semantic word embedding using bert on the persian web
|
|
|
Authors
|
bostan shekoofe ,zare-bidoki ali-mohammad ,pajohan mohamad reza
|
Abstract
|
using the context and order of words in sentence can lead to its better understanding and comprehension. pre-trained language models have recently achieved great success in natural language processing. among these models, the bert algorithm has been increasingly popular. this problem has not been investigated in persian language and considered as a challenge in persian web domain. in this article, the embedding of persian words forming a sentence was investigated using the bert algorithm. in the proposed approach, a model was trained based on the persian web dataset, and the final model was produced with two stages of fine-tuning the model with different architectures. finally, the features of the model were extracted and evaluated in document ranking. the results obtained from this model are improved compared to results obtained from other investigated models in terms of accuracy compared to the multilingual bert model by at least one percent. also, applying the fine-tuning process with our proposed structure on other existing models has resulted in the improvement of the model and embedding accuracy after each fine-tuning process. this process will improve result in around 5% accuracy of the persian web ranking.
|
|
|
|
|
|
|
|
|
|
|
|
|