|
|
بررسی کارایی مدلهای زبانی عمیق مبتنی بر ترنسفورمر
|
|
|
|
|
نویسنده
|
مجیدی مریم ,قاسم زاده محمد
|
منبع
|
بيستمين سمپوزيوم بينالمللي هوش مصنوعي و پردازش سيگنال - 1402 - دوره : 20 - بیستمین سمپوزیوم بینالمللی هوش مصنوعی و پردازش سیگنال - کد همایش: 02230-38445 - صفحه:0 -0
|
چکیده
|
مدلهای زبانی عمیق مبتنی بر مبدلها (ترنسفورمرها) در سالهای اخیر بهعنوان یکی از پیشرفتهای بزرگ در حوزه یادگیری عمیق و پردازش زبان طبیعی مطرح شدهاند. این مدلها بر پایهی معماری مبدل که اولینبار در زمینه ترجمه ماشینی معرفی شد، ساخته شدهاند. این پژوهش مدلهای زبانی عمیق مبتنی بر مبدلها را از دو دیدگاه مدل های درک زبان طبیعی(nlu) و تولید زبان طبیعی (nlg) بررسی کرده است. همچنین مهمترین مدل های زبانی این دو دیدگاه را که در شش سال اخیر مطرح شده اند، معرفی کرده و به تشریح معماری مبدل و اجزای آن پرداخته است. از جمله مدل های مورد بررسی میتوان به xlnet ، bert، megatron و خانواده gpt اشاره کرد. این پژوهش به مزایا و محدودیتهای هر یک از مدلهای ذکر شده و روشهای آموزش و انتقال یادگیری در این مدلها می-پردازد. نتایج آزمایش ها و تحلیل های رسمی نشان میدهند که بهکارگیری مبدلها در معماری مدل های زبانی بسیار بهتر از مدلهای مبتنی بر شبکه های عصبی بازگشتی (rnn) و حافظهی طولانی کوتاه مدت (lstm) عمل می کنند و مدلهای زبانی مبتنی بر مبدل توانایی بالقوهای برای درک و تولید زبان طبیعی دارند.
|
کلیدواژه
|
پردازش زبان طبیعی،ترنسفورمرها،مدل های زبانی،یادگیری عمیق
|
آدرس
|
, iran, , iran
|
پست الکترونیکی
|
m.ghasemzadeh@yazd.ac.ir
|
|
|
|
|
|
|
|
|
evaluating the performance of transformer-based deep language models
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|