|
|
|
|
بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و rag
|
|
|
|
|
|
|
|
نویسنده
|
امینی ژیلا ,میرحسینی هلیا
|
|
منبع
|
سامانه هاي غيرخطي در مهندسي برق - 1403 - دوره : 11 - شماره : 2 - صفحه:73 -91
|
|
چکیده
|
مدلهای زبانی بزرگ (llms) مانند codegen توانسته عملکرد چشمگیری در تولید خودکار کدهای برنامهنویسی ارائه دهند ولیکن حجم بالا و نیاز به منابع سختافزاری پرهزینه، کاربرد عملی این مدلها را محدود میسازد. هدف این پژوهش، کوچکسازی مدل در کنار حفظ کیفیت خروجی و کاهش وابستگی به منابع محاسباتی سنگین است. در این راستا، از مدل codegen-6b بهعنوان معلم و مدل codegen-350m بهعنوان دانشآموز استفاده شده است.روش پیشنهادی شامل یک خط لوله سهمرحلهای است که ابتدا مدل دانشآموز با استفاده از دادههای متنی - کدی تحت آموزش نظارتشده قرار میگیرد تا توانایی پایهای در تولید کد کسب کند. سپس، با به کارگیری انتقال دانش ، رفتار و توزیع احتمالات خروجی مدل معلم به مدل دانشآموز منتقل میشود. در نهایت، برای جبران محدودیت ظرفیت پارامتری مدل کوچک، یک سیستم بازیابی همراه با تولید مبتنی بر ایندکس faiss و امبدینگهای کدی، طراحی و به مدل افزوده میشود.نتایج نشان میدهد که ترکیب انتقال دانش و بازیابی همراه با تولید منجر به بهبود کیفیت خروجی مدل کوچک شده و امتیاز حل مسائل کدنویسی در نمونههای ارزیابیشده از 0.5 در حالت مدل پایه به 1.5 در نسخه مجهز به rag افزایش یافته است. همچنین، تحلیل صحت نحوی کدها با استفاده از ساختار ast و کاهش فاصله توزیعی خروجیها بر اساس معیار kl divergence نشان میدهد که مدل دانشآموز توانسته رفتاری نزدیک به مدل معلم ارائه دهد. نتایج بیانگر آن است که مدل 350 میلیون پارامتری پیشنهادی، بدون افزایش اندازه مدل، قادر به دستیابی کیفیتی قابل رقابت با مدلهای بزرگتر در تولید کد میباشد.
|
|
کلیدواژه
|
انتقال دانش ,مدلهای زبانی کوچک ,تولید کد ,بازیابی همراه با تولید ,مدل codegen
|
|
آدرس
|
دانشگاه الزهرا, دانشکده فنی و مهندسی, گروه مهندسی برق, ایران, دانشگاه الزهرا, دانشکده فنی و مهندسی, گروه مهندسی برق, ایران
|
|
پست الکترونیکی
|
helia.mirhosseini1382@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|