بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و rag

Fa | Ar | En

بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و rag


نویسنده	امینی ژیلا ,میرحسینی هلیا
منبع	سامانه هاي غيرخطي در مهندسي برق - 1403 - دوره : 11 - شماره : 2 - صفحه:73 -91
چکیده	مدل‌های زبانی بزرگ (llms) مانند codegen توانسته‌ عملکرد چشمگیری در تولید خودکار کدهای برنامه‌نویسی ارائه دهند ولیکن حجم بالا و نیاز به منابع سخت‌افزاری پرهزینه، کاربرد عملی این مدل‌ها را محدود می‌سازد. هدف این پژوهش، کوچک‌سازی مدل در کنار حفظ کیفیت خروجی و کاهش وابستگی به منابع محاسباتی سنگین است. در این راستا، از مدل codegen-6b به‌عنوان معلم و مدل codegen-350m به‌عنوان دانش‌آموز استفاده شده است.روش پیشنهادی شامل یک خط لوله سه‌مرحله‌ای است که ابتدا مدل دانش‌آموز با استفاده از داده‌های متنی - کدی تحت آموزش نظارت‌شده قرار می‌گیرد تا توانایی پایه‌ای در تولید کد کسب کند. سپس، با به ‌کارگیری انتقال دانش ، رفتار و توزیع احتمالات خروجی مدل معلم به مدل دانش‌آموز منتقل می‌شود. در نهایت، برای جبران محدودیت ظرفیت پارامتری مدل کوچک، یک سیستم بازیابی همراه با تولید مبتنی بر ایندکس faiss و امبدینگ‌های کدی، طراحی و به مدل افزوده می‌شود.نتایج نشان می‌دهد که ترکیب انتقال دانش و بازیابی همراه با تولید منجر به بهبود کیفیت خروجی مدل کوچک شده و امتیاز حل مسائل کدنویسی در نمونه‌های ارزیابی‌شده از 0.5 در حالت مدل پایه به 1.5 در نسخه مجهز به rag افزایش یافته است. همچنین، تحلیل صحت نحوی کدها با استفاده از ساختار ast و کاهش فاصله توزیعی خروجی‌ها بر اساس معیار kl divergence نشان می‌دهد که مدل دانش‌آموز توانسته رفتاری نزدیک به مدل معلم ارائه دهد. نتایج بیانگر آن است که مدل 350 میلیون پارامتری پیشنهادی، بدون افزایش اندازه مدل، قادر به دستیابی کیفیتی قابل رقابت با مدل‌های بزرگ‌تر در تولید کد می‌باشد.
کلیدواژه	انتقال دانش ,مدل‌های زبانی کوچک ,تولید کد ,بازیابی همراه با تولید ,مدل codegen
آدرس	دانشگاه الزهرا, دانشکده فنی و مهندسی, گروه مهندسی برق, ایران, دانشگاه الزهرا, دانشکده فنی و مهندسی, گروه مهندسی برق, ایران
پست الکترونیکی	helia.mirhosseini1382@gmail.com



Authors