افزایش داده‌های کد برای بهبود عملکرد مدل زبان در ترمیم پیوندهای ردپذیری نیازمندی به کد

Fa | Ar | En

افزایش داده‌های کد برای بهبود عملکرد مدل زبان در ترمیم پیوندهای ردپذیری نیازمندی به کد


نویسنده	مجیدزاده علی ,آشتیانی مهرداد ,ذاکری نصرآبادی مرتضی
منبع	نهمين كنفرانس بين المللي وب پژوهي - 1402 - دوره : 9 - نهمین کنفرانس بین المللی وب پژوهی - کد همایش: 02221-97364 - صفحه:0 -0
چکیده	افزایش داده روشی برای رفع نیاز داده و استفاده بیشتر از داده‌های موجود برای آموزش شبکه‌های عصبی عمیق است. نگه‌داری پیوندهای ردپذیری نیازمندی به مدیریت توسعه نرم‌افزار کمک کرده و باعث بهبود کیفیت نرم‌افزار می‌شود. برای کمک به نگه‌داری این پیوندها، می‌توان از روش‌های ترمیم خودکار پیوندها استفاده نمود. یکی از روش‌های اخیر ترمیم خودکار، استفاده از مدل زبان است. در این کار سه روش افزایش داده‌های کد برای بهبود مدل زبان در کاربرد ترمیم پیوندهای ردپذیری نیازمندی ارائه شده‌اند. این سه روش، تغییر نام متغیر، جابه‌جایی عملوندها و جابه‌جایی جملات هستند. این روش‌ها کلی بوده که برای بسیاری از زبان‌های برنامه‌نویسی قابل پیاده‌سازی هستند و همچنین قابلیت تولید حالات مختلف به صورت تصادفی دارند که می‌تواند قابلیت تعمیم مدل را بهبود بخشد. نتایج ارزیابی مدل روی داده‌های مستندات به تابع که مشابه داده‌های نیازمندی به تابع هستند نشان‌دهنده بهبود عملکرد مدل زبان با استفاده از افزایش داده‌های کد است. در این ارزیابی، با استفاده از افزایش داده‌های کد، دقت مدل از 0.669 به 0.722 و یادآوری آن از 0.574 به 0.601 رسیده است و طبق آزمایش ویلکوکسون، بهبود قابل توجهی داشته است.
کلیدواژه	ردپذیری نرم‌افزار، ردپذیری نیازمندی، افزایش داده، مدل زبان
آدرس	, iran, , iran, , iran
پست الکترونیکی	morteza_zakeri@comp.iust.ac.ir

code data augmentation to improve language model’s performance in requirement to code traceability link recovery

Authors
Abstract	data augmentation is a method to efficiently use the existing data to train deep neural networks. maintaining requirement traceability links helps to improve software quality and prevent defects by aiding software development management. to ease this maintenance, automatic link recovery techniques can be used. one of the recent techniques to do this is to use a language model. we propose three code data augmentation techniques to improve language models’ performance in requirement to code traceability link recovery. these three techniques are rename variable, swap operands, and swap statements. these are general techniques that can be implemented for different programming languages, and have the capacity to generate a variety of outputs randomly, which can improve the generalization of the model. the results of the evaluations show that code data augmentation improves the language model s performance in recovering doc-method links that are similar to requirement-method links. using code data augmentation, the precision is increased from 0.669 to 0.722, the recall is increased from 0.574 to 0.601, and the wilcoxon test shows that the improvements are significant.
Keywords	software traceability ,requirements traceability ,data augmentation ,language model