|
|
استفاده از شبکههای مولد تخاصمی در افزایش کارایی دسته بندی نظرات نامتعادل کاربران
|
|
|
|
|
نویسنده
|
جاوید بهاره ,مشایخی هدی
|
منبع
|
مهندسي برق دانشگاه تبريز - 1403 - دوره : 54 - شماره : 4 - صفحه:413 -422
|
چکیده
|
روشهای تولید متن برای تولید خودکار متون زبان طبیعی از هوش مصنوعی استفاده میکنند. یکی از کاربردهای تولید متن در دستهبندی متن است. بسیاری از مسائل دنیای واقعی با دادههای متنی نامتعادل در ارتباط هستند که میتواند کارایی دستهبندی را کاهش دهد. یک رویکرد حل مشکل دادههای نامتعادل، بیش-نمونهبرداری از کلاس اقلیت است. با توجه به پیشرفت شبکههای مولد تخاصمی (gan) در تولید داده، میتوان از این شبکهها برای تولید نمونههای متنی در بیشنمونهبرداری استفاده کرد. تولید متن به کمک شبکههای مولد تخاصمی به دلیل ماهیت گسسته متن مسئلهای پیچیده است. علیرغم پتانسیل آنها، استفاده این شبکهها در حل مشکل دادههای متنی نامتعادل به ندرت مورد بررسی قرار گرفته است. این مقاله به بررسی تاثیر استفاده از شبکهی sentigan بر حل مشکل عدم تعادل نظرات کاربران با هدف بهبود کارایی دستهبندی میپردازد. بعد از ارائه روش پیشنهادی و چارچوب ارزیابی، چهار الگوریتم دستهبندی بر روی دادهها اجرا شده و معیارهای ارزیابی مختلف پیش و پس از بیشنمونهبرداری محاسبه و تحلیل شدهاند. همچنین نتایج با روشهای بیشنمونهبرداری سنتی و اخیر مقایسه شده است. بیشنمونهبرداری با روش پیشنهادی باعث افزایش معیارهای صحت، دقت و تشخیصپذیری، و امتیاز اف دستهبندی دادههای اقلیت نسبت به دادههای نامتعادل و همچنین در مقایسه با روشهای دیگر بیشنمونهبرداری میشود.
|
کلیدواژه
|
شبکههای مولد تخاصمی (gan)، دستهبندی متون نامتعادل، بیشنمونهبرداری، متن نامتعادل، دسته بندی
|
آدرس
|
دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
hmashayekhi@shahroodut.ac.ir
|
|
|
|
|
|
|
|
|
using generative adversarial networks to increase the classification efficiency of imbalanced user reviews
|
|
|
Authors
|
javid b. ,mashayekhi h.
|
Abstract
|
text generation methods use artificial intelligence to automatically generate natural language texts. one of the uses of text generation is in text classification. many real-world problems are related to imbalanced textual data, which can reduce classification efficiency. one approach to solving the imbalanced data problem is the minority class oversampling. due to the progress of generative adversarial networks (gan) in data generation, these networks can be used to generate text samples in oversampling. generating text using gans is a complex problem due to the discrete nature of text. despite their potential, the use of these networks in solving the problem of imbalanced textual data has rarely been investigated. this article examines the effect of using the sentigan network to solve the problem of imbalanced user reviews with the aim of improving the classification efficiency. to evaluate the proposed method, before and after oversampling with traditional, recent and sentigan methods, four classification algorithms were implemented on the data and evaluation criteria were calculated. it was observed that oversampling with the help of sentigan has increased the accuracy, precision, specificity and f_score of zero class compared to the situation where the data is imbalanced or even is oversampled by the other methods.
|
Keywords
|
generative adversarial networks (gan) ,imbalanced text classification ,oversampling ,imbalanced text ,classification
|
|
|
|
|
|
|
|
|
|
|