>
Fa   |   Ar   |   En
   تولید کلمات کلیدی متون فارسی با استفاده از یادگیری انتقالی  
   
نویسنده رحیمی مرضیه ,جلیلی جلال عرفان ,علیرضایی حسین
منبع مهندسي برق دانشگاه تبريز - 1401 - دوره : 52 - شماره : 2 - صفحه:115 -123
چکیده    تولید خودکار کلمات کلیدی، نقش مهمی در بسیاری از کاربردهای تحلیلی متن و زبان‌ های طبیعی، به ‌ویژه در دسته‌ بندی و بازیابی سریع متون دارد. بسیاری از روش‌های کنونی محدود به انتخاب کلماتی هستند که صریحاً در متن ذکر شده‌اند. استفاده از روش‌های دنباله‌ به ‌دنباله قادر است این نقصان را برطرف کند. البته استفاده از این روش‌ها معمولاً مستلزم وجود پیکره‌های عظیم است که برای زبان‌های کم‌منبع مثل فارسی یک چالش محسوب می‌شود. در چنین موقعیت‌هایی، یادگیری انتقالی که در آن یک مدل پیش‌آموخته بر روی یک وظیفه جدید با مجموعه کوچکتری از داده‌ها تطبیق داده می‌شود، می‌تواند راه‌گشا باشد. در این مقاله، برآنیم تا با استفاده از یک روش دنباله‌به‌دنباله مبتنی بر شبکه‌های عمیق انتقالی، به تولید کلمات کلیدی برای متون علمی فارسی بپردازیم. در همین راستا، پیکره‌ متنوعی از ٧0هزار مقاله تخصصی به زبان فارسی و کلمات کلیدی متناظرشان جمع‌آوری شده است. سپس شبکه انتقالی پیش‌آموخته mt5 با استفاده از این پیکره،  برای وظیفه تولید کلمات کلیدی، تنظیم و بازآموزی شده است. مدل حاصل، با چندین روش دیگر مقایسه شده است. نتایج این مقایسه حاکی از برتری حداقل 2.71 درصدی آن بر روش‌های موجود است.
کلیدواژه تولید عبارات کلیدی، استخراج عبارات کلیدی، روش‌های دنباله‌ به ‌دنباله، شبکه‌های عمیق انتقالی، پیکره فارسی، خلاصه ‌سازی چکیده‌ای
آدرس دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر, ایران, دانشگاه پورتو, دانشکده مهندسی انفورماتیک, پرتغال, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی hoseinalirezaee@mail.um.ac.ir
 
   persian keyphrase generation using transfer learning  
   
Authors rahimi marziea ,jalili jalal erfan ,alirezayi hossain
Abstract    automatic keyphrase generation plays an important role in many text analysis and natural language processing tasks. many existing methods are bound to select keyphrases from the terms and phrases that are present in the target text. this handicap could be overcome using sequence-to-sequence methods. however, many such methods need huge datasets for training which pose a challenge for low-resource languages such as persian. transfer learning where a pre-trained model is adapted to a new task specified with a smaller dataset is very useful in such circumstances. in this paper, we present a sequence-to-sequence method utilizing a transformer model for persian keyphrase generation. accordingly, a corpus of 70k persian scientific abstracts and their corresponding keyphrases have been gathered. a pretrianed mt5 mdel is fine-tuned on this corpus for the task of persian keyword generation. the resulted model is compared to several other keyphrase generation methods. the results indicate that the proposed method can outperform existing methods at least by 2.71 percent.
Keywords keyphrase generation ,keyphrase extraction ,transformer models ,persian corpus ,abstractive summarization ,sequence-to-sequence learning
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved