>
Fa   |   Ar   |   En
   ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی  
   
نویسنده جمالی ایمان ,میرعابدینی جواد ,هارون آبادی علی
منبع مهندسي مخابرات جنوب - 1399 - دوره : 10 - شماره : 38 - صفحه:61 -72
چکیده    برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته ای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاک سازی متون  به کمک روش نرمال شده فرکانس کلمه معکوس فرکانس سند (norm tf- idf) به ویژگی ها وزن داده می شود و در طی دو مرحله ویژگی ها با استفاده از روش های فرکانس سند (df) و مربع چی(schi) انتخاب می شوند و بعد با استفاده از روش تحلیل مولفه اصلی (pca) ابعاد ویژگی ها کاهش داده می شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (svm) به پیاده سازی مدل پیشنهادی می پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحله‌ای ارزیابی می کنیم  نتایج تجربی نشان می دهد که این مدل می تواند عمل دسته بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.
کلیدواژه ماشین بردار پشتیبان، دسته بندی متون، انتخاب ویژگی، تحلیل مولفه اصلی
آدرس دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر, گروه کامپیوتر, ایران, دانشگاه آزاد اسلامی واحد تهران, ایران, دانشگاه آزاد اسلامی واحد تهران مرکز, گروه مهندسی کامپیوتر, ایران
پست الکترونیکی a.harounabadi@gmail.com
 
   offering a model for persian texts classify by combination of classification methods  
   
Authors jamali iman ,mirabedini javad ,harounabadi a
Abstract    to classify text information extraction techniques, natural language processing and machine learning has been widely used general purpose of categories of documents, classified documents in the form of a certain number of categories are pre determined. each document can be in one, several or no category is placed. in the case of any document to this question will be placed the document on which of the categories. this can be in the form of an automatic learning to use it any document can be automatically assigned to a category.     in this thesis, data collection and cleanup after you select text using the normal method of word frequency inverse document frequency (norm tf idf) is the weight features and features in two stages using document frequency (df) and chi square (schi) are selected, and then using principal component analysis (pca) features reduced dimensions, and at a later stage by combining 21 support vector machine (svm) the proposed model we have implemented, and the accuracy of the model to assess the 10 step method validation. experimental results show that this model can text classification accuracy of 91.86 for the seven categories do, which has a higher accuracy than the earlier work done.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved