>
Fa   |   Ar   |   En
   انتخاب هوشمندانه مراکز اولیه در الگوریتم خوشه بندی k-means به‌منظور بهبود تشخیص موضوع  
   
نویسنده آروین سپهر ,ورداسبی علی ,فیلی هشام ,شاکری آزاده
منبع علوم رايانش و فناوري اطلاعات - 1397 - دوره : 16 - شماره : 2 - صفحه:39 -48
چکیده    تشخیص موضوع یکی از مسائل حوزه ی پردازش زبان طبیعی است که در سال های اخیر همواره مورد توجه بوده و از زوایای متفاوتی مورد پژوهش قرارگرفته است. هدف کلی در این مسئله خوشه­ بندی اسناد متنی در دسته ­های مختلف است به‌گونه‌ای که اسناد موجود در هر خوشه موضوع یکسانی داشته باشد. بخش قابل‌توجهی از راه‌حل‌های ارائه‌شده برای این مسئله از الگوریتم های خوشه بندی مانند k-means استفاده می‌کنند. علاوه بر روش‎های مبتنی بر خوشه‎بندی اسناد، در دستهای از پژوهش ها برای حل مسئله تشخیص موضوع از روش های مدل سازی موضوعی استفاده‌شده است.در این پژوهش ابتدا حساسیت قابل‌توجه الگوریتم k-means به انتخاب مراکز اولیه به‌صورت عملی نشان داده می‌شود و سپس روشی برای انتخاب هوشمندانه مراکز اولیه ارائه می‌شود که استفاده از آن کیفیت الگوریتم k-means را در مسئله‌ی تشخیص موضوع ارتقاء می‌دهد. روش پیشنهادشده برای تشخیص موضوع در این مقاله با بهره گیری از مدل سازی موضوعی (lda (latent dirichlet allocation، پس از انتخاب هوشمندانه مراکز اولیه، اقدام به خوشه بندی اسناد بر اساس موضوع آن ها می کند. در روش ارائه‌شده فاصله اسناد بر اساس توزیع موضوع حاصل از lda آن ها محاسبه‌شده است. آزمایش ­ها نشان می­ دهند که استفاده از روش ارائه‌شده باعث بهبود چشم گیر کیفیت تشخیص موضوع نسبت به روش lda در دو مجموعه از سه مجموعه دادگان مورد آزمایش می شود. همچنین در مقایسه با روش ++k-means برای انتخاب مراکز اولیه، در روش ارائه‌شده‎ی ما انتخاب مراکز اولیه در دو مجموعه دادگان همیشه مناسب تر بوده و احتمال بهتر بودن مراکز انتخابی در مجموعه دادگان دیگر مورد آزمایش برابر با 70 درصد است.
کلیدواژه lda (latent dirichlet allocation)، خوشه بندی، تعیین مراکز اولیه، معیار فاصله، k-means، silhouette
آدرس دانشگاه تهران، پردیس دانشکده‌های فنی, دانشکده‌ی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکده‌های فنی, دانشکده‌ی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکده‌های فنی, دانشکده‌ی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکده‌های فنی, دانشکده‌ی مهندسی برق و کامپیوتر, ایران
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved