|
|
انتخاب هوشمندانه مراکز اولیه در الگوریتم خوشه بندی k-means بهمنظور بهبود تشخیص موضوع
|
|
|
|
|
نویسنده
|
آروین سپهر ,ورداسبی علی ,فیلی هشام ,شاکری آزاده
|
منبع
|
علوم رايانش و فناوري اطلاعات - 1397 - دوره : 16 - شماره : 2 - صفحه:39 -48
|
چکیده
|
تشخیص موضوع یکی از مسائل حوزه ی پردازش زبان طبیعی است که در سال های اخیر همواره مورد توجه بوده و از زوایای متفاوتی مورد پژوهش قرارگرفته است. هدف کلی در این مسئله خوشه بندی اسناد متنی در دسته های مختلف است بهگونهای که اسناد موجود در هر خوشه موضوع یکسانی داشته باشد. بخش قابلتوجهی از راهحلهای ارائهشده برای این مسئله از الگوریتم های خوشه بندی مانند k-means استفاده میکنند. علاوه بر روشهای مبتنی بر خوشهبندی اسناد، در دستهای از پژوهش ها برای حل مسئله تشخیص موضوع از روش های مدل سازی موضوعی استفادهشده است.در این پژوهش ابتدا حساسیت قابلتوجه الگوریتم k-means به انتخاب مراکز اولیه بهصورت عملی نشان داده میشود و سپس روشی برای انتخاب هوشمندانه مراکز اولیه ارائه میشود که استفاده از آن کیفیت الگوریتم k-means را در مسئلهی تشخیص موضوع ارتقاء میدهد. روش پیشنهادشده برای تشخیص موضوع در این مقاله با بهره گیری از مدل سازی موضوعی (lda (latent dirichlet allocation، پس از انتخاب هوشمندانه مراکز اولیه، اقدام به خوشه بندی اسناد بر اساس موضوع آن ها می کند. در روش ارائهشده فاصله اسناد بر اساس توزیع موضوع حاصل از lda آن ها محاسبهشده است. آزمایش ها نشان می دهند که استفاده از روش ارائهشده باعث بهبود چشم گیر کیفیت تشخیص موضوع نسبت به روش lda در دو مجموعه از سه مجموعه دادگان مورد آزمایش می شود. همچنین در مقایسه با روش ++k-means برای انتخاب مراکز اولیه، در روش ارائهشدهی ما انتخاب مراکز اولیه در دو مجموعه دادگان همیشه مناسب تر بوده و احتمال بهتر بودن مراکز انتخابی در مجموعه دادگان دیگر مورد آزمایش برابر با 70 درصد است.
|
کلیدواژه
|
lda (latent dirichlet allocation)، خوشه بندی، تعیین مراکز اولیه، معیار فاصله، k-means، silhouette
|
آدرس
|
دانشگاه تهران، پردیس دانشکدههای فنی, دانشکدهی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکدههای فنی, دانشکدهی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکدههای فنی, دانشکدهی مهندسی برق و کامپیوتر, ایران, دانشگاه تهران، پردیس دانشکدههای فنی, دانشکدهی مهندسی برق و کامپیوتر, ایران
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Authors
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|