ساخت و تحلیل گراف شباهت فیلم‌ها براساس تحلیل موضوعی زیرنویس‌ها

Fa | Ar | En

ساخت و تحلیل گراف شباهت فیلم‌ها براساس تحلیل موضوعی زیرنویس‌ها


نویسنده	مومنی دادفر ,رحمانی حسین ,نظری محمد
منبع	هشتمين كنفرانس بين المللي وب پژوهي - 1402 - دوره : 8 - هشتمین کنفرانس بین المللی وب پژوهی - کد همایش: 02220-95144 - صفحه:0 -0
چکیده	امروزه باتوجه‌به حجم عظیم داده‌ها، برای جست‌وجو میان آن‌ها، ناگزیریم از روش‌هایی بهره بگیریم که بتوانیم اطلاعات را طبق نیاز خود پالایش کنیم. این چالش در صنعت سینما و سرگرمی نیز به منظور یافتن فیلم‌ها و سریال‌هایی با موضوعات مشابه و مرتبط درجهت پیشنهاد و کوچک‌کردن فضای جست‌وجو برای مخاطبان وجود دارد. بنابراین روش‌هایی لازم است که بتوانند به نحوی کارآمد فیلم‌های مرتبط و دارای موضوعات مشابه را تشخیص دهند و در اختیار کاربران بگذارند. اکثر سرویس‌های موجود در این زمینه، بر اطلاعات بدست‌آمده از کاربران تکیه می‌کنند و معمولاً محتوای اصلی فیلم‌، توسط آن‌ها به‌کارگرفته نمی‌شود. این سرویس‌ها از اطلاعاتی مانند سلیقه و نظرات کاربران، یا ویژگی‌هایی نظیر بازیگران، کارگردان و ژانر فیلم، یا ترکیبی از این دو استفاده می‌کنند.در این مقاله با استفاده از ویژگی‌های سطح پایین استخراج‌شده از زیرنویس‌ها به تحلیل موضوعی محتوای متنی فیلم‌ها (زیرنویس) پرداخته‌ایم. به‌این‌منظور با بهره گیری از ویژگی‌های استخراج‌شده به‌وسیله الگوریتم lda و سنجه شباهت کسینوسی، اقدام به ساخت گراف شباهت فیلم‌ها نموده‌ایم. در این گراف هر گره معرف یک فیلم‌ و هر یال بیانگر شباهت میان دو فیلم است. در‌ادامه با استفاده از روش‌های خوشه‌بندی برروی گراف فیلم‌ها توانستیم در خوشه‌ها، هم‌بستگی موضوعی قابل‌توجهی میان فیلم‌ها بدست آوریم.
کلیدواژه	داده‌کاوی، استخراج موضوع، تحلیل گراف، فیلم، زیرنویس
آدرس	, iran, , iran, , iran

Constructing and Analyzing Movie Similarity Graph Based on Topical Analysis of Movie Subtitles

Authors
Abstract	Nowadays, considering the huge amount of DATA, to search through them, we ought to use methods for analyzing the DATA according to our needs. This challenge also exists in the entertainment and cinema industry to find movies and TV shows with the same topic aiming to recommend and minimize the search space for the audience. Therefore, methods are needed to efficiently recognize the movies with the same topic and present them to the users. Most of the existing services lean on user-based information, and usually, not on the original content of the movies. These services use DATA such as user ratings and comments or features like actors, directors, and the movie genre or a combination of both. In this paper, we use low-level features of the movie subtitles, extracted using LDA, for thematic analysis of textual contents of the movies (subtitles). To do so, using the extracted features and Cosine similarity measure, we construct the similarity graph of movies. In this graph, each node represents a movie and each edge indicates the similarity between them. In the following, using clustering methods on movies graphs we were able to achieve a noticeable Thematic correlation between the movies
Keywords	Data Mining ,Topic Extraction ,Graph Analysis ,Movie ,Subtitle