|
|
ساخت و تحلیل گراف شباهت فیلمها براساس تحلیل موضوعی زیرنویسها
|
|
|
|
|
نویسنده
|
مومنی دادفر ,رحمانی حسین ,نظری محمد
|
منبع
|
هشتمين كنفرانس بين المللي وب پژوهي - 1402 - دوره : 8 - هشتمین کنفرانس بین المللی وب پژوهی - کد همایش: 02220-95144 - صفحه:0 -0
|
چکیده
|
امروزه باتوجهبه حجم عظیم دادهها، برای جستوجو میان آنها، ناگزیریم از روشهایی بهره بگیریم که بتوانیم اطلاعات را طبق نیاز خود پالایش کنیم. این چالش در صنعت سینما و سرگرمی نیز به منظور یافتن فیلمها و سریالهایی با موضوعات مشابه و مرتبط درجهت پیشنهاد و کوچککردن فضای جستوجو برای مخاطبان وجود دارد. بنابراین روشهایی لازم است که بتوانند به نحوی کارآمد فیلمهای مرتبط و دارای موضوعات مشابه را تشخیص دهند و در اختیار کاربران بگذارند. اکثر سرویسهای موجود در این زمینه، بر اطلاعات بدستآمده از کاربران تکیه میکنند و معمولاً محتوای اصلی فیلم، توسط آنها بهکارگرفته نمیشود. این سرویسها از اطلاعاتی مانند سلیقه و نظرات کاربران، یا ویژگیهایی نظیر بازیگران، کارگردان و ژانر فیلم، یا ترکیبی از این دو استفاده میکنند.در این مقاله با استفاده از ویژگیهای سطح پایین استخراجشده از زیرنویسها به تحلیل موضوعی محتوای متنی فیلمها (زیرنویس) پرداختهایم. بهاینمنظور با بهره گیری از ویژگیهای استخراجشده بهوسیله الگوریتم lda و سنجه شباهت کسینوسی، اقدام به ساخت گراف شباهت فیلمها نمودهایم. در این گراف هر گره معرف یک فیلم و هر یال بیانگر شباهت میان دو فیلم است. درادامه با استفاده از روشهای خوشهبندی برروی گراف فیلمها توانستیم در خوشهها، همبستگی موضوعی قابلتوجهی میان فیلمها بدست آوریم.
|
کلیدواژه
|
دادهکاوی، استخراج موضوع، تحلیل گراف، فیلم، زیرنویس
|
آدرس
|
, iran, , iran, , iran
|
|
|
|
|
|
|
|
|
|
|
Constructing and Analyzing Movie Similarity Graph Based on Topical Analysis of Movie Subtitles
|
|
|
Authors
|
|
Abstract
|
Nowadays, considering the huge amount of DATA, to search through them, we ought to use methods for analyzing the DATA according to our needs. This challenge also exists in the entertainment and cinema industry to find movies and TV shows with the same topic aiming to recommend and minimize the search space for the audience. Therefore, methods are needed to efficiently recognize the movies with the same topic and present them to the users. Most of the existing services lean on user-based information, and usually, not on the original content of the movies. These services use DATA such as user ratings and comments or features like actors, directors, and the movie genre or a combination of both. In this paper, we use low-level features of the movie subtitles, extracted using LDA, for thematic analysis of textual contents of the movies (subtitles). To do so, using the extracted features and Cosine similarity measure, we construct the similarity graph of movies. In this graph, each node represents a movie and each edge indicates the similarity between them. In the following, using clustering methods on movies graphs we were able to achieve a noticeable Thematic correlation between the movies
|
Keywords
|
Data Mining ,Topic Extraction ,Graph Analysis ,Movie ,Subtitle
|
|
|
|
|
|
|
|
|
|
|