شماره ركورد كنفرانس :
5183
عنوان مقاله :
ساخت و تحليل گراف شباهت فيلمها براساس تحليل موضوعي زيرنويسها
عنوان به زبان ديگر :
Constructing and Analyzing Movie Similarity Graph Based on Topical Analysis of Movie Subtitles
پديدآورندگان :
مؤمني دادفر دانشگاه علم و صنعت ايران , رحماني حسين دانشگاه علم و صنعت ايران , نظري محمد دانشگاه علم و صنعت ايران
كليدواژه :
دادهكاوي , استخراج موضوع , تحليل گراف , فيلم , زيرنويس
عنوان كنفرانس :
هشتمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
امروزه باتوجهبه حجم عظيم دادهها، براي جستوجو ميان آنها، ناگزيريم از روشهايي بهره بگيريم كه بتوانيم اطلاعات را طبق نياز خود پالايش كنيم. اين چالش در صنعت سينما و سرگرمي نيز به منظور يافتن فيلمها و سريالهايي با موضوعات مشابه و مرتبط درجهت پيشنهاد و كوچككردن فضاي جستوجو براي مخاطبان وجود دارد. بنابراين روشهايي لازم است كه بتوانند به نحوي كارآمد فيلمهاي مرتبط و داراي موضوعات مشابه را تشخيص دهند و در اختيار كاربران بگذارند. اكثر سرويسهاي موجود در اين زمينه، بر اطلاعات بدستآمده از كاربران تكيه ميكنند و معمولاً محتواي اصلي فيلم، توسط آنها بهكارگرفته نميشود. اين سرويسها از اطلاعاتي مانند سليقه و نظرات كاربران، يا ويژگيهايي نظير بازيگران، كارگردان و ژانر فيلم، يا تركيبي از اين دو استفاده ميكنند. در اين مقاله با استفاده از ويژگيهاي سطح پايين استخراجشده از زيرنويسها به تحليل موضوعي محتواي متني فيلمها (زيرنويس) پرداختهايم. بهاينمنظور با بهره گيري از ويژگيهاي استخراجشده بهوسيله الگوريتم LDA و سنجه شباهت كسينوسي، اقدام به ساخت گراف شباهت فيلمها نمودهايم. در اين گراف هر گره معرف يك فيلم و هر يال بيانگر شباهت ميان دو فيلم است. درادامه با استفاده از روشهاي خوشهبندي برروي گراف فيلمها توانستيم در خوشهها، همبستگي موضوعي قابلتوجهي ميان فيلمها بدست آوريم.
چكيده لاتين :
Nowadays, considering the huge amount of DATA, to search through them, we ought to use methods for analyzing the DATA according to our needs. This challenge also exists in the entertainment and cinema industry to find movies and TV shows with the same topic aiming to recommend and minimize the search space for the audience. Therefore, methods are needed to efficiently recognize the movies with the same topic and present them to the users. Most of the existing services lean on user-based information, and usually, not on the original content of the movies. These services use DATA such as user ratings and comments or features like actors, directors, and the movie genre or a combination of both. In this paper, we use low-level features of the movie subtitles, extracted using LDA, for thematic analysis of textual contents of the movies (subtitles). To do so, using the extracted features and Cosine similarity measure, we construct the similarity graph of movies. In this graph, each node represents a movie and each edge indicates the similarity between them. In the following, using clustering methods on movies graphs we were able to achieve a noticeable Thematic correlation between the movies