۱. چکیده
مسئله مورد مطالعه این پروژه این است که با استفاده از اطلاعات فیلمها و امتیازاتی که در مجموعه داده IMDb به هر فیلم داده شده است، از طریق روشهای یادگیری ماشین، امتیاز فیلم را پیشبینی نماییم. نتایج نشان می دهد روشها و ویژگی های داده ای که در این پروژه در نظر گرفته شده از تحقیقات پیشین بهتر عمل کرده و می توان با دقت بالاتری امتیاز فیلم ها را پیش بینی کرد .
۲. مقدمه
درهرهفته تعداد بسیار زیادی فیلم منتشر می شود که در ژانرهای متفاوتی قرار دارند؛ مانند انیمیشن ، کمدی ، رمانتیک ،وحشتناک ،تخیلی و غیره که به یکی از اساسی ترین مو ضوع های سرگرم کننده مردم تبدیل شده اند. با این وجود انتخاب فیلم مناسب و جذاب از میان آن ها کار بسیار دشوار و زمان بری است ، در این میان بسیاری از پلتفرم های آنلاین وجود دارد ;از جمله : RottenTamatoes، Metacritic و پایگاه داده فیلم اینترنتی (IMDb) که اطلاعاتی در مورد فیلم ها مانند بازیگران، کارگردانان، بودجه و هم چنین رتبه بندی های کاربران و نظرات آنها ارائه می دهد و اطلاعات منصفانه و دقیقی درباره ی فیلم در اختیار مخاطبان قرار می دهد.
در حال حاضر، بزرگترین و بهترین پایگاه داده فیلم اینترنتی IMDb می باشد. این سایت دربرگیرنده ی اطلاعاتی در مورد فیلم ها وسریال های تلویزیونی و سینمایی از جمله سوابق مالی،بیوگرافی،امتیاز کاربران ، بازیگران، کارگردانان، عوامل تولید، بررسی ها و... می باشد. بیش از 60 میلیون کاربر ثبت شده دارد و در حدود 3.4 میلیون عنوان فیلم و سریال در آن قرار گرفته است.
براساس مطالعات انجام شده ،صنعت فیلم سازی در آمریکا که سالانه بیش از 10 میلیارد دلار درآمد از فروش فیلم به بار می آورد، تاثیر بالایی در اقتصاد جامعه داشته است.همین موضوع ،مسئله پیش بینی امتیاز فیلم را پر اهمیت تر جلوه می دهد.تحقیقات زیادی در مورد پیش بینی امتیاز فیلم انجام گرفته است. اکثریت آن ها براساس رتبه بندی کاربران است که در برخی از آن ها برای پیش بینی از رسانه های اجتماعی مختلف استفاده می شود (مانند YouTube، Twitter و....). با این حال، استفاده کمتری از شاخص های فیلم مانند کارگردان وبازیگران، تاریخ و غیره برای پیش بینی فیلم ها شده است. مهمترین منبع اطلاعاتی برای پیش بینی امتیاز فیلم داده های موجود در اینترنت است.
۳. کارهای مرتبط
تاکنون پژوهش های وسیعی بر روی موضوع پیش بینی امتیاز فیلم انجام شده است.دراین رابطه ،محققان زیادی فرایند پیش بینی امتیاز فیلم را براساس روزنامه ها ومقالات و شبکه های اجتماعی انجام داده اند ، اما تعداد اندکی از آن ها، مطالعات خود را براساس ویژگی های خود فیلم انجام داده اند.
در مقاله[1] این تحقیق به منظور پیش بینی آینده فیلم ها از نظر کسب و کار با استفاده از داده ها در رسانه های اجتماعی و بهره گیری از تحلیل احساسات انجام شده است.یک کار دیگر مشابه درمقاله[2] ارائه شده است که در آن رسانه های اجتماعی از جمله Twitter و نظرات YouTubeبرای همین هدف مورد استفاده قرار می گیرند. [3] با استفاده از داده های IMDb و داده های boxofficemojo و ضریب همبستگی به عنوان یک واحد اندازه گیری، دو مجموعه داده از فیلم های پخش شده و فیلم های پس از انتشار و آزمایش های کاربردی بر روی آنها ایجاد کردند . [4] با استفاده از داده های IMDb، rotten tomatoes و داده های ویکی پدیا در مورد فیلم ها و استفاده از الگوریتم های یادگیری ماشین مانند رگرسیون خطی، رگرسیون SVM و رگرسیون منطقی ،امتیاز فیلم را پیش بینی می کند.
۴. آزمایش ها
در این بخش به آزمایشی که در مقاله ی [6] آورده شده است می پردازیم و آن را بررسی می کنیم. روش اصلی انجام آزمایش در شکل 1 به نمایش گذاشته
شده است :
استخراج داده
آماده سازی داده ها
انتخاب ویژگی
کلاس بندی
۴.۱. استخراج داده
مجموعه داده مورد استفاده از پایگاه داده فیلم اینترنتی (IMDb) جمع آوری شده است. ما فیلم های از سال 2004 تا 2014 را مورد استفاده قرار دادیم . فقط فیلم هایی انتخاب شدند که در ویکی پدیا صفحات سال آن ها ذکر شده بود و نیز فیلم های انگلیسی که در ایالات متحده منتشر شده اند. فیلم های دیگر را حذف کردیم . سپس باpython. داده مر بوطه را استخراج کرده و مجموعه ما حاوی 2000 داده شد .
۴.۲. آماده سازی داده ها
داده های استخراج شده از IMDb باید به داده های عددی (Numeric) تبدیل شوند تا بتوان آن را برای اهداف تجزیه و تحلیل و طبقه بندی مورد استفاده قرار داد.
۴.۲.۱. امتیاز فیلم (Rating )
هر فیلم در IMDb یک امتیاز از 0 تا 10 دارد. هر کاربر می تواند به فیلم ها رای دهد و میانگین رای گیری امتیاز فیلم است. ما امتیاز فیلم(rating) را برای تجزیه و تحلیل وکلاس بندی استفاده می کنیم و این برچسب (label) کلاس برای پیش بینی خواهد بود .
۴.۲.۲. امتیاز MPAA
انجمن فیلم آمریکا (MPAA) یک سازمان است که رتبه بندی فیلم ها را تعیین می کند. این رتبه بندی ها نشان دهنده خشونت و زبان در یک فیلم است. پنج نشان برای هر یک از فیلم ها به طور عمده وجود دارد: R، PG، PG13، G و NR. ما امتیاز MPAA را برای یک فیلم با پنج مقدار باینری نشان می دهیم.
۴.۲.۳. ژانر
ژانر نوع محتوای موجود در یک فیلم را نشان می دهد. یک فیلم می تواند یک ژانر واحد داشته باشد؛ برای مثال Fish Tank فیلم منتشر شده در سال 2009 دارای ژانر درام است و یا شامل ژانر های متعدد باشد؛ مانند فیلم Exodus: Gods and Kings منتشر شده در سال 2014 دارای 3 ژانر است که شامل اکشن، ماجراجویی و بیوگرافی است. مجموعه داده های ما شامل ژانرهای زیر برای هر فیلم است که عبارتند از:اکشن، ماجراجویی، هیجان انگیز، بیوگرافی، جرم و جنایی، درام، ترسناک، کمدی،فانتزی،
انیمیشن، رمز و راز، موسیقی، جنگ، مستند، عاشقانه، علمی تخیلی، غرب،خانواده، ورزش و کوتاه. برای نشان دادن ژانر برای هر یک از فیلم ها، ما 20 متغیر باینری را به هر یک از آن ها اختصاص دادیم .
۴.۲.۴. جوایز
جوایز اسکار و جوایز طلایی معتبرترین جایزه فیلم ها هستند. بسیاری از فیلم ها برنده جایزه می شوند و بسیاری از آنها نامزد دریافت می شوند. حتی نامزد شدن، دستاورد بزرگی است. ما 4 ارزش باینری را برای نشان دادن جوایز برای برنده و نامزدی اسکار و برنده و نامزد جایزه طلایی اختصاص داده ایم.
۴.۲.۵. تعداد نمایش ها
هنگامی که یک فیلم منتشر شد، آن در سینماها به اکران در می آید. قبل از انتشار یک فیلم قبلا تصمیم گرفته شده است که به چه تعداد دفعات مورد نمایش قرار می گیرد ما از این خصوصیت برای مجموعه داده های مان استفاده کرده ایم .
۴.۲.۶. میزان فروش هفته اول
درآمد حاصل از فیلم در بیشتر هفته ها محاسبه می شود. درآمد تولید شده توسط یک فیلم در هفته اول انتشار آن به عنوان نام تجاری و از ویژگی های فیلم در هفته آخر می باشد.
۴.۲.۷. بودجه فیلم
بودجه مقدار منابعی است که در ساخت یک فیلم استفاده می شود. این مقدار، کل پولی است که درطول ساخت فیلم استفاده می شود. بودجه می تواند از چند هزار دلار تا چند میلیون دلار باشد. بودجه یک ویژگی پیوسته است.
۴.۲.۸. تعداد آرا
کاربر می تواند به سایت IMDB وارد شود و فیلم ها را بررسی کند . هر کاربر همچنین می تواند فیلم را در مقیاس بین 0تا 10 امتیاز دهی کند . برای هر فیلم، تعداد آرا نیز موجود است که آن را می توان به عنوان یک ویژگی برای پیش بینی امتیاز فیلم در نظر گرفت .
۴.۳. کلاس بندی
تعداد بسیار زیادی ابزارهای داده کاوی موجود است. ما برای آزمایش از ابزار WEKA استفاده کرده ایم. WEKA برای داده کاوی با مجموعه ای از الگوریتم های یادگیری ماشین مناسب است و می تواند طبقه بندی، پیش پردازش داده ها، خوشه بندی، رگرسیون و ... را انجام دهد. ما از Logistic regression و Simple Logistic وNaive Bayes استفاده کردیم و پس از اینکه مدل خود را ساختیم . هر یک از نتایج را با 10-fold cross validation مورد صحت قرار دادیم .
۵. نتایج
[6]نتایج simple logistic و logistic regression و Naive Bayes به ترتیب 84.34٪ و 84.15٪و79% است. ما همچنین در برخی از طبقه بندی کننده های دیگر(classifiers)، مانند شبکه عصبی را اجرا کردیم ولی نتیجه مطلوبی به دست نیاوردیم . با توجه به این که در مقاله [5] دقت 39% برای ماشین بردار پشتیبان و دقت 42.2% برای رگرسیون منطقی به دست آمده است ، این آزمایش نتیجه بسیار خوبی را در مقایسه با آن نشان داده است .
۶. کارهای آینده
1- در این آزمایش برای پیش بینی امتیاز فیلم نزدیک به 7 ویژگی استفاده گردیده است که می توان با کاهش بعد به وسیله PCA ویا الگوریتم انتخاب ویژگی نتایج آزمایش را بهبود داد .
2- برای به دست آوردن نتایج بهتر شاید بتوان از روش های دیگر یادگیری ماشین از جمله ماشین بردار پشتیبان (SVM)و یا ماشین بردار پشتیبان دوقلو برای بهبود یا افزایش سرعت پاسخگویی بهره برد .
3- با توجه به اینکه هنوز پیاده سازی نهایی صورت نگرفته است امکان دارد به جای ویژگی های بالا از ویژگی های دیگری مثل تاریخ انتشار و محبوبیت بهره ببریم .همچنین ممکن است از روش های دیگر برای حل این موضوع و پیاده سازی آن استفاده گردد.
۷. مراجع
[1] Sitaram Asur, Bernardo A.Huberman “Predicting the Future With Social Media”, Hp Labs
[2] Mestya´n M, Yasseri T, Kerte´sz J (2013): “Early Prediction of Movie Box Office Success Based on WikipediaActivityBigData”.PLoSONE8(8): e71226.doi:10.1371/journal.pone.0071226
[3] Khalid Ibnal Asad , Tanvir Ahmed , Md. Saiedur Rahman: “Movie Popularity Classification based on Inherent
Movie Attributes using C4.5,PART and Correlation Coefficient”, IEEE/OSA/IAPR International Conference on Infonnatics, Electronics & Vision, Pages 747 - 752[4] Nithin VR, Pranav M,Sarath Babu PB, Lijiya “A Predicting movie success based on IMDB data” International journal of data mining and techniques
[5] Predicting Movie Success Based on IMDB Data1Nithin VR, 2Pranav M, 3Sarath Babu PB, 4Lijiya A International
Journal of Data Mining Techniques and Applications , Volume: 03, June 2014, Pages: 365-368[6] Prediction of Movies popularity Using Machine Learning Techniques,Muhammad Hassan Latif, Hammad Afzal, IJCSNS International Journal of Computer Science and Network Security, VOL.16 No.8, August 2016
۷.۱. پیوندهای مفید
Predicting Movie Success Based on IMDB Data,By Nithin VR, Pranav M, Sarath Babu PB, Lijiya A, Department of CSE, National Institute of Technology, Calicut, 2014 لینک