استفاده از متد‌های یادگیری عمیق در Sentiment Analytic متون فارسی

۱. مقدمه

در سال‌های اخیر، با توجه به افزایش روز افزون داده‌های متنی و همچنین اهمیت اطلاعات استخراج شده از این داده‌ها، کاربرد طبقه بندی متون بیسار بیش از پیش احساس میشود. Sentiment Analytic( نظرکاوی یا عقیده کاوی) هم یکی از استفاده های طبقه بندی متون میباشد که کاربرد‌های آن در ارزیابی کالاها و اقبال جمعی از یک موضوع یا یک اتفاق بسیار به چشم می‌آید.
تا به حال تمرکز بیشتر روش‌های ارایه شده بر روی زبان انگلیسی بوده است که در آن‌ها چالش‌های موجود در دیگر زبان‌ها مورد توجه قرار گرفته نشده است. یکی از عمده‌ترین چالش‌های موجود در زبان فارسی، تعداد زیاد پسوندها برای فرم‌های مختلف کلمات است مانند "من می‌روم" و " تو میروی".در این مقاله تمرکز بر استفاده از روش‌هایی برپایه این چالش‌های موجود در زبان فارسی است.
تقریبا تا به حال بیشتر روش‌های معرفی شده در بحث نظرکاوی از روش‌های و الگوریتم‌های سنتی یادگیری ماشین مثل logistic regression ، Naive Bayes و SVM استفاده میکردند. که هر سه این الگوریتم‌ها با توجه به نحوه عملکردشان نیاز به بردار ویژگی‌ها با طول ثابت دارند. برای استجراج بردار ویژگی‌ها با طول ثابت، یک روش بسیار ساده و معقول استفاده از متد bag-of- words است که در آن ساخت بردار‌ها بدون توجه به مکان حضور کلمات در جمله و شباهت معنایی بین کلمات صورت میگیرد. در نظر نگرفتن این ترتیب کلمات باعث میشود امکان تشخیص و تمیز دادن جملات با ترکیب کلمات یکسان و بار معنایی متفاوت وجود نداشته باشد. که این موضوع باعث ایجاد خطا در روند انجام classificatoin می‌شود.
یکی دیگر از مشکلات موجود در نظرکاوی برای زبان فارسی، نبود دیتاست‌‌های بزرگ برای کار در این حوزه است. در این مقاله دیتاستی متشکل از ۲۰۰۷۶۱ نظر در مورد کالاهای دیجیتال معرفی شده است. که شامل ۵۰۰۰۰ نظر به همراه برچسب است. نتیجه نهایی این مقاله با NBSVM-bi که یکی از روش‌های قدمی در نظرکاوی است مقایسه میشود.
در این مقاله از دو روش مخلف شبکه عصبی عمیق استفاده شده است، این روش‌ها Bidirectional Long Short Term Memory) LSTM) و Convolutional Neural Network) CNN) هستند که استفاده از آن‌ها در کاربرد‌های دگیر منجر به بدست آمدن نتایج بسیار قابل قبولی شده است.

۲. معرفی دادگان

داده‌های این مقاله که شامل ۲۰۰۷۶۱ نظر درمورد کالاهای دیجیتال است، که با استفاده از وب کرالر از سایت دیجیکالا گردآوری شده است. این دادگان شامل ۵۰۰۰۰ دارای برچسب‌های مثبت با منفی میباشد. برچسب‌های این داده‌ها با استفاده از امتیازات ثبت شده همراه نظرات استخراج شده است، که با توجه به برسی‌های صورت گرفته بر روی دادگان این مقاله مشاهده شد که این دادگان کاملا بی‌اشکال نبوده و در برخی موارد به دلیل نبود تناسب معنایی بین امتیاز ثبت شده و نظر بیان شده برچسب‌های اختصاص یافته به نظر درست نبوده است. که این موضوع به وضوح در روند یادگیری و نتیجه الگوریتم تاثیر گذار خواهد بود.
جدول زیر برسی آماری دادگان است که نشان دهنده تعداد نظرات مثبت منفی و بدون برچسب است. در جدول زیر l نشان دهنده میانگین token های برای هر نظر است و V بیان‌گر تعداد token های غیر یکسان در کل corpus است.

برسی آماری دادگان

۳. کارهای مرتبط

در بحث نظرکاوی تا کنون الگوریتم‌ها و روش‌های مختلفی ارایه شده است که در تعداد کمی از آن‌ها از روش‌های آماری و قاعده‌بنیاد بهره‌ میگیردن در صورتی که اکثر آن‌ها بر پایه متد‌های یادگیری ماشین هستد. و همچون مقاله Bo Pang ،که نظرکاوی را یک شکل از طبقه بندی متن میداند و با آن همانند طبقه بندی متون بخورد میکند الهام بخش بیساری از این روش‌ها بوده است. این روش‌ها عمدتا از الگوریتم‌های با نظارت NaIve Bayes ، Maximum Entropy و SVM بهره میگیرند. معمولا در موضوعات مرتبت با متن در یادگیری ماشین از روش bag-of-words استفاده میشود که مشکلات آن در مقدمه ذکر شد. همنطور که ذکر شد به واسطه مشکل ساخت بردار‌ها بدون توجه به مکان حضور کلمات در جمله در متد bag-of-word، این روش را در بدست آوردن درک عمیق معنایی با مشکل مواجه میکند
این مقاله شامل دو بخش است. بخش اول آموزش بدون نظارت نمایش برداری داده‌ها به وسیله skip-gram است و بخش دوم آموزش با نظارت document sentiments با استفاده از متد‌های LSTM و CNN هست.

۴. توضیح مدل

۵. نتیجه آزمایش‌ها

۶. نتیجه

۷. مراجع