استفاده از متدهای یادگیری عمیق در Sentiment Analytic متون فارسی
۱. مقدمه
در سالهای اخیر، با توجه به افزایش روز افزون دادههای متنی و همچنین اهمیت اطلاعات استخراج شده از این دادهها، کاربرد طبقه بندی متون بیسار بیش از پیش احساس میشود. Sentiment Analytic( نظرکاوی یا عقیده کاوی) هم یکی از استفاده های طبقه بندی متون میباشد که کاربردهای آن در ارزیابی کالاها و اقبال جمعی از یک موضوع یا یک اتفاق بسیار به چشم میآید.
تا به حال تمرکز بیشتر روشهای ارایه شده بر روی زبان انگلیسی بوده است که در آنها چالشهای موجود در دیگر زبانها مورد توجه قرار گرفته نشده است. یکی از عمدهترین چالشهای موجود در زبان فارسی، تعداد زیاد پسوندها برای فرمهای مختلف کلمات است مانند "من میروم" و " تو میروی".در این مقاله تمرکز بر استفاده از روشهایی برپایه این چالشهای موجود در زبان فارسی است.
تقریبا تا به حال بیشتر روشهای معرفی شده در بحث نظرکاوی از روشهای و الگوریتمهای سنتی یادگیری ماشین مثل logistic regression ، Naive Bayes و SVM استفاده میکردند. که هر سه این الگوریتمها با توجه به نحوه عملکردشان نیاز به بردار ویژگیها با طول ثابت دارند. برای استجراج بردار ویژگیها با طول ثابت، یک روش بسیار ساده و معقول استفاده از متد bag-of- words است که در آن ساخت بردارها بدون توجه به مکان حضور کلمات در جمله و شباهت معنایی بین کلمات صورت میگیرد. در نظر نگرفتن این ترتیب کلمات باعث میشود امکان تشخیص و تمیز دادن جملات با ترکیب کلمات یکسان و بار معنایی متفاوت وجود نداشته باشد. که این موضوع باعث ایجاد خطا در روند انجام classificatoin میشود.
یکی دیگر از مشکلات موجود در نظرکاوی برای زبان فارسی، نبود دیتاستهای بزرگ برای کار در این حوزه است. در این مقاله دیتاستی متشکل از ۲۰۰۷۶۱ نظر در مورد کالاهای دیجیتال معرفی شده است. که شامل ۵۰۰۰۰ نظر به همراه برچسب است. نتیجه نهایی این مقاله با NBSVM-bi که یکی از روشهای قدمی در نظرکاوی است مقایسه میشود.
در این مقاله از دو روش مخلف شبکه عصبی عمیق استفاده شده است، این روشها Bidirectional Long Short Term Memory) LSTM) و Convolutional Neural Network) CNN) هستند که استفاده از آنها در کاربردهای دگیر منجر به بدست آمدن نتایج بسیار قابل قبولی شده است.
۲. معرفی دادگان
دادههای این مقاله که شامل ۲۰۰۷۶۱ نظر درمورد کالاهای دیجیتال است، که با استفاده از وب کرالر از سایت دیجیکالا گردآوری شده است. این دادگان شامل ۵۰۰۰۰ دارای برچسبهای مثبت با منفی میباشد. برچسبهای این دادهها با استفاده از امتیازات ثبت شده همراه نظرات استخراج شده است، که با توجه به برسیهای صورت گرفته بر روی دادگان این مقاله مشاهده شد که این دادگان کاملا بیاشکال نبوده و در برخی موارد به دلیل نبود تناسب معنایی بین امتیاز ثبت شده و نظر بیان شده برچسبهای اختصاص یافته به نظر درست نبوده است. که این موضوع به وضوح در روند یادگیری و نتیجه الگوریتم تاثیر گذار خواهد بود.
جدول زیر برسی آماری دادگان است که نشان دهنده تعداد نظرات مثبت منفی و بدون برچسب است. در جدول زیر l نشان دهنده میانگین token های برای هر نظر است و V بیانگر تعداد token های غیر یکسان در کل corpus است.
۳. کارهای مرتبط
در بحث نظرکاوی تا کنون الگوریتمها و روشهای مختلفی ارایه شده است که در تعداد کمی از آنها از روشهای آماری و قاعدهبنیاد بهره میگیردن در صورتی که اکثر آنها بر پایه متدهای یادگیری ماشین هستد. و همچون مقاله Bo Pang ،که نظرکاوی را یک شکل از طبقه بندی متن میداند و با آن همانند طبقه بندی متون بخورد میکند الهام بخش بیساری از این روشها بوده است. این روشها عمدتا از الگوریتمهای با نظارت NaIve Bayes ، Maximum Entropy و SVM بهره میگیرند. معمولا در موضوعات مرتبت با متن در یادگیری ماشین از روش bag-of-words استفاده میشود که مشکلات آن در مقدمه ذکر شد. همنطور که ذکر شد به واسطه مشکل ساخت بردارها بدون توجه به مکان حضور کلمات در جمله در متد bag-of-word، این روش را در بدست آوردن درک عمیق معنایی با مشکل مواجه میکند
این مقاله شامل دو بخش است. بخش اول آموزش بدون نظارت نمایش برداری دادهها به وسیله skip-gram است و بخش دوم آموزش با نظارت document sentiments با استفاده از متدهای LSTM و CNN هست.