یادگیری بازنماییهای هر حوزهای به منظور تشخیص معنا، احساس و لحن با استفاده از میلیونها رخداد ایموجیها
۱. مقدمه
تا به امروز کارهای بسیار زیادی در جهت تحلیل معنایی1 متون صورت گرفتهاست. موضوع مهمی که مجموعهی متنوعی از تسکهای پردازش زبان طبیعی2 را به خود درگیر میکند کمبود دادههای حاوی اطلاعات مناسب و خودکار است. چرا که عمدتا دادهها به انواع یادداشتگذاری شده و برچسبخوردهی دستی محدود شدهاند. بنابراین به منظور تحلیل معنایی رسانههای اجتماعی و سایر کارهای ممکن در این حوزه، نیازمند مدلهای قویتری هستیم که بتوانند بازنمایی نوشتار را به نحو بهتری مدل کرده و یاد بگیرند. از جدیدترین روشهایی که برای آموزش مدلها در تحلیل معنایی متن به کار گرفته میشود استفاده از شکلکهای مثبت و منفی است.[1] [2] همچنین از هشتگهایی نظیر #خشم، #لذت، #حالتتهوع یا #اوه برای تحلیل احساسی و دستهبندی متون استفاده میشود.[3]
برای آنکه بتوانیم بازنماییهای پیچیدهتری از محتوای احساسی در متن را یاد بگیریم، میتوان از بسطدادن روش نظارت از راه دور3 به یک مجموعهی بزرگتری از برچسبهای شلوغ 4 بهره برد که در نهایت منجر به افزایش کارایی بر معیارهای تشخیص معنا، احساس و لحن خواهد شد. در اینجا برچسبهای شلوغ با ایموجیها به منظور کمک برای فهم معنا، احساس و لحن در نظر گرفته شدهاند که روش دقیق عملکرد را در آینده توضیح خواهیم داد. اما پس از یادگیری مدل برای ارزیابی آن، جملاتی به عنوان ورودی داده شده و پنج محتملترین ایموجیها بر اساس ورودی برای آن متن به عنوان خروجی نمایش داده میشود.(جدول 1)
البته باید در نظر داشت که ایموجیها همیشه به عنوان برچسبگذاری مستقیم احساس به کار نمیروند؛ بلکه میتوانند برای رفع ابهام یک جملهی مبهم یا متمم کردن یک متن منفی به کار آیند. برای نمونه در نظر بگیرید که یک توییت با این مفهوم : "زندگی به طرز عجیبی داره سخت میگذره" از یک هشتگ مانند "#جالب" استفاده نماید. پر واضح است که هشتگ استفاده شده به منظور متمم کردن توییت با معنای منفی به کار رفته است.[4]
با تمامی این اوصاف، این مقاله نشان میدهد که ایموجیها میتوانند برای دستهبندی محتوای احساسی متنها در بسیاری از موارد به دقت کارا باشند. مثلا مدل DeepMoji میتواند استفادهی متعدد کلمهی “love” را به خوبی اصطلاحی مانند "this is the shit" به عنوان یک جملهی مثبت مورد بررسی قراردهد.
مسئلهی مهم بعدی این است که بتوانیم با انتقال دانش یادگرفتهشده به تسکهای هدف با استفاده از یک روش جدید تنظیم دقیق 5 که لایه-خبره 6 است فرآیند تشخیص معنا، احساس و لحن را تسریع کرده و کارآمد نماییم.
۲. کارهای مرتبط
ایدهای که در این مقاله مورد توضیح قرار گرفتهاست، بهرهوری از برچسبهای شلوغ به منظوری ردهبندی7 گزارههای احساسی بوده و یک ایدهی جدید نیست.[5][6] پیش از این، از شکلکهای باینری مانند: [:( ، :) ، :|] استفاده میشدهاست که بعدتر هشتگها و ایموجیها مورد اقبال قرار گرفتند. آنچه که مشخص است این است که تعیین ردههای مختلف برای گزارههای احساسی، کاملا بر مبنای نظریههای احساسی همچون شش احساس ابتدایی اکمان8 و هشت احساس ابتدایی پلاچیک9 صورت پذیرفتهاست.[3][7] به نحوی که چنین ردهبندیهایی دستی نیازمند فهم محتوای احساسی هر گزارهی دلخواه بوده و بنابراین، نه تنها کاری دشوار بوده، بلکه در صورت وجود ترکیبهای پیچیدهتری از محتواهای احساسی کار بسیار زمانگیر خواهد بود. همچنین ممکن است که در انتخاب یک رده، مدل دچار تفسیر اشتباه شده و جزییات مهمی نادیده گرفتهشود. روشی که در این مقاله بررسی میشود بدون داشتن فهم قبلی از مجموعهی متن و با استفادهی گستردهای از 64 نوع ایموجی سعی در یادگیری مفاهیم احساسی متون دارد.
البته به جز راه ارائه شده در اینجا، میتوان برای یادگیری تفسیر خودکار محتوای احساسی یک ایموجی از جدول رسمی ایموجیها که نگاشتی مستقیم میان هر ایموجی و کلمات توصیف کنندهِی آن است، بهرهبرد.[8] اما چنین روشی، از دو ناحیه موجب بروز محدودیت خواهد شد.
این جدول در زمان تست مدل نیز مورد نیاز بوده در حالی که در بسیاری از دامنههای مورد بررسی با استفادهی محدود یا عدم استفاده از ایموجیها رو به رو هستیم.
جدول ایموجیها روند تغییر معنایی پویای ایموجیها را دنبال نمیکند و نمیتواند اطلاعات کافی را از معنای یک ایموجی پس از گذر زمان به دست دهد. به عنوان مثال ممکن است معنای خندهی ساده در یک ایموجی به عنوان ناراحتی در اثر استفادههای مکرر تلقی شود در حالی که جدول تعریف معنایی ایموجیها، این تغییر را نمیداند و آن را همچنان یک خندهی آرام تعریف میکند.
با موارد ذکر شده از کارهای صورت گرفته و نیازمندیهای بیان شده در بخش مقدمه، به این مهم میرسیم که بایستی دانش تفسیر محتوای متون بر اساس شکلکها، از راههای مختلفی منتقل شده تا فرآیند یادگیری موثر و راحتتر شود. حال برای آنکه بتوانیم حین یادگیری بر روی دیتاستهای متعدد، یادگیری چندگانه را به گونهای داشته باشیم که نه تنها نیازمند دسترسی به دیتاست ایموجیها در هربار تنظیم شدن ردهبند برای یک تسک هدف جدید نباشیم، بلکه با مشکلات عدم دسترسی به دیتاستها از لحاظ مقررات دسترسی به دادهها نیز دستوپنجه نرم نکنیم. همچنین، مشکلاتی که در خصوص نگهداری دادهها، به عنوان دیتاستی که برای این تحقیق استفاده شدهاست که شامل صدهامیلیون از توییتهاست، وجود دارد. (جدول 2) در نتیجه، در بخش روش کار، چگونگی یک انتقال آموزش را توضیح داده که نیازمند دسترسی به دیتاست اولیه نبوده و تنها نیازمند دسترسی به ردهبند از پیش آموزش دیده باشد.[9]
۳. مرور ادبیات، مقدمات و پیشنیازها
در بخش روش، به توضیح آنچه که لازم است خواهیم پرداخت ولیکن پیش از آن بهتر است که با چند مفهوم مهم در این مقاله آشنا شویم:
پیشآموزش[^Pretraining]: آمادهسازی وزندهیهای شبکهی یادگیری بر مبنای دیتاست اولیه، به منظور استفاده برای یادگیری سایر دیتاستها با تغییر و تنظیم وزندهیها.
شبکههای عصبی LSTM[^Long Short-Term Memory]: شبکههای یادگیری با حافظهی بلند کوتاهمدت هستند که به شکل باز رخدادی سعی میکنند تا اثر ورودی را در یک زمان خاص در طول زمانهای بعدی منتقل کرده و به شکل حافظه دار عمل نمایند.
مکانیزم توجه[^ Attention mechanism]: روشی که در شبکههای عصبی باز رخدادی سعی میکند تا برای یک رشته از ورودیها تصمیم بگیرد که باید به کدام بخش از ورودی توجه بیشتری صورت گیرد.
ارتباطات پرشی[^Skip connections]: در شبکههای عصبی به منظور انتقال مستقیم برخی از ورودیها به لایههای جلوتر برای جلوگیری از حذف خودکار آنها، از این نوع اتصالات استفاده میشود.
نمونهبرداری رو به بالا/رو به پایین[^ Up/Down sampling]: دو نوع نمونهبرداری که بر اساس اندازهی دیتاست و پراکندگی دادهها در دو ردهی مورد نظر، سعی بر ایجاد توازن در مجموعهی یادگیری، تست یا اعتبارسنجی دارد.
۴. معرفی دیتاست
در این پژوهش، دیتاست اولیه برای پیشبینی ایموجیها یک دیتاست خام شامل 56.6 میلیارد توییت بوده که با پیشپردازشهای صورت گرفته به 1.2 میلیارد توییت کاهش یافتهاست. سپس از هر توییت به ازای هر ایموجی استفاده شده در آن یک رونوشت تهیه شده که با آن ایموجی خاص به شکل متناظر در دیتاست ذخیره شدهاست و منجر به تولید دیتاست نهایی با 1.6 میلیارد توییت گردیدهاست. جدول 2 توزیع توییتها را بین انواع مختلف ایموجیها نشان میدهد.
برای ارزیابی کارایی پیشآموزش، یک مجموعهی اعتبارسنجی10 و یک مجموعهی تست11 در نظر گرفته شدهاست به طوری که به ازای هر ایموجی از 64 ایموجی ممکن 10 هزار توییت داشته باشند؛ یعنی در مجموع برای هر مجموعه 640 هزار توییت در نظر گرفته شدهاست. سپس با استفاده از نمونهبرداری رو به بالا از بین توییتهای باقی مانده، مجموعهی یادگیری12 جهت استفاده متعادل شده است. نتایج مقایسهی کارایی مدل DeepMoji در تسک هدف،که همان پیشآموزش به منظور پیشبینی ایموجیها باشد، در جدول 3 قابل مشاهده است.
برای ارزیابی روش معرفیشده در تحلیل احساسی در مقابل روشهای موجود از دو دیتاست دیگر استفاده شده است که:
دیتاستی که شامل احساسات توییتهای مربوط به بازیهای المپیک بوده است که توسط Sintsova ایجاد شدهاست.[10] که به یک کار ردهبندی تنها برای برچسبزدن تبدیل شدهاست.
دیتاست دیگر شامل تجربیات احساسیِ خود گزارش شده است که توسط گروهی بزرگ از روانشناسان ایجاد شده است.[11]
۵. منابع
Jan Deriu, Maurice Gonzenbach, Fatih Uzdilli, Aurelien Lucchi, Valeria De Luca, and Martin Jaggi.2016. Swisscheese at semeval-2016 task 4: Sentiment classification using an ensemble of convolutional neural networks with distant supervision.Proceedings of SemEval, pages 1124–1128.
Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, TingLiu, and Bing Qin. 2014. Learning sentimentspecific word embedding for twitter sentiment classification. In 52th Annual Meeting of the Association for Computational Linguistics (ACL), pages1555–1565.
Saif Mohammad. 2012. #emotional tweets. In TheFirst Joint Conference on Lexical and Computational Semantics (*SEM), pages 246–255. Association for Computational Linguistics.
FA Kunneman, CC Liebrecht, and APJ van den Bosch.2014. The (un)predictability of emotional hashtagsin twitter. In 52th Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics.
Jonathon Read. 2005. Using emoticons to reduce dependency in machine learning techniques for sentiment classification. In ACL student research workshop, pages 43–48. Association for ComputationalLinguistics.
Alec Go, Richa Bhayani, and Lei Huang. 2009. Twitter sentiment classification using distant supervision.CS224N Project Report, Stanford, 1(12).
Jared Suttles and Nancy Ide. 2013. Distant supervision for emotion classification with discrete binaryvalues. In International Conference on IntelligentText Processing and Computational Linguistics (CICLing), pages 121–136. Springer.
Ben Eisner, Tim Rocktaschel, Isabelle Augenstein, ¨Matko Bosnjak, and Sebastian Riedel. 2016. ˇemoji2vec: Learning emoji representations fromtheir description. In 4th International Workshop onNatural Language Processing for Social Media (SocialNLP).
Yoshua Bengio et al. 2012. Deep learning of representations for unsupervised and transfer learning. In29th International Conference on Machine learning(ICML) – Workshop on Unsupervised and TransferLearning, volume 27, pages 17–36.
Valentina Sintsova, Claudiu-Cristian Musat, and PearlPu. 2013. Fine-grained emotion recognition inolympic tweets based on human computation. In4th Workshop on Computational Approaches toSubjectivity, Sentiment and Social Media Analysis(WASSA).
Harald G Wallbott and Klaus R Scherer. 1986. Howuniversal and specific is emotional experience? evidence from 27 countries on five continents. International Social Science Council, 25(4):763–795.
Sentiment Analysis
Natural Language Processing
Distant Supervision
Noisy Labels
Fine-Tuning
Layer-Wise
Classifying
Ekman
Plutchik
Validation Set
Test Set
Train Set