دسته بندی جملات با استفاده از شبکه های عصبی کانولوشن
1. مقدمه
دسته بندی متن 1 را می توان یکی از بخش های مهم پردازش زبان طبیعی دانست. این دسته بندی می تواند در زمینه های مختلفی انجام شود. مثلا تعیین عنوان یا ژانر مناسب برای متن، تشخیص هرزنامه 2 از بین ایمیل ها، تشخیص جنسیت نویسنده، تحلیل مثبت و منفی بودن یک نظر یا توییت، تعیین فیلد یک مقاله و بسیاری کاربردهای دیگر.
کلیت عملکرد این نوع روش ها به این ترتیب است که تعداد m متن و j کلاس داریم. به هر متن به صورت دستی یک برچسب کلاس نسبت داده شده است. به گونه ای که تمام المان های دیتاست، زوج های \left( { d }_{ i },{ c }_{ i } \right) هستند که { d }_{ i } متن i ام و { c }_{ i } برچسب کلاس متناظر با آن است. هدف ما این است که بعد از اتمام مرحله آموزش با دریافت { d }_{ x } جدید، مدل بتواند برچسب متناسب با آن را تشخیص دهد.
برای آموزش چنین مدلی می توانیم از هر یک از دسته بندهای کلاسیک از جمله بیز، ماشین بردار پشتیبان 3، شبکه های عصبی مصنوعی و ... استفاده کنیم. با گسترش یادگیری عمیق و به کارگیری آن در حوزه های مختلف، این روش در مسائل دسته بندی متن هم مورد استفاده قرار گرفته است [1][2]
در ادامه این گزارش به تعریف مسئله می پردازیم، در بخش سوم و چهارم مروری بر ادبیات و کارهای پیشین خواهیم داشت و نهایتا در بخش پنجم جزییات دیتاست های به کار رفته در این پژوهش را بررسی می کنیم.
2. تعریف مسئله
دسته بندی جمله 4 مشابه دسته بندی متن است که همان طور که پیش تر بیان شد در آن به هر جمله ، یک برچسب کلاس تعلق می گیرد. دسته بندی جملات می تواند بر اساس نوع جمله باشد و به کلاس های خبری، پرسشی، تعجبی و امری تقسیم بندی شود و یا بر اساس مفهوم و با توجه به مسئله در کلاس های متفاوتی دسته بندی شوند. مثلا نظرات کاربران در مورد یک محصول را به دو گروه منفی و مثبت تفکیک کند.
مقاله حاضر بر دسته بندی مفهومی جملات تمرکز کرده است. در مدل به کار رفته با استفاده از بردارهای واژگان از پیش آموزش دیده word2vec و همچنین شبکه های عصبی کانولوشن نتایج بسیار خوبی روی هفت مجموعه دادگان مختلف به دست امده است. در بخش های بعد توضیحات مفصل تری در این زمینه خواهیم داد.
3. مرور ادبیات و معرفی کارهای مرتبط پیشین
مدل های یادگیری عمیق در سال های اخیر توانسته اند نتایج بسیار درخشانی در حوزه تصویر و صوت کسب کنند. همچنین پژوهشگران در زمینه پردازش زبان طبیعی و بر روی بردار واژگان تحقیقات گسترده ای انجام داده اند. عملکرد بردار واژگان به این ترتیب است که با استفاده از روش های شبکه عصبی به ازای هر کلمه برداری به دست می آید که ابعاد آن بسیار کمتر از بردارV بعدی کلمه است.(V تعداد کلمات دیکشنری است) در چنین بازنمایشی کلماتی که از نظر مفهومی به هم نزدیکند در فضای برداری هم به هم نزدیک خواهند بود. نتایج این بردارهای واژگان مثل مجموعه word2vec و GloVe به صورت از پیش آموزش دیده 5 در دسترس است. [3][4]
از طرفی طبق پژوهش های اخیر، شبکه های عصبی کانولوشن که عمدتا در حوزه تصویر به کار می روند، می توانند در پردازش زبان هم به کار گرفته شوند و در بهبود نتایج موثر باشند. عملکرد این شبکه ها به این صورت است که با تعریف یک ماتریس به عنوان فیلتر و جابه جایی آن در سطح تصویر یا متن، ویژگی های محلی6 متفاوتی استخراج می شود که می تواند درمدل سازی جمله7 تجزیه معنایی8 و بازیابی پرس و جو 9 مورد استفاده قرار گیرد. [5][6][7]
با استفاده از این دو روش، یعنی بردارهای واژگان از پیش آموزش دیده و شبکه های عصبی کانولوشن، در این مقاله مدلی بر مبنای CNN و با استفاده از بردار واژگان word2vec آموزش داده شده است که دقت های به دست آمده از آن در مسئله دسته بندی متن از روش های قبلی بالاتر است.
4. معرفی دیتاست
مدل معرفی شده در این مقاله بر روی هفت دیتاست مهم اعمال شده و نتایج به دست آمده به طور خلاصه در جدول1 قابل مشاهده است. دیتاست های مورد استفاده عبارتند از:
نظرات در مورد فیلم ها (MR) : این مجموعه دادگان شامل 10662 نظر در مورد فیلم ها است که در دو کلاس مثبت و منفی دسته بندی شده اند(به طور تقریبا مساوی) این دیتاست در دسترس عموم است.
درخت مفهومی استنفرد 1 (SST-1 ) : این مجموعه دادگان نسخه گسترش یافته دیتاست MR است که بخش آموزش، تست و ارزیابی آن به طور جداگانه ارائه شده است. این دیتاست شامل 11855 جمله است که در پنج کلاس بسیار منفی، منفی، ممتنع، مثبت و بسیار مثبت دسته بندی شده اند.
درخت مفهومی استنفرد 2 (SST-2 ) : مشابه نسخه قبلی با این تفاوت که نظرات ممتنع حذف شده اند. به علاوه اینکه تعداد کلاس ها به دو کلاس مثبت و منفی کاهش یافته است.
جملات فاعلی (Subj) : دسته بندی جملات موجود به دو گروه فاعلی و مفعولی.
انواع پرسش ها (TREC) : این دیتاست شامل پرسش هایی است که در 6 گروه دسته بندی شده اند. کلاس های موجود عبارتند از: افراد، اماکن، اعداد، توصیفات، ابزارها و موجودیت ها. تعداد کل پرسش های این دیتاست 5952 سوال است.
نظرات مشتریان (CR): این مجموعه دادگان شامل نظرات کاربران در مورد محصولاتی مثل دوربین، موبایل و... است که در دو دسته مثبت و منفی تقسیم بندی شده اند.
دیتاست MPQA : از این دیتاست برای تشخیص مثبت یا منفی بودن نظرات کاربران استفاده می شود که شامل 10606 جمله است.
جزییات ابعاد این مجموعه دادگان را می توانید در جدول 1 مشاهده کنید. c تعداد کلاس ها، l متوسط طول جملات، |V| سایز دیکشنری، |{ V }_{ pre }| تعداد واژه های بردار واژگان و Test سایز دادگان تست است. CV به این مفهوم است که از روش Cross Validation استفاده شده است.
5. مراجع
[1] Joachims, Thorsten. Learning to classify text using support vector machines: Methods, theory and algorithms. Kluwer Academic Publishers, 2002.
[2] Chen, Jingnian, Houkuan Huang, Shengfeng Tian, and Youli Qu. "Feature selection for text classification with Naïve Bayes." Expert Systems with Applications 36, no. 3 (2009): 5432-5435.
[3] Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. "Distributed representations of words and phrases and their compositionality." In Advances in neural information processing systems, pp. 3111-3119. 2013.
[4]Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp. 1532-1543. 2014.
[5]W. Yih, X. He, C. Meek. 2014. Semantic Parsing for Single-Relation Question Answering. In Proceedings
of ACL 2014.
[6]Y. Shen, X. He, J. Gao, L. Deng, G. Mesnil. 2014. Learning Semantic Representations Using Convolutional Neural Networks forWeb Search. In Proceedings of WWW 2014.
[7]N. Kalchbrenner, E. Grefenstette, P. Blunsom. 2014. A Convolutional Neural Network for Modelling Sentences. In Proceedings of ACL 2014.
Text Classification
Spam
Support Vector Machine (SVM)
Sentence Classification
Pretrained
local feature
Sentence Modeling
Semantic Parsing
Query Retrieval