Deep Learning Models for Multiword Expression Identification

تغییرات پروژه از تاریخ 1396/09/06 تا تاریخ 1396/10/09
**استفاده از متد یادگیری عمیق برای تشخیص عبارات چند کلمه ای در متن **
# مقدمه
عبارات چند کلمه ای (MWE)، آیتم هایی هستند که میتوانند به اجزای تشکیل شونده تجزیه شوند، اما این عبارات خصوصیاتی دارند که نمیتوان اجزاء آن ها را به سادگی تشخیص داد[1] به عنوان مثال در جمله  *staff leaves a lot to be desired* عبارت *leave to* یک عبارت چند کلمه ای است ولی در بین اجزای تشکیل دهنده آن کلمات دیگری هم آمده است.
در این مقاله برای اولین بار مدل یادگیری عمیق برای تشخیص MWE پیشنهاد  شده است و از یک شبکه بازخورد لایه ای، یک شبکه عصبی مکرر و شبکه های عصبی کانولوشن برای آموزش و تست استفاده شده است، در آزمایش ها به این نتیجه دست یافتند که شبکه های عصبی کانولوشن با سه لایه پنهان بهترین عملکرد را دارد.
عبارات چند کلمه ای شامل طیف گسترده ای از عبارات مانند ترکیبات اسمی مثل *speed limit*، جملات چندبخشی مثل *clean up*، اصطلاحات مثل *hit the roof*، نام ها مثل *Prime Minister Justin Trudeau* و ضرب المثل ها مثل *two wrongs don't make a right* هستند.
چالش هایی که توسط MWE مطرح می شود باعث می شود که آن را به عنوان "درد گردن" برای NLP نام گذاری کنند.[2] با این وجود در صورت این که MWE ها را در متن تشخیص دهیم باعث می شود کارایی کارهایی مانند ترجمه ماشینی[3]، بازیابی اطلاعات[4] و ... بهبود یابد.
# کارهای مرتبط
این کار برخلاف کارهای قبلی که بر روی طیف خاصی از MWE ها تمرکز داشتند، برای طیف گسترده ای از MWE ها قابل استفاده است.
یادگیری عمیق اخیرا در کارهای مختلفی مانند ترجمه ماشین و ... استفاده شده است و نتایج دلگرم کننده ای را هم داشته است ولی با این حال برای تشخیص طیف گسترده ای از MWE ها استفاده نشده است.
در این مقاله برای اولین بار مدل یادگیری عمیق برای شناسایی طیف گسترده MWE ها ارائه داده شده است، در این مقاله پیشنهاد استفاده از یک شبکه بازخورد لایه ای، یک شبکه عصبی مرکزی و دو شبکه عصبی کانولوشن داده شده. اگر این مدل را با مدل های سنتی یادگیری ماشینی نظارتی گذشته مقایسه کنیم، درمی یابیم که با توجه به اندازه نسبتا کوچک دیتاست، یادگیری عمیق میتواند به خوبی یاد بگیرد و براساس مقایسه میزان دقت، بهتر از مدل های قبلی عمل کند.
# توضیح مدل ها
تقریبا 320 هزار ویژگی برای اموزش و تست استخراج شده است.

مدل Layered FeedForward Network
اگرچه LFN ها برای طیف گسترده ای از مسائل طبقه بندی و رگرسیون مورد استفاده قرار گرفته اند، اما نشان داده شده است که آن ها برای مسائلی مانند کلاس بندی تصاویر و ترجمه ماشینی مناسب نیستند، بنابراین LFN به عنوان یک معیار برای مقایسه عملکرد معماری های دیگر استفاده شده است.

مدل Recurrent Neural Network
مدل های RNN بخاطر توانایی ذاتی توالی بودن برای خیلی از مسائل NLP استفاده میشوند، در این جا از RNN1  برای شناسایی طیف گسترده MWE ها استفاده شده است.

مدل Convolutional Neural Network
مدل های CNN  به عنوان طبقه بندی قدرتمند شناخته میشوند و از آنجا که شناسایی MWE ها میتواند به عنوان یک وظیفه طبقه بندی مطرح شود، CNN ها توانایی انجام آن را دارند.
برای ارزیابی  از معماری CNN با دو و سه لایه پنهان استفاده شده چون براساس ارزیابی که انجام شده، CNN با دو و سه لایه پنهان خوب کار میکند و اگر لایه بیشتری اضافه کنیم، overfit می شود. به طور مشابه اضافه کردن لایه بیشتر به CFN و RNN باعث overfit شدن می شود.
# معرفی دیتاست
 از داده های DIMSUM برای آموزش و ارزیابی مدل ها استفاده شده است و در این جا تنها بر روی کار شناسایی MWE ها تمرکز شده است و استفاده از داده های DIMSUM باعث شده است که بتوان نتایجی که به دست آمده است را با نتایج تحقیقات قبلی مقایسه کرد.
 همچنین نیاز به validation data است، برای این کار دیتا به 5 قسمت تقسیم شده است، که در آن هر بار 20 درصد برای اعتبارسنجی و 80 درصد برای آموزش به کار می رود.
 متون DIMSUM از رسانه های اجتماعی استخراج شده اند و شرح آن در جدول زیر آمده است.
 ![توصیف آماری ترکیب مجموعه داده های DIMSUM](https://boute.s3.amazonaws.com/289-dataset.jpg)
 # برچسب زدن نشانه ها
 برچسب زنی نشانه ها بر اساس کنوانسیون BIO است، B نشانه دهنده آغاز MWE است، I نشان دهنده ادامه MWE است و O نشان دهنده این است که نشانه بخشی از MWE نیست.
 ![مثالی از برچسب زنی نشانه ها](https://boute.s3.amazonaws.com/289-example.jpg)
 # مروری بر ادبیات
 دیتاست: از دو بخش training set و test set تشکیل شده است.
 مجموعه  training: معمولا بخش بزرگی از داده های موجود را برای مرحله یادگیری به وسیله ماشین اختصاص می دهیم.
 مجموعه test: معمولا بخش کوچکی از داده های موجود را برای مرحله تست به وسیله ماشین اختصاص می دهیم.
 یادگیری بیش از حد (over fiting): اگر در هنگام یادگیری مثلا از تعداد خیلی زیادی از ویژگی ها استفاده کنیم باعث over fit شدن می شود.
 # مراجع
1. Timothy Baldwin and Su Nam Kim. 2010. Handbook of natural language processing. In Nitin Indurkhya and Fred J. Damerau, editors, Handbook of Natural Language Processing , CRC Press, Boca Raton, USA. 2nd edition.
2. Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger. 2002. Multiword expressions: A pain in the neck for NLP. In Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics (CICLING 2002) . pages 1–15.
3. Marine Carpuat and Mona Diab. 2010. Task-based evaluation of multiword expressions: a pilot study in statistical machine translation. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics . Los Angeles, California, pages 242–245.
4. David Newman, Nagendra Koilada, Jey Han Lau, and Timothy Baldwin. 2012. Bayesian text segmentation for index term identification and keyphrase extraction. In Proceedings of COLING 2012 . Mumbai, India, pages 2077–2092.یکی از چالش های پردازش زبان های طبیعی (NLP)، شناسایی عبارات چند کلمه ای (MWE) در متن است. عبارات چند کلمه ای آیتم هایی هستند که میتوانند به اجزای تشکیل شونده تجزیه شوند، اما این عبارات خصوصیاتی دارند که نمیتوان اجزاء آن ها را به سادگی تشخیص داد[1] به عنوان مثال در جمله  *staff leaves a lot to be desired* عبارت *leave to* یک عبارت چند کلمه ای است ولی در بین اجزای تشکیل دهنده آن کلمات دیگری هم آمده است.
عبارات چند کلمه ای شامل طیف گسترده ای از عبارات مانند ترکیبات اسمی مثل *speed limit*، جملات چندبخشی مثل *clean up*، اصطلاحات مثل *hit the roof*، نام ها مثل *Prime Minister Justin Trudeau* و ضرب المثل ها مثل *two wrongs don't make a right* هستند.
چالش هایی که توسط عبارات چند کلمه ای مطرح می شود باعث می شود که آن را به عنوان "درد گردن" برای پردازش زبان های طبیعی نام گذاری کنند.[2] با این وجود در صورت این که عبارات چند کلمه ای را در متن تشخیص دهیم باعث می شود کارایی کارهایی مانند ترجمه ماشینی[3]، بازیابی اطلاعات[4] و نظرکاوی[5] بهبود یابد.
در این مقاله برای اولین بار مدل یادگیری عمیق برای تشخیص عبارات چند کلمه ای پیشنهاد  شده است و از یک شبکه جلورو لایه ای، یک شبکه عصبی بازگشتی و شبکه های عصبی کانولوشن برای آموزش و تست استفاده شده است، در آزمایش ها به این نتیجه دست یافتند که شبکه های عصبی کانولوشن با سه لایه پنهان بهترین عملکرد را دارد. همچنین نشان داده شده است که با توجه به اندازه نسبتا کوچک اطلاعات آموزشی موجود، مدل های یادگیری عمیق می توانند از مجموعه داده های کوچک یاد بگیرند.
# کارهای مرتبط
این کار برخلاف کارهای قبلی که بر روی طیف خاصی از MWE ها تمرکز داشتند، برای طیف گسترده ای از MWE ها قابل استفاده است.
یادگیری عمیق اخیرا در کارهای مختلفی مانند ترجمه ماشین و ... استفاده شده است و نتایج دلگرم کننده ای را هم داشته است ولی با این حال برای تشخیص طیف گسترده ای از MWE ها استفاده نشده است.
در این مقاله برای اولین بار مدل یادگیری عمیق برای شناسایی طیف گسترده MWE ها ارائه داده شده است، در این مقاله پیشنهاد استفاده از یک شبکه جلورو لایه ای، یک شبکه عصبی مرکزی و دو شبکه عصبی پیچشی داده شده. اگر این مدل را با مدل های سنتی یادگیری ماشینی نظارتی گذشته مقایسه کنیم، درمی یابیم که با توجه به اندازه نسبتا کوچک دیتاست، یادگیری عمیق میتواند به خوبی یاد بگیرد و براساس مقایسه میزان دقت، بهتر از مدل های قبلی عمل کند.
# معماری مدل ها
در این بخش، ویژگی های استخراج شده برای مدل های شبکه عصبی و معماری مدل شرح داده شده است.
تقریبا 320 هزار ویژگی استخراج شده است، اما به دلیل تعداد زیاد ویژگی ها، تنها را ممکن برای آموزش مدل، استفاده از طبقه بند خطی است[6]
در مقابل با استفاده از فضای ویژگی بزرگ برای استفاده در معماری شبکه های عصبی، در این مقاله هدف درست کردن ویژگی های متراکم برای استفاده در معماری شبکه های عصبی هست تا این معماری به خوبی دیگر الگوریتم های یادگیری ماشین برای آموزش داده ها کار کند.

در این مقاله به طور خاص سه مدل پیشنهاد شده است:
شبکه جلورو لایه ای(LFN)، شبکه عصبی بازگشتی(RNN)، شبکه عصبی پیچشی(CNN)

مدل شبکه جلورو لایه ای
اگرچه شبکه های جلورو لایه ای برای طیف گسترده ای از مسائل طبقه بندی و رگرسیون مورد استفاده قرار گرفته اند، اما نشان داده شده است که آن ها تاثیر کمی در بهبود کارایی مدل های یادگیری عمیق مانند طبقه بندی تصاویر[7] و ترجمه ماشینی[8] دارند، بنابراین شبکه های جلورو لایه ای به عنوان یک معیار برای مقایسه عملکرد با معماری های دیگر و همچنین برای توسعه ویژگی ها مورد استفاده قرار می گیرند.

مدل شبکه عصبی بازگشتی
شبکه های عصبی بازگشتی بخاطر توانایی ذاتی توالی بودن برای خیلی از مسائل پردازش زبان طبیعی استفاده میشوند، در این جا از شبکه های عصبی تک لایه ای استفاده شده است که به اصطلاح RNN1 نامیده  می شود.

مدل شبکه عصبی پیچشی
شبکه های عصبی پیچشی به عنوان طبقه بندی قدرتمند شناخته میشوند[9][10] و از آنجا که شناسایی عبارات چندبخشی می تواند به عنوان یک وظیفه طبقه بندی مطرح شود، شبکه های عصبی پیچشی توانایی انجام آن را دارند.
در این جا از شبکه های عصبی پیچشی با 2 و 3 لایه مخفی استفاده شده است که به ترتیب با CNN2 و CNN3 نمایش داده می شوند، مشاهده شد که شبکه های عصبی با 2 و 3 لایه مخفی به خوبی روی مجموعه داده اعتبارسنجی به خوبی کار می کند اما اگر لایه های بیشتری اضافه شود باعث یادگیری افراطی می شود.
به طور مشابه اضافه کردن لایه های بیشتر به شبکه جلورو لایه ای و شبکه عصبی بازگشتی باعث یادگیری افراطی می شود.
# معرفی مجموعه دادگان و ساختار
در این مقاله از مجموعه دادگان DIMSUM که شامل متن نشریات، توییت ها و گفت گو های TED است استفاده شده است[6] که استفاده از این مجموعه دادگان اجازه می دهد که نتایج به دست آمده را با نتایج قبلی مقایسه کرد.
در جدول زیر منبع مجموعه دادگان ذکر شده است و همانطور که نشان داده شده است، این مجموعه دادگان به دو بخش مجموعه آموزش و مجموعه آزمون تقسیم شده است که مجموعه آزمون دارای نوعی از متون است که در مجموعه آموزش وجود ندارد (گفت گو های TED)
برای اعتبارسنجی نیاز به یک مجموعه اعتبارسنجی است که برای بدست آوردن آن باید مجموعه آموزش به 5 قسمت تقسیم شود که در این صورت هر بار 20 درصد از مجموعه آموزش (1 قسمت) را برای اعتبارسنجی و 80 درصد برای آموزش (4 قسمت) استفاده خواهد شد.

 ![توصیف آماری ترکیب مجموعه داده های DIMSUM](https://boute.s3.amazonaws.com/289-dataset.jpg)

6 تا تگ برای برچسب زنی عبارات چند کلمه ای استفاده شده است:
B		I		O		b		i		o
تگ B نشان دهنده شروع عبارت چندکلمه ای است.
تگ I نشان دهنده ادامه عبارت چندکلمه ای است.
تگ O نشان دهنده این است که نشانه بخشی از عبارت چند کلمه ای نیست.
تگ b نشان دهنده شروع عبارت چندکلمه ای جدید است.
تگ i نشان دهنده ادامه عبارت چندکلمه ای جدید است.
تگ o نشان دهنده این است که نشانه بخشی از عبارت چند کلمه ای جدید نیست.
 برچسب زنی نشانه ها بر اساس کنوانسیون BIO است.
 ![مثالی از برچسب زنی نشانه ها](https://boute.s3.amazonaws.com/289-example.jpg)
 در تصویر بالا استاندار طلایی در بالا و مقدار پیش بینی شده در پایین مشخص شده است، مقدار precision و recall را برای آن حساب می شود و سپس مقدار این دو را برای محاسبه فرمول زیر به کار می بریم.
 ![](https://boute.s3.amazonaws.com/289-2.jpg)
 
 # نتایج
 مقدار میانگین f-score مدل ها روی مجموعه آزمون همراه با تعمیم دادن آنها در جدول زیر نمایش داده شده است.
 ![](https://boute.s3.amazonaws.com/289-f.jpg)
برای محاسبه کارایی مدل ها روی مجموعه دادگان مدلها بر روی تمامی مجموعه آموزش که شامل اعتبار سنجی نیز می باشد آموزش داده شده و سپس بر روی مجموعه آزمون آزمایش شد.
در اینجا ابتدا مدلهای سنتی یادگیری ماشین را بررسی شده است. در میان این مدل ها gradient boosting بهترین عملکرد را روی مجموعه اعتبار سنجی داشت که می توان به خصوصیت gradient boosting برای یادگیری توابع پیچیده و نیرومندی آن نسبت به داده های خارج از محدوده دانست. گرچه آن بر روی مجموعه آزمون به خوبی عمل نکرد که logistic regression بهترین عملکرد را در این قسمت داشت و بهترین عمومی سازی را در میان مدلهای سنتی یادگیری ماشین داشت.
این نشان می دهد که به طور نسبی نمونه های زیادی در مجموعه آزمون می تواند به درستی با استفاده از یک ابر صفحه برای جداسازی نمایش ویژگی رده بندی شود.
با معطوف شدن به مدلهای شبکه عصبی ، LFN1 با قطعیت یک خط مقدم قوی برای این کار است.

 مدل RNN1  بهترین تعمیم دهندگی را بین همه مدل ها بدست آورد  اگرچه عملکرد نسبتا ضعیف نسبت به بقیه مدلهای شبکه عصبی روی هر دو مجموعه اعتبارسنجی و مجموعه آزمون داشت. مدلهای CNN ، CNN2 , CNN3 نسبت به بهترین نتایج قبلی روی مجموعه آزمون بهبود داشتند که CNN3 بهترین fscore کلی را بدست آورد و از همه مدلهای دیگر به غیر از اشنایدر بر روی مجموعه اعتبار سنجی پیشی گرفت.
این نشان می دهد که فیلترهای CNN قادر بودند یاد بگیرند ، که چیزی یک ستون ویژگی را بعنوان یک جز از یک  عبارات چند کلمه ای می سازد یا خیر.
پیروزی CNN3 بر CNN2 نشان می دهد که اضافه کردن یک لایه مخفی اضافه برای مدل CNN کارایی آن را تا حدی افزایش می دهد.
علاوه بر آن داده یادگیری برای این کار نسبتا کوچک است و شامل کمتر 5000 جمله است.
این نتایج نشان می دهند که شبکه عصبی کانولوشنال هنوز می توانند نتایج خوب بدست بیاورند زمانی که میزان داده یادگیری موجود محدود است.
بیشترین fscore روی تست ست با CNN3 به اندازه 59.96 % بدست آمد.
این نشان می دهد که کار بسیار مشکل است و پیشنهاد می دهد که محدوده ای برای بهبود آینده وجود دارد.

 # کارهای آینده
 در کار آینده می شود یک تحلیل عمیق روی خطاهای انجام شده در مدلهای شبکه عصبی انجام داد. همچنین مدلهای پیشنهادی یادگیری عمیق نیز می توانند توسعه یابند تا نشانه supersense را علاوه بر عبارات چند کلمه ای حدس بزنند.
 به طور خلاصه می شود تا کارایی یک مدل تکی که عبارات چند کلمه ای و supersense را با هم حدس می زند را در مقابل دو مدل جداگانه برای هر کار مقایسه کنیم. علاوه بر آن می شود تا تاثیر شناسایی عبارات چند کلمه ای را روی کار های پایین دست پردازش زبان طبیعی با ترکیب تگ های حدس زده شده عبارات چند کلمه ای به برنامه هایی همدون ترجمه ماشینی بررسی کرد.

 # مروری بر ادبیات
 مجموعه دادگان: از دو بخش مجموعه آموزش و مجموعه آزمون تشکیل شده است.
 مجموعه  آموزش: معمولا بخش بزرگی از داده های موجود را برای مرحله یادگیری به وسیله ماشین اختصاص می دهیم.
 مجموعه آزمون: معمولا بخش کوچکی از داده های موجود را برای مرحله تست به وسیله ماشین اختصاص می دهیم.
 یادگیری افراطی: اگر در هنگام یادگیری مثلا از تعداد خیلی زیادی از ویژگی ها استفاده کنیم باعث یادگیری افراطی می شود.
 # مراجع
1. Timothy Baldwin and Su Nam Kim. 2010. Handbook of natural language processing. In Nitin Indurkhya and Fred J. Damerau, editors, Handbook of Natural Language Processing , CRC Press, Boca Raton, USA. 2nd edition.
2. Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger. 2002. Multiword expressions: A pain in the neck for NLP. In Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics (CICLING 2002) . pages 1–15.
3. Marine Carpuat and Mona Diab. 2010. Task-based evaluation of multiword expressions: a pilot study in statistical machine translation. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics . Los Angeles, California, pages 242–245.
4. David Newman, Nagendra Koilada, Jey Han Lau, and Timothy Baldwin. 2012. Bayesian text segmentation for index term identification and keyphrase extraction. In Proceedings of COLING 2012 . Mumbai, India, pages 2077–2092.
5. G´aborBerend. 2011. Opinion expression mining by exploiting keyphrase extraction. In Proceedings of 5th International Joint Conference on Natural Language Processing . Chiang Mai, Thailand, pages 1162–1170.
6. Nathan Schneider, Emily Danchik, Chris Dyer, and A. Noah Smith. 2014a. Discriminative lexical semantic segmentation with gaps: Running the mwe gamut. Transactions of the Association for Computational Linguistics (TACL) 2:193–206.
7. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. ImageNet classification with deep convolutional
neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, Curran Associates, Inc., pages 1097–1105.
8. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly
learning to align and translate. In International Conference on Learning Representations (ICLR2015).
9. Yoon Kim. 2014. Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, A meeting of SIGDAT, a Special Interest Group of the ACL . Doha, Qatar, pages 1746–1751.
10. Yoon Kim, Yacine Jernite, David Sontag, and Alexander M. Rush. 2016. Character-aware neural language models. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence . Phoenix, Arizona, USA, pages 2741–2749.



1. Multiword Expression
2. Deep learning
3. Neural Network
4. NLP
5. Machine Translation
6. Feedforward Network
7. Recurrent Neural Network
8. Convolutional Neural Network
9. DIMSUM
10. LFN
11. RNN
12. CNN