یادگیری استنتاج در زبانهای طبیعی با استفاده از روشهای LSTM دوطرفه و Inner-Attention
۱. مقدمه
تصور کنید جملهای مشاهده میشود (عقیده1). این جمله مفهومی را میرساند که ما را از موضوعی مطلع میسازد. حال جملهای دیگر را در نظر بگیرید که بعد از جمله اولیه، بیان میشود (فرضیه2). 3 نوع استنتاج از جمله دوم نسبت به جمله اول میتوان به دست آورد. یعنی ممکن است جمله دوم با توجه به جمله اول درست باشد، یا غلط باشد و یا نتوان نسبت به صحت یا اشتباه بودن آن اظهار نظر کرد. به طور مثال جملات زیر را در نظر بگیرید:
عقیده : پسر در محیطی پوشیده از چمن حرکت میکند.
پسر داخل اتاق است (اشتباه).
پسر بیرون از خانه است (صحیح).
پسر داخل پارک است (نامعلوم).
همانطور که در مثال بالا مشاهده میشود، 3 وضعیت اشتباه، صحیح و نامعلوم میتوان با توجه به جمله دوم برداشت کرد.
این مقاله با استفاده از روشهای یادگیری عمیق LSTM دوطرفه و Inner-Attention به بررسی این موضوع پرداخته است.
روش LSTM دوطرفه : LSTM دوطرفه یکی از روشهای یادگیری عمیق است که برای یادگیری دادههای ترتیبی3 مورد استفاده قرار میگیرد. LSTM مدل بهبود یافته RNN است. در مدل RNN ممکن است دادههایی که در ابتدای فرآیند آموزش استفاده میشوند، با گذشت زمان تاثیر کمتری در روند آموزش داشته باشند. روش LSTM با استفاده از دروازههایی4 برای یادگیری و فراموش کردن دادهها، به نوعی به صورت حافظهدار عمل میکند. به این ترتیب با دور شدن از دادههای اولیه، ممکن است تاثیر آن دادهها کم نشوند و به این ترتیب عملکرد بهتری مشاهده میشود. LSTM دوطرفه، به این صورت است که در زمان آموزش، یک بار از ابتدا به انتها دادهها مورد بررسی قرار میگیرد و وزنها و مقادیر بایاس اصلاح میشوند، یک بار از انتها به ابتدا فرآیند آموزش انجام میشود و ماتریسهای مربوطه تنظیم میشوند.
روش Inner-Attention : در این روش با مشاهده توجه جمله به اجزا، اهمیت هر نوع کلمه بررسی میشود و این میزان اهمیت در اصلاح وزنها و بایاسها مورد توجه قرار میگیرد. به طور مثال اگر دسته "اسم" اهمیت بیشتری نسبت به دسته "فعل" داشت، اصلاح وزن فعلها به صورت خفیفتر انجام میشود.
مجموعه دادهها
برای آزمایش روش این مقاله، مجموعه دادهها از مجموعه دادههایی که دانشگاه استنفورد5 به همین منظور در سایت خود قرار داده است، استفاده شده است. این مجموعه داده به SNLI معروف است. مجموعه دادههای این سایت به این صورت است که 550 هزار جمله دوتایی که دارای برچسب هستند، به عنوان داده آموزش در فایل مربوطه وجود دارد. فایل دیگری با 10 هزار جمله دوتایی دارای برچسب، برای بررسی صحت عملکرد، وجود دارد.
برچسب دادهها
هر داده در مجموعه دادهها با 3 برچسب مختلف مشاهده میشود:
برچسب E6 : نتیجهگیری درست است.
برچسب C7 : نتیجهگیری نادرست است.
برچسب N8 : نتیجهگیری ممکن است درست باشد و ممکن است غلط باشد. در مورد صحت جمله دوم نمیتوان نظر داد.
در عکس زیر نمونهای از این 3 برچسب مشاهده میشود.
این پژوهشگر در انتها مدلی را معرفی و آزمایش میکند که نسبت به بهترین مدل پیادهسازی در گذشته، 2 درصد بهتر عمل میکند.
۲. کارهای مرتبط
در گذشته مساله استنتاج دو جمله در حوزه ردهبندها9 انجام شده است و ویژگیها به صورت دستی انتخاب میشدند.
بسیاری از محققان از جمله باس و مارکت[1] از این روشها استفاده میکردند که به علت پیچیدگی زیاد و محدودیتهای ردهبندها از آنها استقبال زیادی نشد.
تن و دیگران [2] روشهای LSTM را برای استخراج استنتاج از متن را معرفی کردهاند.
راکستکل و دیگران [3] با استفاده از مدلهای توجه به نورون10، دقت بهتری را در این حوزه به دست آورد.
۳. متدولوژی ارائه شده در این مقاله
در این پژوهش از چارچوبهای یادگیری عمیق برای تشخیص استنتاج متن ها استفاده شده است. در این روش از روشهای انتخاب ویژگی و همچنین منابع خارجی استفاده نشده است. معماری روش ارائه شده در شکل زیر مشاهده میشود:
در این روش، ابتدا biLSTM هم بر روی عقیده و هم بر روی فرضیه اعمال میشود. از رمزگذار Mean Pooling یک دید کلی در مورد اینکه جمله در ارتباط با چه چیزی صحبت میکند، نمایان میکند. با استفاده از این قسمت، به مدل ارائه شده، Inner-Attention در هر دو جمله تعمیم داده میشود. با این کار دقت عملکرد، به وسیله تمرکز بر روی نمایندههای جمله (کلمههای کلیدیتر) بیشتر میشود.
همچنین در این مقاله از تکنیکهایی برای دریافت ورودی استفاده شده است که باعث دریافت نتایج بهتر میشود.
روش ارائه شده
در این روش، این مساله به عنوان یک مساله ردهبندی 3 مسیره باناظر در نظر گرفته میشود. طراحی این معماری به شکلی است که دو رمزگذار جملههای دوتایی، وزنها را در زمان آموزش با یکدیگر به اشتراک میگذارند. سپس نمایندگان دو جمله با یکدیگر ترکیب میشوند و "بردار ارتباط" را برای ردهبند میسازند.
شکل معماری این مقاله شامل 3 بخش زیر است که در ادامه توضیح داده خواهد شد:
ماژول ورودی جملهها
ماژول رمزگذاری جملهها
ماژول ترکیب جملهها
1. ماژول ورودی جملهها
در این قسمت 4 استراتژی مختلف برای دریافت جملهها به عنوان ورودی استفاده شده است:
معکوس کردن عقیده [4]
دوبار تکرار کردن عقیده [5]
دو بار تکرار کردن فرضیه
حذف کردن کلمات مشترک در عقیده و فرضیه
2.ماژول رمزگذاری جملهها
در این قسمت، سعی میشود که نمایندگان هر جمله با کیفیت بهتری انتخاب شوند. به منظور انجام این کار، 2 استراتژی برای رمزگذاری جملهها استفاده شده است، در مرحله اول از Average pooling بالای لایه biLSTM برای تولید بردار جمله استفاده شده است. سپس مکانیزم توجه بر روی همان جمله اعمال میشود، به این صورت که به دست آوردن وزن کلمات با استفاده از ارجاع از جمله دوم به اول، از مشاهده نمایندگان جمله که در مراحل قبل تولید شده است، استفاده میشود. ایده این کار از نحوه عملکرد انسانها به دست آمده است. به این صورت که انسان که یک عبارت را میخواند، با توجه به مطالعات گذشتهاش کلمات بااهمیت را به خاطر میسپارد.
این مکانیزم به صورت زیر فرموله شده است:
در فرمول بالا Y ماتریسی است که شامل بردار خروجی از biLSTM است، Ravg خروجی لایه Mean pooling است، آلفا نماینده بردار توجه، Ratt وزنهای توجه جمله است.
3. ماژول ترکیب جملهها
بعد از ماژول رمزگذاری و ساخت بردارهای جمله، 3 عمل ترکیب برای استخراج رابطه بین عقیده و فرضیه اتفاق میافتد:
ترکیب دو نماینده
ضرب المانها
اختلاف المانها
این معماری ترکیب ابتدا توسط مو و دیگران [6] معرفی شده است. در انتها از SoftMax در بالای این لایه استفاده شده است تا خروجی به صورت غیر خطی برای ردهبند مورد استفاده قرار بگیرد.
۴. آزمایشها و نتایج
برای آزمایش معماری ارائه شده، تنظیماتی برای شبکه عصبی و دادهها در نظر گرفته شده است:
اندازه تعداد داده وارد شده برای یادگیری11 = 128
میزان در نظر نگرفتن نورونها در زمان یادگیری12 = 25 درصد
برای مقداردهی اولیه به وزن کلماتی که تا قبل از آن مرحله در دادهها دیده نشدند، وزنی رندمی با توزیع (0.05و0.05) در نظر گرفته میشود.
وزنها بعد از آمدن هر داده، به روز نمیشوند. به این دلیل که تعداد دادههایی که نیاز به تنظیم وزن دارند کمتر شود و همچنین نمایندگان جمله نسبت به المانهای جدید که تا به حال دیده نشدهاند، عملکرد بهتری انجام دهند.
همانطور که در بخش ماژول ورودی صحبت شد، 4 روش برای دریافت ورودی مورد استفاده قرار گرفته است. نتیجه استفاده از هر روش در جدول زیر نمایش داده شده است:
بعد از انجام معماری ارائه شده، نتایج با روشهای روز که محققان دیگر انجام دادهاند مورد بررسی قرار گرفته است. در ادامه توضیح مختصر در روش در نظر گرفته شده در پژوهشهای روز دیگر و همچنین جدول نتایج نمایش داده شده است:
LSTM enc: 100D LSTM encoders + MLP[6].
GRU enc: 1024D GRU encoders + skip-thoughts + cat[7].
TBCNN enc: 300D Tree-based CNN encoders + cat[8].
SPINN enc: 300D SPINN-NP encoders + cat[9].
Static-Attention: 100D LSTM + static attention[3].
WbW-Attention: 100D LSTM+ word-by-word attention[3].
۵. نتیجهگیری
در این پژوهش، یک معماری biLSTM با توجه به Inner-Attention برای حل مسائل اسنتاج دو جملهای یا RTE ارائه شد. Inner-Attention به این صورت عمل کرد که نحوه تعیین توجه در جمله را بدون استفاده از اطلاعات جمله دیگر و توسط خودش محاسبه شود. این کار به همراه استراتژیهای مختلف در فاز ورود دادهها در این پژوهش مورد استفاده قرار گرفته است.
۶. کارهای آینده
استفاده این روش در حوزههای دیگر (به جز RTE)، مانند سوال جواب، تشابه دو جمله و غیره.
از معماریهای دیگری در فاز ترکیب جملهها استفاده شود و دقت مورد بررسی قرار گیرد.
این روش بر روی زبانهای دیگر مانند فارسی انجام شود.
۷. مراجع
[1] Johan Bos and Katja Markert. 2005. Recognising textual entailment with logical inference. In Proceedings of the conference on Human Language Technology and EmpiricalMethods in Natural Language Processing, pages 628–635. Association for Computational Linguistics.
[2] Ming Tan, Bing Xiang, and Bowen Zhou. 2015. Lstm-based deep learning models for non-factoid answer selection. arXiv preprint arXiv:1511.04108.
[3] Tim Rockt¨aschel, Edward Grefenstette, Karl Moritz Hermann, Tom´aˇs Koˇcisk`y, and Phil Blunsom. 2015. Reasoning about entailment with neural attention. arXiv preprint arXiv:1509.06664.
[4] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to sequence learningwith neural networks. In Advances in neural information processing systems, pages 3104–3112.
[5] Wojciech Zaremba and Ilya Sutskever. 2014. Learning to execute. arXiv preprint arXiv:1410.4615.
[6] Samuel R Bowman, Gabor Angeli, Christopher Potts, and Christopher D Manning. 2015. A large annotated corpus for learning natural language inference. arXiv preprint arXiv:1508.05326.
[7] Ivan Vendrov, Ryan Kiros, Sanja Fidler, and Raquel Urtasun. 2015. Orderembeddings of images and language. arXiv preprint arXiv:1511.06361.
[8] Lili Mou, Men Rui, Ge Li, Yan Xu, Lu Zhang, Rui Yan, and Zhi Jin. 2015. Recognizing entailment and contradiction by tree-based convolution. arXiv preprint arXiv:1512.08422. [Pennington et al.2014] Jeffrey Pennington,
[9] Samuel R Bowman, Jon Gauthier, Abhinav Rastogi, Raghav Gupta, Christopher D Manning, and Christopher Potts. 2016. A fast unified model for parsing and sentence understanding. arXiv preprint arXiv:1603.06021.
Premises
Hypothesis
Sequential
Gates
Entailment
Contradiction
Neutral
Classifiers
Neutral attention model
Batch size
Dropout rate