یادگیری استنتاج در زبانهای طبیعی با استفاده از روشهای LSTM دوطرفه و Inner-Attention
۱. مقدمه
استنتاج از طریق متن، به معنای این است که آیا میتوان جملهای را از جمله اولیه، نتیجه گرفت یا خیر. در این مقاله با استفاده از روشهای یادگیری عمیق LSTM دوطرفه و Inner-Attention به بررسی این موضوع پرداخته است.
روش LSTM دوطرفه : LSTM دوطرفه یکی از روشهای یادگیری عمیق است که برای یادگیری دادههای ترتیبی1 مورد استفاده قرار میگیرد. LSTM مدل بهبود یافته RNN است. در مدل RNN ممکن است دادههایی که در ابتدای فرآیند آموزش استفاده میشوند، با گذشت زمان تاثیر کمتری در روند آموزش داشته باشند. روش LSTM با استفاده از دروازههایی2 برای یادگیری و فراموش کردن دادهها، به نوعی به صورت حافظهدار عمل میکند. به این ترتیب با دور شدن از دادههای اولیه، ممکن است تاثیر آن دادهها کم نشوند و به این ترتیب عملکرد بهتری مشاهده میشود. LSTM دوطرفه، به این صورت است که در زمان آموزش، یک بار از ابتدا به انتها دادهها مورد بررسی قرار میگیرد و وزنها و مقادیر بایاس اصلاح میشوند، یک بار از انتها به ابتدا فرآیند آموزش انجام میشود و ماتریسهای مربوطه تنظیم میشوند.
روش Inner-Attention : در این روش با مشاهده توجه جمله به اجزا، اهمیت هر نوع کلمه بررسی میشود و این میزان اهمیت در اصلاح وزنها و بایاسها مورد توجه قرار میگیرد. به طور مثال اگر دسته "اسم" اهمیت بیشتری نسبت به دسته "فعل" داشت، اصلاح وزن فعلها به صورت خفیفتر انجام میشود.
مجموعه دادهها
برای آزمایش روش این مقاله، مجموعه دادهها از مجموعه دادههایی که دانشگاه استنفورد3 به همین منظور در سایت خود قرار داده است، استفاده شده است. این مجموعه داده به SNLI معروف است. مجموعه دادههای این سایت به این صورت است که 550 هزار جمله دوتایی که دارای برچسب هستند، به عنوان داده آموزش در فایل مربوطه وجود دارد. فایل دیگری با 10 هزار جمله دوتایی دارای برچسب، برای بررسی صحت عملکرد، وجود دارد.
برچسب دادهها
هر داده در مجموعه دادهها با 3 برچسب مختلف مشاهده میشود:
برچسب E4 : نتیجهگیری درست است.
برچسب C5 : نتیجهگیری نادرست است.
برچسب N6 : نتیجهگیری ممکن است درست باشد و ممکن است غلط باشد. در مورد صحت جمله دوم نمیتوان نظر داد.
در عکس زیر نمونهای از این 3 برچسب مشاهده میشود.
این پژوهشگر در انتها مدلی را معرفی و آزمایش میکند که نسبت به بهترین مدل پیادهسازی در گذشته، 2 درصد بهتر عمل میکند.
۲. کارهای مرتبط
برای درک بهتر و عمیق این مقاله و پیادهسازی آن، نیاز است که مفاهیم زیر مورد بررسی قرار بگیرد:
نحوه عملکرد LSTM دوطرفه و چگونگی اصلاح وزنها.
استفاده از LSTM در حوزه پردازش زبانهای طبیعی.
کارهای انجام شده در زمینه بررسی نتیجهگیری در دادههای 2 جملهای.
۳. آزمایشها
به زودی...
۴. کارهای آینده
به زودی...
Sequential
Gates
Entailment
Contradiction
Neutral