یادگیری استنتاج در زبان‌های طبیعی با استفاده از روش‌های LSTM دوطرفه و Inner-Attention

۱. مقدمه

استنتاج از طریق متن، به معنای این است که آیا می‌توان جمله‌ای را از جمله اولیه، نتیجه گرفت یا خیر. در این مقاله با استفاده از روش‌های یادگیری عمیق LSTM دوطرفه و Inner-Attention به بررسی این موضوع پرداخته است.
روش LSTM دوطرفه : LSTM دوطرفه یکی از روش‌های یادگیری عمیق است که برای یادگیری داده‌های ترتیبی1 مورد استفاده‌ قرار می‌گیرد. LSTM مدل بهبود یافته RNN است. در مدل RNN ممکن است داده‌هایی که در ابتدای فرآیند آموزش استفاده می‌شوند، با گذشت زمان تاثیر کمتری در روند آموزش داشته باشند. روش LSTM با استفاده از دروازه‌هایی2 برای یادگیری و فراموش‌ کردن داده‌ها، به نوعی به صورت حافظه‌‍دار عمل می‌کند. به این ترتیب با دور شدن از داده‌های اولیه، ممکن است تاثیر آن داده‌ها کم نشوند و به این ترتیب عملکرد بهتری مشاهده می‌شود. LSTM دوطرفه، به این صورت است که در زمان آموزش، یک بار از ابتدا به انتها داده‌ها مورد بررسی قرار می‌گیرد و وزن‌ها و مقادیر بایاس اصلاح می‌شوند، یک بار از انتها به ابتدا فرآیند آموزش انجام می‌شود و ماتریس‌های مربوطه تنظیم می‌شوند.
روش Inner-Attention : در این روش با مشاهده توجه جمله به اجزا، اهمیت هر نوع کلمه بررسی می‌شود و این میزان اهمیت در اصلاح وزن‌ها و بایاس‌ها مورد توجه قرار می‌گیرد. به طور مثال اگر دسته "اسم‌" اهمیت بیشتری نسبت به دسته "فعل" داشت، اصلاح وزن فعل‌ها به صورت خفیف‌تر انجام می‌شود.

مجموعه داده‌ها

برای آزمایش روش این مقاله، مجموعه داده‌ها از مجموعه‌ داده‌هایی که دانشگاه استنفورد3 به همین منظور در سایت خود قرار داده است، استفاده شده است. این مجموعه داده به SNLI معروف است. مجموعه داده‌های این سایت به این صورت است که 550 هزار جمله دوتایی که دارای برچسب هستند، به عنوان داده‌ آموزش در فایل مربوطه وجود دارد. فایل دیگری با 10 هزار جمله دوتایی دارای برچسب، برای بررسی صحت عملکرد، وجود دارد.

برچسب داده‌ها

هر داده در مجموعه داده‌ها با 3 برچسب مختلف مشاهده می‌شود:

  1. برچسب E4 : نتیجه‌گیری درست است.

  2. برچسب C5 : نتیجه‌گیری نادرست است.

  3. برچسب N6 : نتیجه‌گیری ممکن است درست باشد و ممکن است غلط باشد. در مورد صحت جمله دوم نمی‌توان نظر داد.
    در عکس زیر نمونه‌ای از این 3 برچسب مشاهده می‌شود.

    نمونه‌ای از دسته‌بندی داده‌ها

این پژوهشگر در انتها مدلی را معرفی و آزمایش می‌کند که نسبت به بهترین مدل پیاده‌سازی در گذشته، 2 درصد بهتر عمل می‌کند.

۲. کارهای مرتبط

برای درک بهتر و عمیق این مقاله و پیاده‌سازی آن، نیاز است که مفاهیم زیر مورد بررسی قرار بگیرد:

  1. نحوه عملکرد LSTM دوطرفه و چگونگی اصلاح وزن‌ها.

  2. استفاده از LSTM در حوزه پردازش زبان‌های طبیعی.

  3. کارهای انجام شده در زمینه بررسی نتیجه‌گیری در داده‌های 2 جمله‌ای.

۳. آزمایش‌ها

به زودی...

۴. کارهای آینده

به زودی...


  1. Sequential

  2. Gates

  3. http://nlp.stanford.edu/projects/snli/

  4. Entailment

  5. Contradiction

  6. Neutral