دانلود مقاله به زبان اصلی
شماره دانشجویی: 96722117
فاز اول


توسعه نمایش معنایی با استفاده از شبکه های حافظه ای کوتاه- بلند با ساختار درختی (Tree-LSTM)

مدل Lstm یک نوع شبکه عصبی بازگشتی است که با استفاده از واحد محاسباتی پیچیده، نتایج فوق العاده ای روی مدلهای ترتیبی بدست می آورد. در ابتدا LSTM به صورت ساختار زنجیره ای بوده است که برای افزایش قابلیت حفظ اطلاعات خیلی دور، به ساختار درختی توسعه داده شده است. زبان طبیعی، ویژگی های نحوی است که به طور طبیعی کلمات را با هم ترکیب می کند و جملات را تشکیل می دهد. Tree-LSTM، یک مدل توسعه یافته از LSTM با توپولوژی شبکه ای ساختار درختی است. Tree-LSTM مدل قدرمندی است که در مقایسه با همه ی مدلهای موجود بهتر عمل می کند و مبتنی بر دو وظیفه طراحی شده است:

  • پیش بینی ارتباط احساسی (معنایی) بین دو جمله (SemEval 2014, Task 1)

  • طبقه بندی احساسات (Stanford Sentiment Treebank)

۱. مقدمه

مدلهایی که برای بازنمایی عبارات و جملات، بیشتر مورد استفاده قرار می گیرد در این سه مدل دسته بندی می شوند: مدل جعبه کلمات – مدل بازگشتی (ترتیبی) و مدل ساختار درختی. بازنمایی عبارت و جمله در مدل جعبه کلمات، وابسته به ترتیب کلمه است. در مدل ترتیبی، نمایش جمله حساس به ترتیب نشانه هاست [1] [2] و در مدل با ساختار درختی نمایش هر عبارت و جمله توسط عبارات کوچکتر مبتنی بر ساختار نحوی تشکیل می شود. [3] [4] نمایش جمله با استفاده از ساختار درختی بهتر از دو مورد مذکور دیگر است.

یک LSTM با ساختار زنجیره ای

یکLSTM با ساختار درختی و فاکتور انشعاب دلخواه

مدل های غیر حساس به ترتیب، به دلیل عدم توانایی تشخیص تفاوتهای معنایی و وابستگیهای زبان طبیعی نسبت به مدل های حساس به ترتیب کلمه یا ساختار نحوی، برای بازنمایی جملات مناسب نیستند. برای مثال مدل های غیر حساس به ترتیب، تفاوت بین دو جمله ی " گربه از درخت بالا می رود " و " درخت از گربه بالا می رود " را تشخیص نمی دهند. به همین دلیل است که به مدل های حساس به ترتیب متوالی و یا مدل های با ساختار درختی روی می آوریم. به ویژه مدل های با ساختار درختی به دلیل تفسیر نحوی ساختار جمله، یک گزینه مناسب و جذاب زبانی است. سوال مهمی که مطرح می شود این است که: نمایش و بازنمایی
جمله با مدل های ساختار درختی در مقایسه با مدل های بازگشتی چقدر بهتر است؟ برای جواب دادن به این سوال، یک نوع مدل بازگشتی که اخیرا برای دستیابی به نتایج پیشرفته در حوزه ی NLP استفاده شده است را با مدل ساختار درختی آن مقایسه خواهیم کرد. ما در اینجا مدل توسعه یافته ی LSTM استاندارد به ساختار
درختی را معرفی خواهیم کرد.
شبکه های LSTM که در بخش 2 آن ها را مرور خواهیم کرد، وظایف انواع مدلهای بازگشتی را به ویژه در ماشینهای ترجمه، تشخیص گفتار، تولید عناوین تصویر و اجرای برنامه به خوبی انجام می دهد. ترکیب دو مدل RNN و LSTM یک معماری خوب و کارآمد برای نمایش عبارات و کلمات را ایجاد می کند.

معماری LSTM را بر اساس دو مورد ارزیابی خواهیم کرد:

  • پیش بینی رابطه معنایی بین دو جمله. و طبقه بندی احساسات

  • جملات که از بررسیهای فیلم بدست آمده است.

۲. بررسی اجمالی

شبکه های عصبی برگشتی RNN می توانند والی ورودی با طول دلخواه را به وسیله ی تابع بازگشتی انتقال روی یک بردار حالت مخفی ht پردازش کنند.
در هر مرحله از زمان t، روردی تابع حالت مخفی ht، از روی ی تابع بردار ورودی xt در لحظه t و حالت مخفی قبلی خود یعنی ht-1 بدست می آید. برای
مثال بردار ورودی xt می تواند یک نمایش بردار از t امین کلمه در بدنه ی متن باشد. حالت مخفی ht می تواند به عنوان یک نماد بعدی توزیع شده ی ترتیب توکنهای مشاهده شده مبتنی بر زمان t باشد.

ht = tanh (W xt + Uht−1 + b)

اگر عبارت و یا جمله ای طولانی باشد و از نظر معنایی به کلمات خیلی قبل تر وابسته باشد تا بتوان مفهوم کلی جمله را دریافت، LSTM به این کلمات و
وابستگی ها دسترسی خواهد داشت. ساختار LSTM دارای سلول حافظه است که این سلول حالتهای زمانهای خیلی قبل را در خود ذخیره می کند. با ذخیره پریود
زمانهای قبل، اطلاعات خیلی قدیمی را نیز در حافظه خواهیم داشت و با این کار مشکل دسترسی به وابستگیهای جملات طولانی حل می شود. انواع مختلفی از معماری LSTM وجود دارد که ما در اینجا ورژنی که توسط Zaremba و Sutskever استفاده شده است را مطرح می کنیم. معادلات انتقالLSTM به صورت زیر است: it : گیت ورودی - ct : سلول حافظه - ft : گیت فراموشی - ot : گیت خروجی - ht :حالت مخفی

گیت it با توجه به فرمولش و فیلتر σ تصمیم می گیرد که چه مقادیری از هر واحد به روز شوند. خروجی لایه سیگمود عددی بین صفر و یک است که نشان می دهد چه مقدار از ورودی به خروجی ارسال می شود.

it = σ(W(i)xt + U(i)ht−1 + b(i))

پاک کردن اطلاعات از سلول حافظه از طریق گیت فراموشی ft صورت می گیرد. گیت فراموشی محدوده ای که می خواهیم از سلول حافظه فراموش شود را کنترل می کند. این گیت با توجه به مقادیر xt و ht-1 یعنی ورودی فعلی و حالت مخفی قبلی، مقدار 0 یا 1 سلول حالت ct-1 را به خروجی می برد و سلول حافظه فعلی را شکل می دهد. مقدار یک یعنی مقدار ct-1 به طور کامل به ct می رود و مقدار صفر یعنی اطلاعات سلول حافظه را به طور کامل پاک کن و هیچ مقداری را به ct نبر. ft ct-1 یعنی اگر مقدار ft برابر یک باشد اطلاعات قبلی به سلول حافظه در زمان t اضافه می گردد و اگر ft برابر صفر باشد اطلاعات قبلی فراموش می شوند. itut یعنی ورودی های زمان t را به سلول حافظه اضافه می کنیم.

ft = σ( W(f)xt + U(f)ht−1 + b(f))
ut = tanh( W(u)xt + U(u)ht−1 + b(u))
ct= it *  ut + ft * ct-1

گیت خروجی ot کنترل می کند که چه بخشی از سلول حافظه داخلی به عنوان خروجی نمایش داده شود. در واقع لایه سیگمود فیلتری است که مشخص می کند چه بخشی از مقدار سلول حالت داخلی به خروجی برود.

ot = σ( W(o)xt + U(o)ht−1 + b(o))

سپس مقدار سلول حالت داخلی پس از به روز شدن را به لایه تانژانت هایپربولیک می دهیم و مقدار آنرا در خروجی تایع سیگمود در مرحله قبل ضرب می کنیم تا مشخص کنیم که چه بخش هایی به خروجی برود:

ht = ot * tanh (ct)

ساختار LSTM میتواند اطلاعات جدیدی را به سلول حافظه اضافه کند و یا اطلاعات را از آن حذف کند. ورودی بردارهای it ,ft و ot بین [0,1] است.

ساختار درختی LSTM ها: ساختار زنجیره ای LSTM تنها می تواند اطلاعات متوالی را منتشر کند. که این یک محدودیت برای این معماری است. در فاز دوم مقاله دو نوع ساختار LSTM که به صورت درختی هستند را بررسی خواهند شد. Child-Sum Tree-LSTM و N-ary Tree-LSTM هر دو نوع قادرند که اطلاعات را از واحدهای چند فرزندی خود ترکیب کنند.
مدل LSTM با ساختار درختی مانند LSTM استاندارد، دارای گیتهای ورودی و خروجی و سلول حافظه و حالت مخفی می باشد. تفاوتLSTM استاندارد و LSTM درختی در این است که در مدل با ساختار درختی، بردارهای گیت شده و به روزرسانی سلول حافظه وابسته به حالتهای واحدهای تعدادی فرزند است و همچنین برای اینکه بشود اطلاعات را از هر فرزند دلخواه ترکیب کرد، به جای یک گیت فراموشی واحد، گیتهای فراموشی برای k امین فرزند مورد نظر داریم. یعنی برای هر فرزند یک گیت فراموشی fjk داریم.

ساخت سلول حافظه c1 و حالت مخفی h1 یک معماری LSTM با دو فرزند.

۳. کارهای مرتبط

  • از طریق بازنمایی و شناخت توزیع شده ی کلمات [5] [6] [7] [8] [9] [10] به کاربردهای مختلفی برای انواع وظایف NLP دست یافته اند.

  • علاقه مندی های قابل توجه ای در زمینه یادگیری بازنمایی و شناخت عبارات و جملات در کارهای [11] [12] [13] [14] وجود داشته است.

  • بازنمایی و شناخت توزیع شده ی متون طولانی تر مانند پاراگراف ها و اسناد. [15] [16]

  • رویکرد این مقاله بر روی شبکه های عصبی برگشتی ساخته شده است. [17] [18]

  • مدل Tree_RNNs که به منظور تحلیل تصاویر صحنه های طبیعی مورد استفاده قرار گرفته است ، [17] بازنمایی عبارت را از بردارهای کلمه می سازد. [18] و قطبیت معنایی و احساسی جملات را طبقه بندی می کند. [19]

۴. آزمایش های انجام شده و دیتاست ها

معماری درختهای LSTM را برپایه دو کار ارزیابی می کنیم:
1- طبقه بندی معنایی جملات نمونه برداری شده از بازدید فیلم ها
2- پیش بینی ارتباط معنایی بین جفت جملات
دیتاست SemEval 2014, Task 1
برای مقایسه LSTM ارائه شده که از نوع درخت است با LSTM ترتیبی و زنجیره ای، در Tree-LSTM ارائه شده در این مقاله، تعداد پارامترهای LSTM با تغییر دادن ابعاد حالتهای پنهان کنترل شده است. جزئیات برای هر نوع مدل در جدول 1 گردآوری شده است.

جدول 1: ابعاد حافظه d و تعداد پارامترهای تابع ترکیب | θ | برای انواع LSTM هایی که ما ارزیابی کرده ایم.

  • طبقه بندی احساسات (Sentiment Classification)

در این قسمت کار، معنی و احساس جملات نمونه برداری شده از مرور و بازدید فیلم ها را پیش بینی کردیم. ما از Treebank احساسات دانشگاه استنفورد استفاده کردیم. دو زیر برنامه وجود داشت: طبقه بندی دودویی جملات و طبقه بندی دانه ریز (fine-grained) مبتنی بر 5 کلاس. کلاسهای : بسیار منفی، منفی، خنثی، مثبت و خیلی مثبت. ما برای طبقه بندی دودویی از شکافهای آموزش/تقسیم/آزمایش 6920/872/1821 و برای طبقه بندی دانه ریز از 8544/1101/2210 استفاده کرده ایم. ( از آنجا که جملات خنثی منسوخ شده اند، مثالهای کمی برای مورد اول وجود دارد.)
درخت پارس انتخابی دودویی استاندارد برای هر جمله موجود در دیتاست بکار رفته است. و هر گره در این درختها با برچسب احساسات مشخص شده اند.
برای LSTM های مبتنی بر توالی یعنی LSTM ترتیبی برای نمایش احساس یک عبارت، حالت مخفی نهایی LSTM را پیش بینی می کنیم. مدلهای LSTM ترتیبی در مجموعه آموزش، روی دامنه های مربوط به گره های برچسب آموزش داده می شوند. ما از هر دو مدل طبقه بندی توضیح داده شده بخش 4.1 (فاز دوم مقاله) با هر دو مدل Dependency Tree-LSTMs و بخش 3.1 (فاز دوم مقاله) یعنی Constituency Tree-LSTMs استفاده می کنیم. LSTM مبتنی بر حوزه انتخابی بر طبق درختهای پارس آماده ساخته شده اند. اما در LSTM مبتنی بر درخت همبستگی، پارس های همبستگی هر جمله را تولید می کنیم. به هر گره در یک درخت بر چسب معنایی داده می شود اگر محدوده اش منطبق بر یک محدوده ی بر چسب دار در مجموعه آموزش باشد.

دیتاست
داده Treebank احساسات دانشگاه استنفورد
طبقه بندی دودویی | آموزش/تقسیم/آزمایش 6920/872/1821
طبقه بندی fine-grained | آموزش/تقسیم/آزمایش 8544/1101/2210

  • وابستگی معنایی (Semantic Relatedness)

برای هر جفت جمله داده شده، وظیفه وابستگی معنایی اینست که پیش بینی کند دو جمله در معنا و از نظر مفهومی چه ارتباطی با هم دارند به گونه ای که سعی کند مثل یک انسان ارتباط بین دو جمله در معنا را متوجه شود.
ما از دیتاست دانش ترکیب جملات در گیر (SICK) استفاده می کنیم. تشکیل 9927 جفت جمله در یک شکاف (تقسیم) 4500/500/4927 train/dev/test .
جملات از دیتاست های تصاویر موجود و توضیح ویدئوها گرفته شده است. هر جفت جمله با یک امتیاز و رتبه وابستگی [y ∈ [1, 5 علامت گذاری شده. عدد یک در این بازه نشان می دهد که دو جمله کاملا غیر مرتبط هستند و عدد پنج نشان می دهد که دو جمله بسیار با هم مرتبط هستند. هر برچسب میانگین ده رتبه بندی اختصاص داده شده به آگهی دهندگان مختلف انسان است. در اینجا، ما از مدل مشابه توضیح داده شده در بخش 4.2 (فاز دوم مقاله) استفاده می کنیم. برای شبکه پیش بینی مشابه ما از یک لایه مخفی با سایر 50 استفاده می کنیم.

دیتاست
بررسی وابستگی معنایی | دانش ترکیب جملات در گیر (SICK) / شکاف 4500/500/4927 train/dev/test

  • بیش پارامترها (Hyperparameters) و جزئیات آموزش

بیش پارامترها برای مدلهای ما روی مجموعه توسعه، برای هر مورد تنظیم شده اند. در آزمایشهای صورت گرفته، نمایش کلماتمان را با استفاده از بردارهای Glove سیصد بعدی آماده عمومی، مقدار دهی کردیم. برای هر مورد طبقه بندی احساسی (معنایی)، نمایش کلمات در طول آموزش با یک رتبه آموزش 0.1 آپدیت شده اند. برای هر مورد وابستگی معنایی، نمایشهای کلمه ثابت نگه داشته شدند زیرا هنگام تنظیم مجدد نمایش ها، هیچ تغییر قابل ملاحظه ای را مشاهده نکردیم.
همچنین مدلهای ما با استفاده از AdaGrad با نسبت آموزش 0.05 و یک شماره سریال کوچک به اندازه ی 25 آموزش داده شدند. پارامترهای مدلها با یک شماره سریال تنظیم به طول 10−4 تنظیم شدند وطبقه بند معنایی با استفاده از dropout با یک تست dropout برابر با 0.5 تنظیم شدند. با انجام تست dropout دستاوردهای عملکردی خاصی را در مورد وابستگی معنایی مشاهده نکردیم.

دیتاست
برای نمایش کلمات | بردارهای Glove سیصد بعدی آماده عمومی
یک شماره سریال به اندازه ی 25 و AdaGrad نسبت آموزش 0.05
برای پارامترهای مدل ها | شماره سریال تنظیم به طول 10−4
برای طبقه بندی معنایی | dropout

۵. جمع بندی

در این مقاله توسعه LSTM استاندارد به توپولوژی شبکه ای با ساختار درختی معرفی شده است.
ساختار LSTM درختی می تواند به درختان با فاکتور انشعاب دلخواه اعمال شود. تاثیر معماری LSTM درختی را که بهتر از تمام سیستم های موجود عمل می کند بر روی دو مورد وابستگی معنایی و طبقه بندی احساسات بررسی شده است.
همچنین نشان داده می شود که مدل LSTM با ساختار درختی برای انجام وظایف بهتر از مشابه خودشان در مدل ترتیبی عمل می کنند.
نتایج این مقاله خط مشی هایی را برای کار بر رو مشخص کردن نقش ساختار در تولید نمایش توزیع شده ی جملات پیشنهاد می دهد.

۶. مراجع

[1] Elman, Jeffrey L. 1990. Finding structure in time. Cognitive science 14(2):179–211.
[2] Mikolov, Toma´s. 2012. ˇ Statistical Language Models Based on Neural Networks. Ph.D. thesis, Brno University of Technology.
[3] Goller, Christoph and Andreas Kuchler. 1996. Learning task-dependent distributed representations by backpropagation through structure. In IEEE International Conference on Neural Networks.
[4] Socher, Richard, Cliff C Lin, Chris Manning, and Andrew Y Ng. 2011. Parsing natural scenes and natural language with recursive neural networks. In Proceedings of the 28th International Conference on Machine Learning (ICML-11).
[5] Rumelhart, David E, Geoffrey E Hinton, and Ronald J Williams. 1988. Learning representations by back-propagating errors. Cognitive modeling 5.
[6] Collobert, Ronan, Jason Weston, Leon Bottou, ´Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. 2011. Natural language processing (almost) from scratch. The Journal of Machine Learning Research 12:2493–2537
[7] Turian, Joseph, Lev Ratinov, and Yoshua Bengio. 2010. Word representations: A simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.
[8] Huang, Eric H., Richard Socher, Christopher D. Manning, and Andrew Y. Ng. 2012. Improving word representations via global context and multiple word prototypes. In Annual Meeting of the Association for Computational Linguistics (ACL).
[9] Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems.
[10] Pennington, Jeffrey, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 Conference on Empiricial Methods in Natural Language Processing (EMNLP).
[11] Mitchell, Jeff and Mirella Lapata. 2010. Composition in distributional models of semantics. Cognitive science 34(8):1388 1429.
[12] Yessenalina, Ainur and Claire Cardie. 2011. Compositional matrix-space models for sentiment analysis. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP).
[13] Grefenstette, Edward, Georgiana Dinu, YaoZhong Zhang, Mehrnoosh Sadrzadeh, and Marco Baroni. 2013. Multi-step regression learning for compositional distributional semantics. In Proceedings of the 10th International Conference on Computational Semantics.
[14] Srivastava, Nitish, Ruslan Salakhutdinov, and Geoffrey Hinton. 2013. Modeling documents with a Deep Boltzmann Machine. In Uncertainty in Artificial Intelligence.
[15] Le, Quoc and Tomas Mikolov. 2014. Distributed representations of sentences and documents. In Proceedings of the 31st International Conference on Machine Learning (ICML-14).
[16] Goller, Christoph and Andreas Kuchler. 1996. Learning task-dependent distributed representations by backpropagation through structure. In IEEE International Conference on Neural Networks.

[17] Socher, Richard, Brody Huval, Christopher D Manning, and Andrew Y Ng. 2012. Semantic compositionality through recursive matrixvector spaces. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP).
[18] Socher, Richard, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).
[19] Socher, Richard, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).