سؤالات factoid نوعی پرسش هستند که با wh شروع میشوند، پاسخ آنها یک یک حقیقت یا واقعیت است که در متن به آن اشاره شده است (پرسشهای هستانشناسی).روشهای طبقهبندی متن برای پاسخ به سؤالات factoid از روشهای مبتنی بر قوانین دستی مشخص شده، یا bag of words representations استفاده میکنند. این روشها در برخی موارد ناکارآمد است، از جمله زمانی که در متن سؤالات واژههای خاصی وجود دارند که نشاندهنده پاسخ هستند. در این مقاله روش جدیدی بنام QANTA به منظور پاسخگویی به سؤالات factoid ارائه شده است. این روش ورودیهای که متن آنها حاوی واژههای خاص باشد را با مدلسازی ترکیببندی متنی تحلیل میکند.
۱. مقدمه
هر هفته صدها دانشآموز و دانشجو در یک تورنومنت به نام quiz bowl در دبیرستان و دانشگاههای ایالت متحده آمریکا شرکت میکنند.در این رقابت سؤالات در مورد حقایق جالب ولی غیرمهم است که شرکتکنندگان در آن باید متون خام را به موجودیتهای شناخته شده نگاشت کنند. سؤالات quiz bowl شامل 4 تا 6 جمله است و با پاسخهای factoid مرتبط است. هر جمله در متن سؤال حاوی سرنخهایی است که حتی بدون جملات قبلی هم پاسخ منحصر به فرد مشخص میکند. سؤالات quiz bowl دارای ویژگی pyramidality هستند، به این معنی که جملات هر سؤال ابتدا حاوی سرنخهای سختتر و مبهمتر هستند درحالیکه جملات بعدی به صورت "giveaways" هستند. گاهی اوقات جمله اول شامل موجودیتهای بدون نام است و پاسخ به این سؤال مستلزم درک واقعی از جمله است اما به تدریج جملههای بعدی ترمهای شناخته شده و منحصر به فرد بیشتری را مشخص میکنند. بازیکنان باید سریعتر از حریف پاسخ دهند و برای پاسخهای صحیح پاداش دریافت میکنند. در واقع این رقابت به گونهای طراحی شده که به بازیکنان با دانش عمیق از یک موضوع خاص پاداش داده میشود..
رویکردهای خودکار پاسخ به سؤالات quiz bowl که براساس تکنیکهای موجود پردازش زبانهای طبیعی از جمله bag of words عمل میکنند، در مورد جملاتی مانند جملات اول که حاوی سرنخهای سخت و مبهم هستند، محکوم به شکستاند. شبکههای عصبی بازگشتی (rnn) در مقایسه با مدلهای مشابه جنبههای ترکیبی چنین جملاتی را میگیرند[1].
شبکههای عصبی rnn باید آموزش ببینند تا بتوانند نمایشهای معنیدار را یادبگیرند و این در حالی است که در quiz bowl برای چندین سؤال به یک پاسخ مشابه نیاز است.در طول هر سال تحصیلی نمونههای بسیار زیادی سؤال در مورد هر موجودیت طراحی میشود بنابراین در این مورد نه تنها افزونگی وجود داردبلکه تنوع درونی هم هست، زیرا سرنخهای کلیدی نمیتوانند در هر سؤال ظاهر شوند. تنها محدودیت تعداد موجودیتهای موردنظر است
۲. کارهای مرتبط
کارهایی که در رابطه با این موضوع انجام شده در دو زمینه وجود دارد:
شبکه عصبی بازگشتی برای NLP
اصل ترکیب معنایی بیان می کند که معنای عبارت ممکن است از معنای کلمات موجود در آن و نحوه قرار گرفتن آن کلمات کنار هم، مشتق شود. بسیاری از مدل های محاسباتی ترکیبی بر یادگیری فضا برداری تمرکز دارند [3][4][5]. رویکردهای اخیر برای مدلسازی فضای برداری ترکیب شده با شبکه های عصبی موفق بودهاند، گرچه برای عبارات کوتاه تابع سادهتر پیشنهاد شده است .
شبکههای عصبی بازگشتی توانستهاند به بهترین عملکرد در تحلیل و تجزیه احساسات دست یابند[1][6][8]. rnnها قبلا برای یادگیری فضای ویژگیها مورد استفاده قرار نگرفتهاند، گرچه شبکههای تکرارپذیر بازگشتی برای تکمیل پایگاه دانش مورد استفاده قرار گرفتند و نتیجه موفقیتآمیز نبوده است[7].کارهای مرتبط در این زمینه مدل تحلیل گفتمان [9] و مدل برداری پاراگراف [10] است که هر دو مدل قادرند بازنمایی توزیع پاراگراف را تولید کنند. در این مستند یک رویکرد سادهتر ارائه شده است که در آن یک مدل واحد قادر است بازنمایی جملات پیچیده را یاد بگیرد و متوسط آنها را در میان پاراگرافها بسنجند.
پرسش و پاسخ factoid
پرسش و پاسخ factoid از لحاظ عملکرد معادل بازیابی اطلاعات است. با توجه به پایگاه دانش و یک پرسش، هدف بدست آوردن پاسخ آن سوال است. بسیاری از رویکردهای این مسئله به تطبیق الگوی دست ساز و طبقه بندی نوع پاسخ بستگی دارد تا فضای جستجو را محدود کند [11]. بیشتر سیستمهای پرسش و پاسخ factoid اخیر، وب و رسانههای اجتماعی را در سیستمهای بازیابی خود قرار دادهاند.
۳. آزمایشها
برای ارزیابی عملکرد مدل QANTA، عملکرد آن با رویکردهای BOW، BOW-DT، IR-QB روی دو دیتاست مقایسه شده است.
دیتاست
برای ارزیابی عملکرد مدل QANTA، این الگوریتم را روی پیکره ای با بیش از 100000 جفت سوال-جواب از دو منبع مختلف اعمال کردند. منبع اصلی دیتاست این ارزیابی مجموعه داده استفاده شده توسط Boyd-Garber و همکارانش [2] است که حاوی 46824 سوال در 14 کلاس است. این دیتاست با 65212 سوال از مجموعه سوالاتی که توسط NAQT از سال 1993-2013 در دسترس عموم قرار گرفت، تکمیل شده است .(NAQT یک سازمان برگزار کننده رقابت quiz bowl است). برخی کلاسهای این دیتاست در ارزیابی مورد استفاده قرار نگرفتند زیرا حاوی تعداد کمی داده بودند(به عنوان مثال کلاس نجوم که تنها دارای 331 سوال است). بنابراین از کل این دیتاست فقط سوالات کلاس تاریخ شامل 21041 سوال و کلاس ادبیات شامل 22956 سوال استفاده شده است.
رویکردها
عملکرد QANTA با دو نوع رویکرد اصلی مقایسه میشود:bag of words به عنوان یک مبنای اصلی NLP است و مدلهای بازیابی اطلاعات که امکان مقایسه مدل با تکنیکهای سنتی پرسش و پاسخ را فراهم میکند.
رویکرد BOW یک طبقهبند رگرسیون لجستیک است که روی شاخصهای unigram باینری آموزش یافته است. این مدل متمایزکننده ساده بهبودیافته نسبت به مدل مولد پرسش و پاسخ برای quiz bowl ارائه شده توسط Boyd-Graber و همکارانش است[2].
رویکرد BOW-DT همانند BOW است با این تفاوت که در اینجا مجموعه ویژگی با شاخصهای وابستگی اضافه میشود. در این مدل از این رویکرد برای جدا کردن ساختار درخت وابستگی از مدل ترکیبی QANTA استفاده شده است.
رویکرد IR-QB با استفاده از موتور Whoosh IR سوالات را بر پاسخها نگاشت میکند.پایگاه دانش IR-QB متشکل از صفحاتی است که با هر پاسخ مرتبط است، در واقع هر صفحه متشکل از متن سوال آموزشی برای پاسخ آن است.
مدلIR-WIKI مشابه مدل IR-QB است با این تفاوت که هر صفحه پایگاه دانش آن شامل تمام متن مقاله ویکیپدیا مرتبط با پاسخ است.به دلیل اینکه تمام مدلها و مدلهای dt-rnn فقط بر روی متن سوال عمل میکنند، این یک مقایسه معتبر نیست.هدف در اینجا که نشان دهیم با استفاده از مدل QANTA میتوان آنرا بهبود داد.
۴. نتایج
جدول زیر دقت مدلهای مختلف را برای تاریخ و ادبیات در دو موقعیت جمله اول از هر سؤال و تمام سؤال را نشان میدهد.در قسمت بالای جدول مدلهای آموزش دیده روی سؤالات را مقایسه شده است ولی در قسمت پایین جدول مدل IR به ویکیپدیا هم دسترسی دارد. QANTA از تمام مدلهایی که فقط به دادههای پرسشی محدود هستند، بهتر عمل میکند. در QANTA باید جمله ورودی یک موجودیت را بدون اشاره به آن موجودیت توصیف شود اما این محدودیت در جملات ویکیپدیا رعایت نمیشود. روش IR روی دادههای ویکی بدون هیچ مشکلی عمل میکند و QANTA تنها روی مجموعهای از جفتهای پرسش و پاسخ آموزش دیده است، بنابراین میتواند عملکرد مدلIR را با دسترسی به ویکیپدیا به طور قابل توجهی بهبود دهد.
نمودار زیر مقایسه QANTA+IR-WIKI با شرکت کنندگان رقابت quiz bowl را نشان میدهد. هر میله نشان دهنده یک بازیکن است و ارتفاع میله مربوط به تفاوت بین نمره مدل و نمره انسانی است. میلهها با مهارت انسانی مرتب شدهاند. میله های قرمز نشان می دهد که انسان برنده است، در حالی که میله های آبی نشان می دهد که مدل برنده است. QANTA+IR-WIKI از بیشتر بازیکنان در سوالات تاریخی بهتر میکند اما به طور متوسط نمیتواند آنها را در سؤالات ادبیات را شکست دهد.
۵. مراجع
[1] K. M. Hermann and P. Blunsom, “The Role of Syntax in Vector Space Models of Compositional Semantics.,” Acl, pp. 894–904, 2013.
[2] J. Boyd-Graber and B. Satinoff, “Besting the quiz master: crowdsourcing incremental classification games,” Emnlp, no. July, pp. 1290–1301, 2012.
[3] K. Erk, “Vector Space Models of Word Meaning and Phrase Meaning: A Survey,” Linguist. Lang. Compass, vol. 6, no. 10, pp. 635–653, 2012.
[4] A. Yessenalina and C. Cardie, “Compositional Matrix-Space Models for Sentiment Analysis,” Comput. Linguist., pp. 172–182, 2011.
[5] E. Grefenstette, G. Dinu, Y.-Z. Zhang, M. Sadrzadeh, and M. Baroni, “Multi-Step Regression Learning for Compositional Distributional Semantics,” no. 2010, 2013.
[6] R. Socher, J. Bauer, C. D. Manning, and A. Y. Ng, “Parsing with compositional vector grammars,” ACL 2013 - 51st Annu. Meet. Assoc. Comput. Linguist. Proc. Conf., vol. 1, pp. 455–465, 2013.
[7] R. Socher, D. Chen, C. Manning, D. Chen, and A. Ng, “Reasoning With Neural Tensor Networks for Knowledge Base Completion,” Neural Inf. Process. Syst., pp. 926–934, 2013.
[8] R. Socher, A. Perelygin, and J. Wu, “Recursive deep models for semantic compositionality over a sentiment treebank,” Proc. …, no. October, pp. 1631–1642, 2013.
[9] N. Kalchbrenner and P. Blunsom, “Recurrent Continuous Translation Models,” Emnlp, no. October, pp. 1700–1709, 2013.
[10] Q. V. Le and T. Mikolov, “Distributed Representations of Sentences and Documents,” vol. 32, 2014.
[11] M. Wang, “A survey of answer extraction techniques in factoid question answering,” Comput. Linguist., 2006.