سؤالات factoid نوعی پرسش هستند که با wh شروع می‌شوند، پاسخ آن‌ها یک یک حقیقت یا واقعیت است که در متن به آن اشاره شده است (پرسش‌های هستان‌شناسی).روش‌های طبقه‌بندی متن برای پاسخ به سؤالات factoid از روش‌های مبتنی بر قوانین دستی مشخص شده، یا bag of words representations استفاده می‌کنند. این روش‌ها در برخی موارد ناکارآمد است، از جمله زمانی که در متن سؤالات واژه‌های خاصی وجود دارند که نشان‌دهنده پاسخ هستند. در این مقاله روش جدیدی بنام QANTA به منظور پاسخ‌گویی به سؤالات factoid ارائه شده است. این روش ورودی‌های که متن آنها حاوی واژه‌های خاص باشد را با مدل‌سازی ترکیب‌بندی متنی تحلیل می‌کند.

۱. مقدمه

هر هفته صدها دانش‌آموز و دانشجو در یک تورنومنت به نام quiz bowl در دبیرستان و دانشگاه‌های ایالت متحده آمریکا شرکت می‌کنند.در این رقابت سؤالات در مورد حقایق جالب ولی غیرمهم است که شرکت‌کنندگان در آن باید متون خام را به موجودیت‌های شناخته شده نگاشت کنند. سؤالات quiz bowl شامل 4 تا 6 جمله است و با پاسخ‌های factoid مرتبط است. هر جمله در متن سؤال حاوی سرنخ‌هایی است که حتی بدون جملات قبلی هم پاسخ منحصر به فرد مشخص می‌کند. سؤالات quiz bowl دارای ویژگی pyramidality هستند، به این معنی که جملات هر سؤال ابتدا حاوی سرنخ‌های سخت‌تر و مبهم‌تر هستند درحالی‌که جملات بعدی به صورت "giveaways" هستند. گاهی اوقات جمله اول شامل موجودیت‌های بدون نام است و پاسخ به این سؤال مستلزم درک واقعی از جمله است اما به تدریج جمله‌های بعدی ترم‌های شناخته شده و منحصر به فرد بیشتری را مشخص می‌کنند. بازیکنان باید سریع‌تر از حریف پاسخ دهند و برای پاسخ‌های صحیح پاداش دریافت می‌کنند. در واقع این رقابت به گونه‌ای طراحی شده که به بازیکنان با دانش عمیق از یک موضوع خاص پاداش داده می‌شود..
رویکردهای خودکار پاسخ به سؤالات quiz bowl که براساس تکنیک‌های موجود پردازش زبان‌های طبیعی از جمله bag of words عمل می‌کنند، در مورد جملاتی مانند جملات اول که حاوی سرنخ‌های سخت و مبهم هستند، محکوم به شکست‌اند. شبکه‎‌های عصبی بازگشتی (rnn) در مقایسه با مدل‌های مشابه جنبه‌های ترکیبی چنین جملاتی را می‌گیرند[1].
شبکه‌های عصبی rnn باید آموزش ببینند تا بتوانند نمایش‌های معنی‌دار را یادبگیرند و این در حالی است که در quiz bowl برای چندین سؤال به یک پاسخ مشابه نیاز است.در طول هر سال تحصیلی نمونه‌های بسیار زیادی سؤال در مورد هر موجودیت طراحی می‌شود بنابراین در این مورد نه تنها افزونگی وجود داردبلکه تنوع درونی هم هست، زیرا سرنخ‌های کلیدی نمی‌توانند در هر سؤال ظاهر شوند. تنها محدودیت تعداد موجودیت‎‌‌های موردنظر است

۲. کارهای مرتبط

کارهایی که در رابطه با این موضوع انجام شده در دو زمینه وجود دارد:
شبکه عصبی بازگشتی برای NLP
اصل ترکیب معنایی بیان می کند که معنای عبارت ممکن است از معنای کلمات موجود در آن و نحوه قرار گرفتن آن کلمات کنار هم، مشتق شود. بسیاری از مدل های محاسباتی ترکیبی بر یادگیری فضا برداری تمرکز دارند [3][4][5]. رویکردهای اخیر برای مدل‌سازی فضای برداری ترکیب شده با شبکه های عصبی موفق بوده‌اند، گرچه برای عبارات کوتاه تابع ساده‌تر پیشنهاد شده است .
شبکه‌های عصبی بازگشتی توانسته‌اند به بهترین عملکرد در تحلیل و تجزیه احساسات دست یابند[1][6][8]. rnnها قبلا برای یادگیری فضای ویژگی‌ها مورد استفاده قرار نگرفته‌اند، گرچه شبکه‌های تکرارپذیر بازگشتی برای تکمیل پایگاه دانش مورد استفاده قرار گرفتند و نتیجه موفقیت‌آمیز نبوده است[7].کارهای مرتبط در این زمینه مدل تحلیل گفتمان [9] و مدل برداری پاراگراف [10] است که هر دو مدل قادرند بازنمایی توزیع پاراگراف را تولید کنند. در این مستند یک رویکرد ساده‌تر ارائه شده است که در آن یک مدل واحد قادر است بازنمایی جملات پیچیده را یاد بگیرد و متوسط آن‌ها را در میان پاراگراف‌ها بسنجند.
پرسش و پاسخ factoid
پرسش و پاسخ factoid از لحاظ عملکرد معادل بازیابی اطلاعات است. با توجه به پایگاه دانش و یک پرسش، هدف بدست آوردن پاسخ آن سوال است. بسیاری از رویکردهای این مسئله به تطبیق الگوی دست ساز و طبقه بندی نوع پاسخ بستگی دارد تا فضای جستجو را محدود کند [11]. بیشتر سیستم‌های پرسش و پاسخ factoid اخیر، وب و رسانه‌های اجتماعی را در سیستم‌های بازیابی خود قرار داده‌اند.

۳. آزمایش‌ها

برای ارزیابی عملکرد مدل QANTA، عملکرد آن با رویکردهای BOW، BOW-DT، IR-QB روی دو دیتاست مقایسه شده است.
دیتاست
برای ارزیابی عملکرد مدل QANTA، این الگوریتم را روی پیکره ای با بیش از 100000 جفت سوال-جواب از دو منبع مختلف اعمال کردند. منبع اصلی دیتاست این ارزیابی مجموعه داده استفاده شده توسط Boyd-Garber و همکارانش [2] است که حاوی 46824 سوال در 14 کلاس است. این دیتاست با 65212 سوال از مجموعه سوالاتی که توسط NAQT از سال 1993-2013 در دسترس عموم قرار گرفت، تکمیل شده است .(NAQT یک سازمان برگزار کننده رقابت quiz bowl است). برخی کلاس‌های این دیتاست در ارزیابی مورد استفاده قرار نگرفتند زیرا حاوی تعداد کمی داده بودند(به عنوان مثال کلاس نجوم که تنها دارای 331 سوال است). بنابراین از کل این دیتاست فقط سوالات کلاس تاریخ شامل 21041 سوال و کلاس ادبیات شامل 22956 سوال استفاده شده است.
رویکردها
عملکرد QANTA با دو نوع رویکرد اصلی مقایسه می‌شود:bag of words به عنوان یک مبنای اصلی NLP است و مدل‌های بازیابی اطلاعات که امکان مقایسه مدل با تکنیک‌های سنتی پرسش و پاسخ را فراهم می‌کند.
رویکرد BOW یک طبقه‌بند رگرسیون لجستیک است که روی شاخص‌های unigram باینری آموزش یافته است. این مدل متمایزکننده ساده بهبودیافته نسبت به مدل مولد پرسش و پاسخ برای quiz bowl ارائه شده توسط Boyd-Graber و همکارانش است[2].
رویکرد BOW-DT همانند BOW است با این تفاوت که در اینجا مجموعه ویژگی با شاخص‌های وابستگی اضافه می‌شود. در این مدل از این رویکرد برای جدا کردن ساختار درخت وابستگی از مدل ترکیبی QANTA استفاده شده است.
رویکرد IR-QB با استفاده از موتور Whoosh IR سوالات را بر پاسخ‌ها نگاشت می‌کند.پایگاه دانش IR-QB متشکل از صفحاتی است که با هر پاسخ مرتبط است، در واقع هر صفحه متشکل از متن سوال آموزشی برای پاسخ آن است.
مدلIR-WIKI مشابه مدل IR-QB است با این تفاوت که هر صفحه پایگاه دانش آن شامل تمام متن مقاله ویکی‌پدیا مرتبط با پاسخ است.به دلیل اینکه تمام مدل‌ها و مدل‌های dt-rnn فقط بر روی متن سوال عمل می‌کنند، این یک مقایسه معتبر نیست.هدف در اینجا که نشان دهیم با استفاده از مدل QANTA می‌توان آن‌را بهبود داد.

۴. نتایج

جدول زیر دقت مدل‌های مختلف را برای تاریخ و ادبیات در دو موقعیت جمله اول از هر سؤال و تمام سؤال را نشان می‌دهد.در قسمت بالای جدول مدل‌های آموزش دیده روی سؤالات را مقایسه شده است ولی در قسمت پایین جدول مدل IR به ویکی‌پدیا هم دسترسی دارد. QANTA از تمام مدل‌هایی که فقط به داده‌های پرسشی محدود هستند، بهتر عمل می‎‌کند. در QANTA باید جمله ورودی یک موجودیت را بدون اشاره به آن موجودیت توصیف شود اما این محدودیت در جملات ویکی‌پدیا رعایت نمی‌شود. روش IR روی داده‌های ویکی بدون هیچ مشکلی عمل می‌کند و QANTA تنها روی مجموعه‌ای از جفت‌های پرسش و پاسخ آموزش دیده است، بنابراین می‌تواند عملکرد مدلIR را با دسترسی به ویکی‌پدیا به طور قابل توجهی بهبود دهد.

دقت مدل‌های مختلف

نمودار زیر مقایسه QANTA+IR-WIKI با شرکت کنندگان رقابت quiz bowl را نشان می‌دهد. هر میله نشان دهنده یک بازیکن است و ارتفاع میله مربوط به تفاوت بین نمره مدل و نمره انسانی است. میله‌ها با مهارت انسانی مرتب شده‌اند. میله های قرمز نشان می دهد که انسان برنده است، در حالی که میله های آبی نشان می دهد که مدل برنده است. QANTA+IR-WIKI از بیشتر بازیکنان در سوالات تاریخی بهتر می‌کند اما به طور متوسط نمی‌تواند آن‌ها را در سؤالات ادبیات را شکست دهد.
مقایسه عملکرد QANTA+IR-WIKI با انسان

۵. مراجع

[1] K. M. Hermann and P. Blunsom, “The Role of Syntax in Vector Space Models of Compositional Semantics.,” Acl, pp. 894–904, 2013.
[2] J. Boyd-Graber and B. Satinoff, “Besting the quiz master: crowdsourcing incremental classification games,” Emnlp, no. July, pp. 1290–1301, 2012.
[3] K. Erk, “Vector Space Models of Word Meaning and Phrase Meaning: A Survey,” Linguist. Lang. Compass, vol. 6, no. 10, pp. 635–653, 2012.
[4] A. Yessenalina and C. Cardie, “Compositional Matrix-Space Models for Sentiment Analysis,” Comput. Linguist., pp. 172–182, 2011.
[5] E. Grefenstette, G. Dinu, Y.-Z. Zhang, M. Sadrzadeh, and M. Baroni, “Multi-Step Regression Learning for Compositional Distributional Semantics,” no. 2010, 2013.
[6] R. Socher, J. Bauer, C. D. Manning, and A. Y. Ng, “Parsing with compositional vector grammars,” ACL 2013 - 51st Annu. Meet. Assoc. Comput. Linguist. Proc. Conf., vol. 1, pp. 455–465, 2013.
[7] R. Socher, D. Chen, C. Manning, D. Chen, and A. Ng, “Reasoning With Neural Tensor Networks for Knowledge Base Completion,” Neural Inf. Process. Syst., pp. 926–934, 2013.
[8] R. Socher, A. Perelygin, and J. Wu, “Recursive deep models for semantic compositionality over a sentiment treebank,” Proc. …, no. October, pp. 1631–1642, 2013.
[9] N. Kalchbrenner and P. Blunsom, “Recurrent Continuous Translation Models,” Emnlp, no. October, pp. 1700–1709, 2013.
[10] Q. V. Le and T. Mikolov, “Distributed Representations of Sentences and Documents,” vol. 32, 2014.
[11] M. Wang, “A survey of answer extraction techniques in factoid question answering,” Comput. Linguist., 2006.