در این مقاله خواص مدل های مکرر byte-level بررسی شده است. هنگامی که مقدار کافی ظرفیت، داده های آموزشی و زمان محاسبه داده می شود، بازنمودهایی که توسط این مدل ها آموخته می شود، شامل ویژگی های غیرمتعارف مربوط به مفاهیم سطح بالا می باشد. به طور خاص، یک واحد را انتخاب کرده که تجزیه و تحلیل احساسات را انجام می دهد. این بازنمودها، به شیوه ای unsupervised، برای به دست آوردن وضعیت در زیر مجموعه دوتایی Treebank احساسات استندفورد آموخته شده است. آنها همچنین بسیار کارآمد هستند. هنگام استفاده از تعداد انگشت شماری از نمونه های برچسب شده، رویکرد مقاله با
عملکرد پایه های قوی که در مجموعه داده های کامل آموزش دیده است، مطابقت دارد. همچنین نشان داده شده است واحد احساسات تأثیر مستقیم بر روند تولید مدل دارد.
1. مقدمه و انگیزه کار
یادگیری نقش مهمی در بسیاری از سیستم های یادگیری ماشین مدرن ایفا می کند. نمایش داده های خام را به فرم های مفید تر و انتخاب مدل نمایش جزء مهم هر برنامه می باشد. به طور کلی، دو حوزه تحقیقاتی وجود دارد که بر جزئیات متفاوتی از نحوه یادآوری های مفید یاد می شود.
همچنین سابقه ای طولانی در یادگیری نمایندگی unsupervised وجود دارد [1]. بسیاری از تحقیقات اولیه در مورد یادگیری عمیق مدرن از طریق این رویکرد توسعه داده شده و معتبر بوده است یادگیری unsupervised به دلیل توانایی آن در مقیاس تنها از زیر مجموعه ها و حوزه های داده ای است که می تواند به وسیله منابع، حریم خصوصی یا سایر محدودیت ها پاک شود و برچسب گذاری شود، امیدوار کننده است. این مزیت نیز مشکل آن است. در حالی که رویکردهای تحت نظارت دارای اهداف مشخص است که می توانند به طور مستقیم بهینه سازی شوند، رویکردهای ناظر بر تکیه بر وظایف پروکسی نظیر بازسازی، برآورد تراکم یا نسبی است که مستقیما بازتاب های مفید برای وظایف خاص را تشویق نمی کنند. در نتیجه، کارهای زیادی به منظور طراحی اهداف، پیشوایان و معماری ها به منظور تشویق یادگیری بازنمودهای مفید انجام شده است.
با وجود این مشکلات، برنامه های قابل توجهی از یادگیری unsupervised وجود دارد. بردارهای کلمه پیش آموزش یافته بخش مهمی از بسیاری از سیستم
های مدرن هستند. این بازنمودهایی که توسط مدل سازی همزمان رویدادهای کلمه مورد استفاده قرار می گیرند،قابلیت رفع اطلاعات و قابلیت تعمیم پذیری سیستم هایNLP را افزایش می دهند. مدل سازی موضوع همچنین می تواند عوامل را در یک متن متناسب با مفاهیم تفسیری انسان مانند هنر یا آموزش کشف کند.
چگونگی یادآوری عبارات، احکام و اسناد، یک حوزه باز از تحقیقات است. با الهام از موفقیت بردارهای کلمات، [2] پیشنهاد یک بردار skip-thought، که یک روش آموزش رمزگذار جملات با پیش بینی جمله قبل و بعد است را دادند. بازنمایی که توسط این هدف شناخته می شود، بر روی مجموعه وسیعی از وظایف ارزیابی رقابت می کند. تکنیک های پیشرفته تر مانند نرمال سازی لایه در [3] نتایج را را بهبود می بخشد.
با این حال، بردارهای skip-thought هنوز با مدل های نظارت شده که مستقیما به منظور سنجش عملکرد مطلوب در یک مجموعه داده خاص، بهینه شده
اند، بهتر عمل می کنند. این مورد برای هر دو وظیفه طبقه بندی متن است که اندازه گیری می کند که آیا یک مفهوم خاص به خوبی در بازنمایی کد گذاری شده است.
[4] بر خلاف learn representations عمومی در یک مجموعه داده بزرگ و سپس ارزیابی بر روی سایر وظایف / مجموعه داده ها، با استفاده از اهداف نظارتی مشابه نظیر رمزگذاری خودکار و مدل سازی زبان برای اولین بار از یک مدل در یک مجموعه داده استفاده کرد و سپس آن را محاسبه کرد برای یک کار خاص این رویکرد آموزش مدل مشابهی را از ابتدایی تصادفی و پیشرفت هنر بر روی چندین مجموعه داده های طبقه بندی کرد. ترکیبی از مدل سازی زبان با مدل سازی موضوع و اتصالات کوچک برداشت شده از ویژگی های تحت نظارت در بالا نیز نتایج قوی در تجزیه و تحلیل احساسات در دامنه به دست آورد [5].
با توجه به این، فرض شده است که دو اثر ممکن است ترکیبی باشد که منجر به عملکرد ضعیف رویکردهای صرفا بدون نظارت شود. بردارهای پرش بر روی یک کتاب بخشی آموزش داده شدند. اما برخی از وظایف طبقه بندی که در آنها ارزیابی می شود، مانند تحلیل احساسات بررسی کالاهای مصرفی، خیلی متناقض با متن رمان نیست. در این مقاله این مسئله توزیع را پیشنهاد کرده اند، همراه با ظرفیت محدود مدل های فعلی، نتایج زیر را به بازنمایی ارائه می کنند.
در این کار، بر روی وظیفه تحلیل احساسات تمرکز شده و تلاش کرده اند تا نمایشی بی نظیر را که دقیقا شامل این مفهوم است یاد بگیرند. [6] نشان
داد که مدل سازی مجدد زبان در سطح کلمه، یادگیری لغت نامه های مفیدی را پشتیبانی می کند و در این مقاله این خط کار مورد توجه قرار گرفته است. به عنوان یک رویکرد، در معیار سنجش محبوبیت مدل سازی زبان شخصیتی با توجه به سادگی و کلیت بیشتر آن را در نظر کرفته اند. همچنین در طیف وسیعی از وظایف برای سنجش میزان حساس بودن بازنویسی آموخته شده به مقادیر مختلف داده ها و وظایف خارج از حوزه را مورد سنجش قرار داده اند.
2. مجموعه داده
کارهای قبلی در زمینه مدل سازی زبان بر روی داده های نسبتا کوچک اما رقابتی مانند [7] و جایزه Hutter در ویکی پدیا [8] ارزیابی شده است. همانطور که در [9] مورد بحث قرار گرفت.
عملکرد در این مجموعه داده ها عمدتا تحت کنترل است. از آنجایی که در این مقاله علاقه مند به بازنویسی احساسات با کیفیت بالا هستند، مجموعه داده های بازبینی محصولات آمازون را که در [10] معرفی شده اند را به عنوان یک واحد آموزشی انتخاب کرده اند. در نسخه ناقص، این مجموعه داده حاوی بیش از 82 میلیون بررسی محصول از ماه مه سال 1996 تا جولای 2014 به بیش از 38 میلیارد بایت تمرین است. با توجه به اندازه مجموعه داده، ابتدا آنرا به 1000 عدد تقسیم کرده ایم که شامل تعداد مشابهی از بررسی ها و 1 عدد برای اعتبار سنجی و 1 عدد برای آزمون است.
3. تجزیه و تحلیل
[11] و [12] هر دو مدل های نسبی مشروطی را طراحی کرده اند تا محتوای متن را از ویژگی های مختلف مانند احساسات و یا تنش جدا کنند. هدف این مقاله این بوده است که یک نتیجه مشابه را می توان با استفاده از واحد احساسات به دست آورد. در شکل زیر نشان داده شده که به سادگی تنظیم واحد احساسات مثبت یا منفی، مدل تولید بازخورد مثبت یا منفی متناظر است. در حالی که همه بررسی های منفی نمونه دارای جملات با احساسات منفی هستند، گاهی اوقات نیز جمله هایی با احساسات مثبت نیز وجود دارد. این ممکن است منعکس کننده تعصب کورس آموزشی است که شامل بیش از 5x به عنوان بسیاری از بررسی پنج ستاره به عنوان بررسی یک ستاره است. با این وجود، جالب است بدانیم که چنین دستکاری ساده ای از بازنمایی مدل اثر قابل توجهی بر رفتار آن دارد.
4. مراجع
[1] Olshausen, Bruno A and Field, David J. Sparse coding with an overcomplete basis set: A strategy employed by v1 Vision research, 37(23):3311–3325, 1997.
[2] Kiros, Ryan, Zhu, Yukun, Salakhutdinov, Ruslan R, Zemel, Richard, Urtasun, Raquel, Torralba, Antonio, and Fidler, Sanja. Skip-thought vectors. In Advances in neural information processing systems, pp. 3294–3302, 2015.
[3] Ba, Jimmy Lei, Kiros, Jamie Ryan, and Hinton, Geoffrey E. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
[4] Dai, AndrewMand Le, Quoc V.Semi-supervised sequence learning. In Advances in Neural Information Processing Systems, pp. 3079–3087, 2015.
[5] Dieng, Adji B, Wang, Chong, Gao, Jianfeng, and Paisley, John. Topicrnn: A recurrent neural network with long-range semantic dependency. arXiv preprint arXiv:1611.01702, 2016.
[6] Mikolov, Tomas, Yih, Wen-tau, and Zweig, Geoffrey. Linguistic regularities in continuous space word representations, 2013.
[7] Marcus, Mitchell P, Marcinkiewicz, Mary Ann, and Santorini, Beatrice. Building a large annotated corpus
of english: The penn treebank. Computational linguistics, 19(2):313–330, 1993.
[8] Hutter, Marcus. The human knowledge compression contest. 2006. URL http://prize. hutter1. net, 2006.
[9] Jozefowicz, Rafal, Vinyals, Oriol, Schuster, Mike, Shazeer, Noam, and Wu, Yonghui. Exploring the limits of language
modeling. arXiv preprint arXiv:1602.02410, 2016.
[10] McAuley, Julian, Pandey, Rahul, and Leskovec, Jure. Inferring networks of substitutable and complementary products.
In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 785–794. ACM, 2015.
[11] Hu, Zhiting, Yang, Zichao, Liang, Xiaodan, Salakhutdinov, Ruslan, and Xing, Eric P. Controllable text generation.
arXiv preprint arXiv:1703.00955, 2017.
[12] Dong, Li, Huang, Shaohan, Wei, Furu, Lapata, Mirella, Zhou, Ming, and Ke, Xu. Learning to generate product reviews
from attributes. In Proceedings of the 15 Conference of the European Chapter of the Association for Computational Linguistics, pp. 623–632.Association for Computational Linguistics, 2017.