یکی از یزرگترین اهداف شاخه پردازش زبان طبیعی در هوش مصنوعی، تبدیل متن غیر ساختیافته زبان طبیعی با دانش ساختیافته و ماشین فهم میباشد. این هدف زیل مسائل مختلفی در یادگیری ماشین و پردازش زبان طبیعی از قبیل استخراج اطلاعات، مطالعه ماشینی و ... بیان شده است.
یکی از اشکال مرسوم دانش قابل فهم پردازش توسط ماشین هستان شناسی میباشد. هستانشناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط بین آنها را در حوزه موضوعی مورد بحث نمایش میدهد.
روشهای انسانی و یا با ناظر ایجاد یک هستانشناسی، بسیار پر زحمت و پر هزینه میباشد و با توجه به محدودیتهای این روشها، ایجاد یک هستانشناسی عام که وابسته به حوزه موضوعی خاصی نباشد با استفاده از روشهایی که مستلزم نظارت انسانی میباشد بسیار دشوار است. همچنین به مرور زمان و با توجه به پویایی زبان و تغییر و گسترش مفاهیم و روابط در دنیای واقعی، نیاز به گسترش هستانشناسی و اضافه شدن مفاهیم و روابط جدید به آن احساس خواهد شد.
گسترش هستانشناسی به این معنا میباشد که بتوانیم با استفاده از یک هستانشناسی موجود به عنوان ورودی و همچنین یک پیکره متنی، مفاهیم و روابط جدید را به هستان شناسی اصلی، اضافه نموده و آن را گسترش دهیم.
در این پروژه قصد داریم روشهای مختلف گسترش هستانشناسی را بررسی نموده و یکی از آنها را پیادهسازی کنیم.
این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار میگیرد.
۱. مقدمه
هستان شناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط میان آنها را در قلمروی مورد بحث نمایش میدهد. هستانشناسیها در قلمروهای مختلف کاربرد دارند و ساخت انواع آنها برای قلمروها فرآیندی پرهزینه و زمانگیر است. خودکار سازی این فرآیند مشکلات مهندسی هستان شناسی را محدود و هزینه ساخت و استفاده اشتراکی از آنها را کاهش میدهد.
هستان شناسی را میتوان با یک گراف جهتدار نشان داد که مفاهیم، گرههای گراف باشند و روابط هم یالها.[1]
برای استخراج دانش مفهومی از روشها و الگوریتمهای رشته های مختلفی مانند پردازش زبان طبیعی، مهندسی دانش، یادگیری ماشینی، اکتساب دانش، استخراج اطلاعات، استدلال خودکار و پردازش نمادین و احتمالاتی استفاده میشود. در چند دهه اخیر فعالیتهایی در زمینه یادگیری هستان شناسی انجام و روشها، متدولوژیها، ابزارها و سیستمهای مختلفی نیز ارایه شدهاند. برخی از این سیستمها از روشهای آماری، برخی از روشهای نمادین و برخی دیگر نیز از ترکیب این دو جهت یادگیری هستان شناسی بهره میبرند. همچنین بعضی سیستمهای یادگیر، ورودی خود را از متون زبان طبیعی و برخی دیگر از داده های نیمه ساخت یافته مانند مستندات XMLو HTML و یا دادههای ساخت یافته مانند پایگاههای دانش و هستان شناسی های دیگر تامین میکنند. [5]
یادگیری هستان شناسی از متون یک فرآیند شناسایی عبارات، مفاهیم، روابط و اصول بدیهی از متون و استفاده از آنها برای ساخت و نگهداری هستانشناسی است. خروجی یادگیری هستان شناسی را به پنج دسته میتوان تقسیم کرد: عبارات، مفاهیم، روابط طبقه بندی، روابط غیرطبقهبندی، اصول بدیهی.
در بحث استخراج اطلاعات که دانش به صورت اتوماتیک از متن استخراج میشود. ما معتقدیم که توانایی کشف کامل دانش ارایه شده در پیکره بزرگ، غیرساخت یافته و ناهمگن، نیاز به یک پردازش آموزشی طولانی مدت دارد. در این میان سیستمهایی مانند Alice – یک عامل آموزشی بلندمدت با هدف کشف خودکار مجموعه مفاهیم و واقعیتها و تعمیم که موضوع خاصی را مستقیماً از متون وب توضیح میدهد- وجود دارند که از روشهای بدون ناظر برای استخراج دانش استفاده میکند. [2]
مورد
۲. کارهای مرتبط
با مطالعه کارهای انجام شده در زمینه هستان شناسی درمییابیم که: 1) یک متدولوژی جزیی که فرآیند یادگیری هستان شناسی از متون را راهنمایی کند، وجود ندارد. 2) سیستم کاملاً خودکار برای یادگیری هستان شناسی و نیازمندهایی که کاربر در استخراج مفاهیم و روابط از پیکره حاشیه نویسی شده، دارد وجود ندارد. 3) نیاز به یک رویکرد عمومی برای ارزیابی دقت یادگیری هستان شناسی و مقایسه نتایج تولید شده توسط سیستمهای مختلف وجود ندارد.
در پژوهشی که توسط Ding and Foo در سال 2002 انجام شد و دوازده پروژه بزرگ یادگیری هستان شناسی مطالعه شده بود، دستاوردها حاکی از این بودند که: 1) داده ورودی اکثراً ساختیافته بودند و یادگیری از متون آزاد در حیطه تحقیقات باقی مانده است. 2) کشف روابط خیلی پیچیده است و برای حل مشکل بسیار پیچیدهای است و به عنوان یک مانع باقی مانده است. 3) تکنیکهای کشف مفاهیم در سطوح خاصی از رشد باقی مانده است.[6]
با نگاهی دقیقتر به پژوهش های انجام شده متوجه میشویم که یادگیری هستان شناسی به صورت کاملاً خودکار غیرممکن است. از طرفی دیگر، کشف روابط بین مفاهیم، بخصوص روابط جزیی، نیاز به کار بیشتری دارد.
تکنیکهای یادگیری هستانشناسی که در حال حاضر وجود دارد را به صورت خلاصه میتوان به شرح زیر توضیح داد.
بازیابی اطلاعات الگوریتمهای مختلفی برای تحلیل اجتماعی بین مفاهیم و مفاهیم با استفاده از بردارها، ماتریسها و تئوریهای احتمالات فراهم کرده است. از سوی دیگر، یادگیری ماشین و داده کاوی، یادگیری ماشین با قابلیت استخراج قوانین و الگوها از پایگاه داده های حجیم به روشهای نظارتی و بدون ناظر را ایجاد کرده است. پردازش زبان طبیعی ابزارهایی برای تحلیل متون زبان طبیعی در سطوح مختلف زبانی (مانند ریختشناسی، نحو، معنا و...) برای یافتن نمایش مفاهیم و روابط آنها ایجاد کرده است. نمایش دانش و استنتاج اجزای هستان شناسانه را قادر میکنند به صورتی نمایش داده شوند و مشخص شوند که دانش جدید بتواند استنباط شود.
در کل، تکنیکهای مختلف میتوان به چهار دسته تقسیم کرد: مبتنی بر آمار، مبتنی بر زباشناسی، مبتنی بر منطق و ترکیبی.
1) تکنیکهای مبتنی بر آمار: این تکنیکها از بازیابی اطلاعات، یادگیری ماشین و داده کاوی نشأت گرفتهاند. تکنیکهای رده بندی، تحلیل معنایی نهفته، تحلیل وقوع همزمان، استنتاج عبارات، تحلیل تباین و کاویدن قوانین اجتماع از این دسته هستند. ایده اصلی آن این است که وقوع همزمان واحدهای واژگانی در نمونهها یک تخمین قابل اعتماد درباره هویت معناییشان ایجاد میکند تا بتوانیم موجودیتهای سطح بالاتر تولید کنیم.
2) تکنیکهای مبتنی بر زبانشناسی: در تمام زمینه های یادگیری هستان شناسی کاربرد دارد بخصوص در ابزارهای پردازش زبان طبیعی. برخی از این تکنیکها عبارتند از: برچسب زن مقوله نحوی، تجزیه کننده جملات، تحلیل ساختار نحوی و تحلیل وابستگی.
3) تکنیکها و منابع مبتنی بر منطق: این تکنیکها خیلی رایج نیستند و معمولاً برای کاربردهای خیلی پیچیده مانند روابط و مفاهیم بدیهی کاربرد دارند. تکنیکهای مبتنی بر منطق با پیشروی در نمایش دانش و استنتاج و یادگیری ماشین، ارتباط دارد. تکنیکهای برنامه نویسی منطق استقرایی و استنباط منطقی از این دسته هستند.[1]
درانتها میتوان گفت که در این فاز از پروژه به بررسی و کسب شناخت اولیه در حیطه هستانشناسی و بررسی اجمالی از کارهایی که در این زمینه صورت گرفته، پرداختیم. در فازهای بعدی یکی از روشهای موجود در این حوزه بررسی و انتخاب خواهد شد تا به مرحله پیاده سازی برسد.
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
[1] Wong, Wilson, Wei Liu, and Mohammed Bennamoun. "Ontology learning from text: A look back and into the future." ACM Computing Surveys (CSUR) 44.4 (2012): 20.
[2] Banko, Michele, and Oren Etzioni. "Strategies for lifelong knowledge extraction from the web." Proceedings of the 4th international conference on Knowledge capture. ACM, 2007.
[3] Carlson, Andrew, et al. "Toward an Architecture for Never-Ending Language Learning." AAAI. Vol. 5. 2010.
[4] Nakashole, Ndapandula T. "Automatic extraction of facts, relations, and entities for web-scale knowledge base population." (2013).
[5]Shamsfard, Mehrnoush, and Ahmad Abdollahzadeh Barforoush. "Learning ontologies from natural language texts." International journal of human-computer studies 60.1 (2004): 17-63.
[6]Ding, Ying, and Schubert Foo. "Ontology research and development. Part 1-a review of ontology generation." Journal of information science 28.2 (2002): 123-136.
[7]Ding, Zhongli, and Yun Peng. "A probabilistic extension to ontology language OWL." System Sciences, 2004. Proceedings of the 37th Annual Hawaii international conference on. IEEE, 2004.
[8]Maedche, Alexander, and Steffen Staab. "Ontology learning for the semantic web." IEEE Intelligent systems 16.2 (2001): 72-79.