موجودیتهای نامدار در زبان به مجموعهای از اسامی مانند نام افراد، سازمانها، مکانها، و... میباشد. شناسایی موجودیتهای نامدار در متن مسئله پیدا کردن این موجودیتها از متن خام و همچنین شناسایی نوع موجودیت است.
برای مثال:
آدولف بورن، طراح، کاریکاتوریست و نقاش در شهر بودجویس از جمهوری چک به دنیا آمد.
آدولف B-PERSON
بورن I-PERSON
،
کاریکاتوریست
و
نقاش
در
شهر
بودجویس B-LOCATION
از
جمهوری B-LOCATION
چک I-LOCATION
به
دنیا
آمد
.
در این پژوهش روشهای تضحیص خودکار موجودیتهای نامدار در متن معرفی شده و یکی از آنها برای زبان فارسی پیادهسازی و آزمایش خواهد شد.
۱. مقدمه
بسم الله ا لرحمن الرحیم
شناسایی موجودیتهای نامدار در پردازش زبان طبیعی به عملیاتی گفته میشود که در طی آن کلیه ی اسامی خاص موجود در متن و متعلق به مقوله های معنایی مختلف،شناسایی و استخراج میگردند و تحت کلاس های از پیش تعریف شده ای مانند اسم افراد ،سازمان ها ،مکان ها و ...
دسته بندی می شوند. در واقع مساله تشخیص موجودیت های نامدار در متن عموما به دو زیر مساله تشخیص و دسته بندی موجودیت ها تقسیم می شود .اسامی خاصی که تشخیص داده میشوند و همچنین قالبی که برای دسته بندی آنها به کار میرود وابسته به
نوع کاربرد آن خواهد بود. در سامانه های تشخیص موجودیتهای اسمی بیشتر روی پیدا نمودن اسامی
اشخاص، مکانها و سازمانهایی که در یک متن معمولی خبری ذکر شده است تمرکز میشود.
هدف ما معرفی روش های تشخیص خودکار موجودیت های نامدار در متن و پیاده سازی یکی از آن روش ها برای زبان فارسی است.
۲. کارهای مرتبط
به نظر می رسد بهترین روش برای حل این مساله استفاده از روش های آماری باشد . این روشها غالباً به عنوان روشهای اصلی جهت تشخیص اسامی خاص شناخته میشوند و سایر روشها به عنوان مکمل در کنار آن مورد استفاده قرار میگیرند.
خیلی از مسائل در پردازش زبان های طبیعی را میتوان به صورت مساله های پردازش طبیعی زبان بیان کرد، یعنی بیان احتمال وقوع حالت "الف" با محتوای "ب" که در مساله ما محتوا کلمات یا عبارات هستند .
در این روش ابتدا سامانه به وسیله ی پیکره ای از داده های آموزشی که به صورت دستی و به وسیله ی انسان
برچسبگذاری شده اند آموزش دیده، با یادگیری از طریق این داده ها به تشخیص خودکار اسامی خاص در متن
میپردازد.
برای برچسبزنی داده ی آموزشی از روش برچسبزنی شروع-داخل- خارج استفاده میشود. در این روش، برای تشخیص موجودیتهای اسمی، کلمات متن را تک تک برچسبزنی مینماییم
به این صورت که همزمان با برچسبزنی هم متن را بر اساس کلمات قطعه بندی نموده و هم با برچسبزنی عبارات موجودیت اسمی را مشخص مینماییم.
برای این کار روش های مختلفی چون مدل پنهان مارکوف ،بیشینه بهم ریختگی و ... وجود دارد که سعی ما بر استفاده از حالت بیشینه بهم ریختگی خواهد بود.
از پیکره مقالات همشهری به عنوان داده آموزشی استفاده خواهد شد.
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
Jurafsky, Daniel, and James H. Martin. 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall.
Nadeau, David, and Satoshi Sekine. "A survey of named entity recognition and classification." Lingvisticae Investigationes 30.1 (2007): 3-26.
M. Asgari Bidhendi, et al., "Extracting person names from ancient Islamic Arabic texts", in Proceedings of LREC-Rel, pp. 1-6, 2012.
پونه سادات مرتضوی، مهرنوش شمس فرد، "شناسایی موجودیت های نام دار در متون فارسی"، پانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران، 1388
Stanford Named Entity Recognizer(NER)
+http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
+http://techdigest.jhuapl.edu/TD/td3001/McNamee.pdf
+https://homes.cs.washington.edu/~mausam/papers/emnlp11.pdf
+http://en.wikipedia.org/wiki/Named-entity_recognition
+[Introducing the tasks:
Getting simple structured
information out of text
]http://www.stanford.edu/class/cs124/lec/Information_Extraction_and_Named_Entity_Recognition.pdf
+Design Challenges and Misconceptions in Named Entity Recognition,Lev Ratinov Dan Roth
Computer Science Department
University of Illinois
۶. پیوندهای مفید
تشخیص موجودیتهای نامدار، پروژه درس هوش مصنوعی نیمسال دوم ۸۹-۸۸ دانشگاه علم و صنعت
تشخیص موجودیتهای اسمی در متن، پروژه درس هوش مصنوعی نیمسال اول ۹۲-۹۱ دانشگاه علم و صنعت
Stanford Named Entity Recognizer(NER)
+http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
+http://techdigest.jhuapl.edu/TD/td3001/McNamee.pdf
+https://homes.cs.washington.edu/~mausam/papers/emnlp11.pdf
+http://en.wikipedia.org/wiki/Named-entity_recognition
+[Introducing the tasks:
Getting simple structured
information out of text
]http://www.stanford.edu/class/cs124/lec/Information_Extraction_and_Named_Entity_Recognition.pdf
+http://nlp.iust.ac.ir/downloads/articles/Extracting%20person%20names%20from%20ancient%20Islamic%20Arabic%20texts.pdf