موجودیت‌های نام‌دار در زبان به مجموعه‌ای از اسامی مانند نام افراد، سازمان‌ها، مکان‌ها، و... می‌باشد. شناسایی موجودیت‌های نام‌دار در متن مسئله پیدا کردن این موجودیت‌ها از متن خام و همچنین شناسایی نوع موجودیت است.

برای مثال:
آدولف بورن، طراح، کاریکاتوریست و نقاش در شهر بودجویس از جمهوری چک به دنیا آمد.

آدولف B-PERSON

بورن I-PERSON

،

کاریکاتوریست

و

نقاش

در

شهر

بودجویس B-LOCATION

از

جمهوری B-LOCATION

چک I-LOCATION

به

دنیا

آمد

.

در این پژوهش روش‌های تضحیص خودکار موجودیت‌های نام‌دار در متن معرفی شده و یکی از آن‌ها برای زبان فارسی پیاده‌سازی و آزمایش خواهد شد.

۱. مقدمه

بسم الله ا لرحمن الرحیم

شناسایی موجودیتهای نامدار در پردازش زبان طبیعی به عملیاتی گفته میشود که در طی آن کلیه ی اسامی خاص موجود در متن و متعلق به مقوله های معنایی مختلف،شناسایی و استخراج میگردند و تحت کلاس های از پیش تعریف شده ای مانند اسم افراد ،سازمان ها ،مکان ها و ...
دسته بندی می شوند. در واقع مساله تشخیص موجودیت های نامدار در متن عموما به دو زیر مساله تشخیص و دسته بندی موجودیت ها تقسیم می شود .اسامی خاصی که تشخیص داده میشوند و همچنین قالبی که برای دسته بندی آنها به کار میرود وابسته به
نوع کاربرد آن خواهد بود. در سامانه های تشخیص موجودیتهای اسمی بیشتر روی پیدا نمودن اسامی
اشخاص، مکانها و سازمانهایی که در یک متن معمولی خبری ذکر شده است تمرکز میشود.
هدف ما معرفی روش های تشخیص خودکار موجودیت های نامدار در متن و پیاده سازی یکی از آن روش ها برای زبان فارسی است.

۲. کارهای مرتبط

به نظر می رسد بهترین روش برای حل این مساله استفاده از روش های آماری باشد . این روشها غالباً به عنوان روشهای اصلی جهت تشخیص اسامی خاص شناخته میشوند و سایر روشها به عنوان مکمل در کنار آن مورد استفاده قرار میگیرند.
خیلی از مسائل در پردازش زبان های طبیعی را میتوان به صورت مساله های پردازش طبیعی زبان بیان کرد، یعنی بیان احتمال وقوع حالت "الف" با محتوای "ب" که در مساله ما محتوا کلمات یا عبارات هستند .
در این روش ابتدا سامانه به وسیله ی پیکره ای از داده های آموزشی که به صورت دستی و به وسیله ی انسان
برچسبگذاری شده اند آموزش دیده، با یادگیری از طریق این داده ها به تشخیص خودکار اسامی خاص در متن
میپردازد.
برای برچسبزنی داده ی آموزشی از روش برچسبزنی شروع-داخل- خارج استفاده میشود. در این روش، برای تشخیص موجودیتهای اسمی، کلمات متن را تک تک برچسبزنی مینماییم
به این صورت که همزمان با برچسبزنی هم متن را بر اساس کلمات قطعه بندی نموده و هم با برچسبزنی عبارات موجودیت اسمی را مشخص مینماییم.
برای این کار روش های مختلفی چون مدل پنهان مارکوف ،بیشینه بهم ریختگی و ... وجود دارد که سعی ما بر استفاده از حالت بیشینه بهم ریختگی خواهد بود.
از پیکره مقالات همشهری به عنوان داده آموزشی استفاده خواهد شد.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

۶. پیوندهای مفید

محسن ایمانی

تشخیص موجودیت‌های نام‌دار در متن، با روش‌هایی غیر از روش‌های آماری هم قابل انجام است که لازم آن شما آن‌ها را هم معرفی نمایید. ضمنا در رویکرد آماری و رده‌بندی هم مدل‌های زیاد به همراه مجموعه ویژگی‌های مختلفی وجود دارند که شما اشاره‌ای به هیچ کدام از آن‌ها نکرده‌اید. در واقع شما در این فاز کار مرتبطی را ارائه نکردید.

بهتر بود برای نحوه برچسب زنی شروع - داخل - خارج یک مثال را بیان می‌کردید. همچنین اصطلاحاتی مثل هبرچسب‌زنی شروع- داخل - خارج و یا مدل بهم ریختگی بیشینه (Maximum Entropy Model) استفاده از معادل های فارسی آن بسیار خوب بود اما بهتر است معادل انگلیسی آن را هم در پانوشت بیاورید.

در مورد مراجع و لینک‌های مفید نوشته شما مرتب نیست.

همچنین می‌توانستید مراجع بیشتر و بهتری را برای این پروژه پیدا کرده و معرفی کنید.