تشخیص افعال مرکب

فعل مرکب فعلی است که از دو یا چند کلمه ساخته شده است و این کلمات روی هم رفته، نقش یک فعل را بازی می‌کنند و با هم به عنوان یک واحد واژگانی در واژگان اهل زبان ذخیره می‌شوند.
مثلا: بعضی از فروشندگان برای افزایش وزن به مرغ‌ها آب می‌زنند.
هدف از این پروژه ارائه روشی برای تشخیص خودکار افعال مرکب در زبان فارسی می‌باشد.

مقدمه

امروزه استفاده از نرم افزارهای پردازش زبان طبیعی به طور گسترده ای در حال پیشرفت بوده و گسترش روز افزون آن ها باعث شده در بسیاری از حیطه ها بدون وجود این گونه نرم افزارها روند عادی کار ما دچار خلل شود .
انواع مختلفی از این گونه برنامه ها عبارتند از : غلط یاب های نحوی، مدلسازی معنایی، استخراج اطلاعات، ترجمه گر های ماشینی و همچین پردازشگرهایی که به طور طبیعی به وسیله ی صدا با کاربر تعامل می کنند مثل پردازشگرهای فرمان های صوتی در اکثر تلفن های هوشمند .
در پردازشگرهای صوتی روند کلی در تصویر زیر نشان داده شده :

روند کلی پردازشگر صوتی

روند کلی پردازشگر صوتی

اما در اینجا ما با پردازشگری مبتنی بر متن ارتباط خواهیم داشت ،
در تمامی سیستم های پردازش زبان طبیعی مبتنی بر متن یکی از مراحل اولیه و تاثیرگذار، تشخیص ( اجزای کلام ) یا (Part of Speech (POS
در جمله می باشد . این اجزای کلام در واقع همان نقش های دستوری می باشد که اجزای جمله آن را تشکیل می دهند .
به طور مثال در زبان انگلیسی صورت زیر را داریم :

POS در انگلیسی

در زبان فارسی به طور کلی گروه های زیر در جمله موجود می باشد :
گروه ها در زبان فارسی

تجزیه یک جمله در زبان فارسی با استفاده از درخت تجزیه :
توضیح تصویر

در تعیین اجزای کلام تشخیص فعل مهمترین و تاثیرگذارترین بخش انجام کار است .
هچنین در میان نقشهای دستوری، فعل بیشترین حالت صرفی را در مقایسه با سایرین به خود میگیرد.
فارغ از دنیای نرم افزار و در حوزه ادبیات فارسی، مساله تشخیص فعل در جمله دارای پیچ و خم ها و نکات ظریفی است که گاهی بین ادبدانان اختلاف نظر در تشخیص فعل به وجود میآورد .
از دیدگاه ادبیات فارسی فعل در 6 ساختار شناسایی شده است .

  1. فعل های ساده

  2. فعل های پیشوندی

  3. فعل های مرکب

  4. فعل های پیشوندی مرکب

  5. عبارت های فعلی

  6. فعل های لازم یک شخصه

در اینجا تمرکز بر روی صورت ظاهری یا مدل صرف افعال است ، که این صورت ظاهری، در نتیجه کار در حوزه ادبیات استخراج
و ارایه میشود .

کارهای مرتبط

در اینجا دسته بندی 6 گانه ی افعال را به دو دسته ی کلی ( افعال ساده ) و ( افعال مرکب ) تقسیم بندی می کنیم و مطالعات را بر روی این دو دسته انجام خواهیم داد .

  • افعال ساده : شامل یک ( ریشه فعل ) هستند که با کمک افعال کمکی و پیشوندها و پسوندها صرف میشود.

  • افعال مرکب : شامل یک ( ریشه فعل ) و یک ( بخش ثابت فعل ) هستند که صرف نمیشود و همیشه ثابت است . این بخش ثابت ممکن است شامل یک یا چند کلمه دیگر باشد . ممکن است بین بخشهای فعل فاصله باشد یا ترتیب بخشها عوض می شود .

برای تشخیص افعال و نقش کلمه به طور کلی از دو مفهوم استفاده می شود که شناسایی آن ها در زیر آمده است .
ریخت شناسی
که به ساختارهای کلمات و ریشه یابی واژگان می پردازد . به بیانی دیگر ریخت شناسی به علم شناختن اجزای معنی دار یک واژه گویند که آن واژه را میسازد . به این اجزای تک واژ گویند . ( morpheme )
به طور کلی دو طریق برای گسترش واژه ها وجود خواهد داشت .
روش اول تصریف ( inflection ) می باشد . در این روش از ترکیب یک واژه با اجزای دستوری دیگر ، واژه ای از نوع واژه ی اول ایجاد می کند ، این روش گسترش به ما ایم امکان را می دهد که با شناختن تعدادی از تک واژ ها و کلمات بتوانیم رده ی خیل زیادی از کلمات ترکیبی را نیز تشخیص دهیم
به طور مثال :
نشانه جمع فارسی ( ان ) زمانی که به یک اسم مثل درخت اضافه شود واژه ی درختان به وجود می آید که همانند درخت اسم بوده و نوع دستوری مشابه ی دارد .
روش دوم روش اشتقاق است . در اشتقاق با افزودن یک جز دستوری به یک واژه، یک واژه در رده جدیدی به وجود میآید .
یکی از متدوال ترین گونه های ریخت شناسی استفاده از ریخت شناسی حالت متناهی است . در این روش تعریف الگو بر اساس عبارات منظم انجام می شود و پیاده سازی آن بر اساس مدل ماشین متناهی صورت می گیرد .
برای انجام ریخت شناسی در زبان های مختلف نرم افزار هایی ارایه شده از جمله نرم افزار xerox اما به دلیل جهانی بودن کارایی پایینی دارند .
ارایه توصیفی جامع از ساختارهای زبان فارسی ( در این پروژه برای انواع افعال مرکب ) که بتوان از آن در برنامه های رایانه ای استفاده کرد ( مبتنی بر حالت متناهی یا همان DFA ) اولین و اساسی ترین گام در انجام این پروژه می باشد .
الگوریتم porter :
همچنین استفاده از الگوریتم هایی که بتواند ریشه ی کلمات را تشخیص دهد نیز در یافتن افعال بسیار کمک خواهد کرد ُ در زبان انگلیسی الگوریتمی برای یافتن ریشه کلمات وجود دارد که به الگوریتم porter شهرت دارد . این الگوریتم با استفاده از یک ساختار تصمیم گیری و همچین تشخیص وند ها و کاستن و اضافه کردن آن ها سعی در یافتن ریشه ی کلمات دارد ُ از این الگوریتم به طور گسترده در موتور های جست و جو برای بهبود نتایج نمایش داده شده استفاده می شود .
مثالی از روند کار این الگوریتم را از اینجا مشاهده کنید .
مثالی دیگر :
"alumnus" → "alumnu", "alumni" → "alumni", "alumna"/"alumnae" → "alumna"
با توجه به اینکه در فارسی مرز کلمات به طور دقیق مشخص نیست و بسیاری از کلمات دو بخشی بوده و جدا نوشته می شوند استفاده از این الگوریتم ها چندان کارا نیست.
استفاده از روش های بدون پایگاه داده
در این گونه الگوریتم ها قوانین ریخت شناسی مبتنی بر زبان و DFA نبوده و از پردازش حجم زیادی از متون به دست می آید که ذاتا دقیق نیست و عموما برای گسترش و غنی کردن پایگاه داده کاربرد دارد .

برچسب گذاری
در اینجا به کلمات تشکیل دهنده ی یک متن یک برچسب که حاوی نقش کلمات در جمله است نسبت داده می شود .
در تشخیص فعل ما نیازمند جداسازی وند و ریشه و ... هستیم که این امر باعث می شود ریخت شناسی حالت متناهی و استفاده از قوانین ماشین و اریه الگو های تشخیصی ما را در این کار یاری دهد .

تحقیقات

همان طور که پیش تر شرح داده شده برای تشخیص افعال مرکب ابتدا باید فعل بودن یک واژه مشخص گردد ، در واقع جمله باید تحلیل صرفی گردد سپس با استفاده از الگوهای مشخص نوع فعل مشخص گردد .
برای پیاده سازی در ابتدا نیاز به پایگاه داده ای پویا به منظور ذخیره ی دادگانی برای پیاده سازی مدل های صرفی نیاز است .
پایگاه داده ی پویا ، پایگاه داده با قابلیت اضافه شدن داده جدید طبق قانون گذاری ها و محدودیت های اعمال شده می باشد به این گونه که لیستی از واژگان زبان فارسی تهیه شده و به دو بخش کلی واژگان و افعال بخش بندی خواهد شد . این داده ها برای تشخیص نقش واژگان در جمله استفاده می شود .
اولین و مهم ترین داده مرجعی از بن های افعال می باشد ، با استفاده از این دادگان می توان الگوهایی مبنی بر بن فعل برای تشخیص فعل و نوع آن ارائه داد .
نمونه ای از ایک پایگاه داده مورد استفاده برای تشخیص فعل به شکل زیر است :
بن ماضی#بن مضارع
ایستاد#ایست
باخت#باز
بخشید#بخش
بدون وجود این بن ها تشخیص فعل در فارسی عملا ممکن نیست .
از آنجا که در برنامه های پردازشگر زبان طبیعی هدف تنها تشخیص فعل نیست دادگان دیگری برای تشخیص واژگان مورد استفاده قرار خواهد گرفت تا بتوان ضمایر ، حروف ربط ، کلمات پرسشی و و دیگر نشانه ها را تشخیص داد و نوع کلمات را مشخص کرد .
این پایگاه داده معمولا بسیار بزرگ بوده و کارایی و دقت پردازشگر را تحت تاثیر مستقیم قرار خواهد داد .
به طور مثال نمونه از یک پایگاه داده کلمه ای استفاده شده در یک پردازشگر زبان فارسی :
آب‌پز
آب‌چکان
آب‌ژاول
آب‌کردن
آب‌کردنی
آب‌کشی
آب‌کشیده
...
همان طور که می توان دریافت تلاش شده تمامی کلمات زبان فارسی پوشش داده شود تا بتوان بهترین نتیجه را حاصل کرد .
حال با این دادگان شرح داده شده امکان تعریف الگو و تحلیل صرفی برای ما فراهم می شود ، با مقایسه ی دادگان اول و دوم می توان کلماتی که بن فعلی در آن ها استفاده شده استخراج کرد و با مقایسه با الگو هایی که ارائه خواهد شد نوع فعل ، زمان و دیگر ویژگی ها را تشخیص داد .

مرحله ی اول تکه کردن جمله به واژه ها یا tokenize کردن می باشد . در این مرحله جمله به واژگان تشکیل دهنده اش تکه می شود .

tokenizer.tokenize('این جمله (خیلی) پیچیده نیست!!!')
['این', 'جمله', '(', 'خیلی', ')', 'پیچیده', 'نیست', '!!!']

جداسازی دقیق واژگان و همچنین تشخیص علایم یا punctuation بسیار مهم است زیرا اولین و مهم ترین بخش کار را تشکیل خواهد داد .
این بخش مشکلی کوچک خواهد داشت آن این که در زبان فارسی افعال دارای پیش وند و پس وند هایی می باشند ، پس این ها نباید جدا شوند برای مثال فعل "خواهند رفت " نباید به شکل "خواهند"،"رفت" تکه شود .
برای مثال چند نمونه از پیش وند ها و پس وند ها به شکل زیر است :

self.after_verbs = set([
            'ام', 'ای', 'است', 'ایم', 'اید', 'اند', 'بودم', 'بودی', 'بود')]
self.before_verbs = set([
            'خواهم', 'خواهی', 'خواهد', 'خواهیم', 'خواهید', 'خواهند')]

تا به اینجا جمله ی ورودی به بخش های واحدی تجزیه شد ، این بخش ها باید به گونه ای باشند که نقش ( POS ) بگیرند .
حال پس از آنکه جمله به کلمات تشکیل دهنده تکه شد نوبت به پردازش تکه ها (token) می رسد .
لازم به ذکر است برای تشخیص افعال در زبان فارسی راه های غیر دقیق زیادی وجود دارد .
به طور مثال :
در زبان فارسی افعال معمولا در انتهای جمله ظاهر می شوند یعنی درست قبل از علایم پایان جمله ، اما این راه دقیقی برای تشخیص نیست ، در اینجا تلاش شده راه های دقیق مورد بررسی قرار گیرد .
برای پردازش تکه ها باید آن ها را با الگو هایی مقایسه کرد اما پیش از آن که به بررسی الگو ها بپردازیم اندکی درباره ی ریشه یابی کلمات (stemmer ) شرح داده می شود .
ریشه یاب ها به منظور تشخیص بخش اصلی کلمه به کار رفته و پس وندها و پیش وندها را تشخیص داده از اصل کلمه حذف می کنند ، این کار باعث کاهش حجم دادگان واژه ها شده و کار پردازش را ساده خواهد کرد.
پس وند ها :

self.ends = ['ات', 'ان', 'ترین', 'تر', 'م', 'ت', 'ش', 'یی', 'ی', 'ها', 'ٔ', '‌ا', '‌']

برای مثال نمونه ای از یک ریشه یاب :

 stemmer.stem('کتابی')
'کتاب'
 stemmer.stem('کتاب‌ها')
'کتاب'
 stemmer.stem('کتاب‌هایی')
'کتاب'
 stemmer.stem('کتابهایشان')
'کتاب'
 stemmer.stem('اندیشه‌اش')
'اندیشه'

حال باید واژه ها نقش گذاری شده سپس فعل مرکب تشخیص داده شود .
برای اینکار باید جمله را به عبارت های اسمی ، فعلی و .. تجزیه کرد حال اگر در بخش عبارت فعلی الگوی زیر وجود داشت فعل مرکب تشخیص داده می شود .
{اسم + ( عبارتی شامل بن که بدنه ی اصلی فعل است ) } = عبارت فعلی
این کار به شکل زیر صورت می گیرد :

([('نامه', 'Ne'), ('ایشان', 'PRO'), ('را', 'POSTP'), ('دریافت', 'N'), ('داشتم', 'V'), ('.', 'PUNC')]))

عبارت های فعلی و اسمی به تفکیک :

'[نامه ایشان NP] [را POSTP] [دریافت داشتم VP] .'

برای تشخیص ای افعال به ماشین ها حالت متناهی نیاز داریم تا با توجه به گرامرهای تعریف شده فعل و انواع آن مشخص گردد .
چند مورد از الگوهای موجدو برای تشخیص فعل :
بن ماضی + م|ی|یم|ید|ند| ماضی ساده
بن ماضی -> G
پس وندها -> post
نمونه ی DFA ماضی ساده :

s->AB
A->[G]
B->[post]

الگوی ماضی استمراری :
می + بن ماضی + یم |ید|ند|م|ی

s->(mi)AB
A->[G]
B->[post2] 

الگوی ماضی بعید :
بن ماضی + ه + بود + (یم|ید|ند|م|ی)

s->[G]'h'(bod)B
B->[post2]

تعریف این DFA ها برای تمامی افعال فارسی صورت می پذیرد ، پس از آن با استفاده از دادگان بن ها و واژگان و استفاده از الگوها ، عبارت فعلی یا همان VP تشخیص داده می شود و اگر ساختار به صورت" اسم + فعل " باشد ، این عبارت فعل مرکب است .
دقت و بهبود عملکرد به دادگان و الگو های دقیق وابسته بوده و بسیار حائز اهمیت است .
باید توجه داشت افعال منفی نیز جزئی از افعال بوده پس در تعریف ماشین باید دسته ی جداگانه از گرامر را شامل شوند .

ماضی مستمر مجهول منفی :
بن ماضی + ه + نمی شد + (یم|ید|ند|م|ی)

s->[G]'h'(nemi)(shod)B
B->[post2]

با این روش فعل ، نوع زمان و تمامی ویژگی ها تشخیص داده شده و می توان از آن در کاربرد های زیادی از جمله انواع ویرایشگرها و ... استفاده کرد .
لازم به ذکر است در زبان فارسی کتابخانه برای پیاده سازی پردازش زبان طبیعی با نام هضم تحت زبان پایتون وجود دارد که پیاده سازی و پردازش را ساده و بسیار کارا خواهد کرد .

کارهای آینده

ارئه مدل های بهبود یافته برای تشخیص .

مراجع

بررسی راهکارهای ماشین تشخیص هوشمند افعال مرکب در زبان فارسی ( علم وصنعت )
پردازشگر فارسی هضم
ساختواژه حالت-متناهی ( روشی مناسب برای طراحی پردازشگر ساختواژی ) دفتری نژاد,
کتابخانه هضم

لینک‌های مفید

محسن رحیمی

نکته‌ی مهم : ابتدا به پروژه‌ی شما نمره‌ی بالاتری داده بودم پس از آن‌که مشاهده کردم مطالبی که نوشته‌اید دقیقا مشابه لینک اول از لینک‌های مفید است از شما نمره کسر کردم. در صورت تکرار در فازهای بعدی نمره‌ی صفر در نظر گرفته خواهد شد.
خسته نباشید عرض می‌کنم خدمت شما تشکر می‌کنم بابت پژوهش‌نامه‌تان.
نکات زیر رو حتماً در فازهای بعدی در نظر بگیرید تا شاهد یک پژوهش‌نامه‌ی خوب از شما باشیم
۱- نکات نگارشی و املایی رو رعایت کنید. (غلط‌های املایی، رعایت نیم‌فاصله، جمله‌های غیرمبهم و ...)
۲- توجه کنید که پژوهش‌نامه‌ی شما قرار است یک متن علمی باشد آوردن لینک در متن علمی کار اشتباهی است آن هم به صورتی که شما آورده‌اید. اگر لینکی به نظرتان با پروژه‌ی شما مرتبط است آن را در قسمت لینک‌های مفید قرار دهید.
۳- استفاده از جملات فارسی و معادل‌های فارسی کلمات و آوردن لاتین آنها نیز از نکات مهمی است که رعایت نکرده‌اید.
۴- چرا مراجع شما خالی است!!! مگر قرار نبود کارهای مرتبط رو از مقالات مطالعه کنید و ارجاع به آنها رو در متن قرار بدهید. این نکته رو نیز حتماْ اصلاح کنید.
۵- از راهنمای مرتب‌نویسی استفاده کنید تا متن زیباتر و خوانا‌تری داشته باشید.
۶- بخش پردازش صوت ربطی به کار شما ندارد و بی‌جهت در مقدمه آمده است. مقدمه باید ساده و قابل‌فهم توسط هر کسی باشد.
۷- معیارهای دیگری نیز برای تشخیص افعال مرکب در زبان فارسی وجود دارد که شما آنها را شرح نداده‌اید و برای اینکه پژوهش‌نامه‌ی کاملی داشته باشید باید این مورد را در نظر بگیرید.
عدم ارجاع شما در قسمت کارهای مرتبط ارزیابی کار شما رو بسیار سخت کرده‌است. حتماْ برای فاز بعد اون رو اصلاح کنید.
در فاز بعدی از شما موارد زیر انتظار می‌رود:

  • معرفی دادگانی که قرار است کد را روی آن اجرا کنید.

  • معرفی دقیق‌تر روش و الگوریتمی که قرار است از آن استفاده کنید. (از لحاظ تئوری)

  • معرفی کتابخانه‌های مورد استفاده برای پیاده‌سازی و پیاده‌سازی مناسب با استفاده از آنها بر روی زبان فارسی

محسن رحیمی

با سلام و عرض خسته نباشید.
نکاتی که در فاز قبلی به شما تذکر داده شده‌بود را اصلاح نکرده‌اید. حتماً در فاز بعدی این موارد رو اصلاح کنید تا از نمره‌ی شما کسر نشود.(بسیار غلط املایی و نگارشی در متن شما وجود دارد)
نحوه‌ی ارجاع به مراجع شما اشتباه است. نمونه‌ی یک پژوهش‌نامه را حتما بخوانید.
کارهایی که در این فاز قرار بود انجام شود شامل معرفی داده و پیاده‌سازی کد بر روی آن را انجام ندادید در واقع کدی رو قرار نداده‌اید.
شما در این فاز فقط به ارائه‌ی توضیحاتی پرداخته‌اید که باید این کار را در فاز قبلی انجام می‌دادید.
پروژه‌ی شما یک پروژه‌ی تحقیقاتی تعریف نشده است به خاطر همین انتظار پیاده‌سازی از شما می‌رود.

رد شده

توضیحات و بحث تئوری در مورد موضوع در زبان فارسی خوب بود.
مواردی که من به نظرم میرسه اینه که اولا خب تعداد مراجع خیلی کمه اما خب با توجه به عنوان موضوع که خیلی خاصه نمیدونم میشه به این موضوع ایراد گرفت یا نه بنابرین نظری در موردش ندارم. اما نکته ای که هست اینه که به همین منابع هم تا جایی که بنده دیدم جایی ارجاع داده نشده یعنی اصلا معلوم نیست کدوم قسمت های متن مربوط به کدام مراجعه. نکته بعد این که معادل انگلیسی کلمات معمولا در آخر متن و با یک لینک در کنار کلمه فارسی گذاشته میشه.
در بقیه موارد توضیحات خوب و منظم بود. موفق باشید

رد شده

این پروژه به نحو احسن توضیح داده شده است
تصویر مربوط به : تجزیه یک جمله در زبان فارسی با استفاده از درخت تجزیه نشان داده نمی شود.
ریشه یاب ها مفهوم بسیار گسترده ای دارند ولی در این جا به یک مثال کوچک بسنده شده است.
معنی این جمله به درستی قابل درک نیست:لازم به ذکر است در زبان فارسی کتابخانه برای پیاده سازی پردازش زبان طبیعی با نام هضم تحت زبان پایتون وجود دارد که پیاده سازی و پردازش را ساده و بسیار کارا خواهد کرد .

محسن رحیمی

تغییری نسبت به فاز قبل مشاهده نشد.
با ارزوی موفقیت برای شما