یکی از خصوصیاتی که به عنوان ورودی در اکثر وظایف پردازش زبان طبیعی استفاده میشود، برچسب اجزای سخن است. برای این منظور یک مجموعه تگ (tagset) مانند شکل زیر انتخاب میشود و به هر واژه در متن یک برچسب اختصاص داده خواهد شد.
۱. مقدمه
یکی از کارهای اساسی در پردازش زبان طبیعی ، برچسب زنی اجزای گفتار می باشد . برچسب زنی ، تعیین مقوله های دستوری برای هر نماد در متن می باشد .
در برچسب زنی دو حوزه ساختواژه و نحو زبان برای تعیین مقوله های دستوری با یکدیگر تعمل دارند . تحلیل های ساخنواژی ، یکی از مسائل اصلی در تحلیل های رایانه ای متون فارسی است و پردازش متون رایانه ای فارسی را با مشکلاتی روبرو کرده است ، از جمله این مشکلات ، شناسایی واژه های ناشناخته در متن و مشکلات خط فارسی می باشد .
در این مقاله سعی بر این شده با بررسی تاریخی این عملیات در علم کامپیوتر ، انواع روشهای آن را به صورت اجمالی مورد بحث قرار داده و در انتها یکی از این روشهارا بر روی زبان فارسی پیاده سازی کنیم .
یادگیری ماشین برروی ترکیب های زبان انسان برای ابهام زدایی در شناخت کلمات یکی از زمینه های مورد علاقه ی کار محققان علوم کامپیوتر و هوش مصنوعی بوده که نظر آنها را بسیار به خود جلب کرده است ، یکی از کاربردها «جدا سازی خودکار اجزای سخن» است ؛
امیدوارم با بررسی روش های مرتبط و مقایسه آنها توانسته باشم مطلب را به خوبی در این مقاله انتقال بدهم .
۲. کارهای مرتبط
از جداسازکننده های موفق برای برچسب گذاری می توان به موارد زیر اشاره کرد :
MX-POST بر مبنای Maximum entropy
MBT جدا ساز حافظه محور
Brill's بر پایه یادگیری مبتنی بر تحول "Transformation-based Learning"
TBL
Trigram-Tagger یا همان TNT بر مبنای مدلهای پنهان مارکوف
Maximum LikeLihood Estimation (MLE)
تا امروز روشهای زیادی طراحی و پیاده سازی شده اند و بسیاری از آنها برای زبان انگلیسی و دیگر زبانها با سربلندی امتحان شده اند ، ولی تعداد زیادی برای زبان فارسی مورد آزمایش قرار نگرفته اند .
با این حال روش هایی مثل MLE , MBT امتحان شده اند که نتایجی با کیفیت کافی نداشته اند .
یکی از روش هایی که بر روی زبان فارسی موفق بوده روش HunPOS است که بر اساس پیاده سازی دوباره روش TNT ساخته شده و قابلیت تنظیمات مختلف برای زبانهای مختلف را به کاربر می دهد و برای زبان فارسی 96.9 % درست عمل می کند که بهترین نتیجه ی گذارش شده برای زبان فارسی تا به امروز است .
این برنامه به TNT بسیار شبیه است با این تفاوت که این روش احتمالات را بر اساس تگ حاضر و تگ قبلی براورد می کند .
یکی از توانایی هایی قوی که از روش TNT به ارث برده است این است که با توجه پسوند و پیشوند می تواند نقش کلمات را حدس بزند که برای کلماتی که دیده نشده اند کاربرد دارد .
پیکره بیژن خوان :
این پیکره مجموع ای از کلمات از قبل برچسب گذاری شده است که از 2.6 میلیون کلمه ی فارسی تگ شده تشکیل شده و در روش های برچسب گذاری بر اساس حافظه از آن استفاده بهینه ای می توان کرد .
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
Seraji, Mojgan. "A statistical part-of-speech tagger for Persian." Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. 2011. (دریافت مدل)