برای این کار میتوانید از الگوی مرتبهٔ ۲ یا bigram استفاده کنید و از الگوریتم Forward-Backward برای تخمین مقادیر احتمالی استفاده نمایید. مقادیر ممکن برای هر کلمه را به صورت واژهنامهای روی دادهٔ یادگیری تهیه کنید و با استفاده از همگرایی درستنمایی (likelihood) بر روی دادهٔ توسعه تکرار یادگیری را متوقف کنید. نتیجه نهایی از روی مقداردهی اولیه با توزیع یکنواخت بر روی دادهٔ آزمون پیکرهٔ دادگان گزارش شود. نتیجهٔ نهایی با حالتی که هر کلمه تنها یک برچسب اجزای سخن میگیرد و آن هم پرتکرارترین اجزای سخن آن کلمه است مقایسه شود.
پیشنیاز برای پیادهسازی:
تسلط بر مفهوم یادگیری بیناظر و الگوریتم EM
تسلط بر مفهوم برنامهسازی پویا (Dynamic programming)
تسلط بر HMM
تسلط بر الگوریتم Forward-Backward
مقالات مرتبط را میتوانید از این مقاله بیابید.