۱. مقدمه

چکیده

در این پروژه ابتدا به بیان شرح مسئله و کارهای مرتبط با خطایابی املایی می‌پردازیم و تکنیک‌ها و چالش‌های پیشرو را مورد بررسی قرار می‌دهیم. انواع الگوریتم‌ها و مدل‌سازی‌ها را بیان می‌کنیم و سپس توسط زبان برنامه‌نویسی پایتون به پیاده‌سازی می‌پردازیم. این خطایاب پس از خطایابی واژگان،سعی می‌کند پیشنهادهای صحیح را به کاربران ارائه دهد. مشکلات و چالش‌های پیشرو در زمینه‌ی پیشنهاددهی به کاربران مورد بررسی قرار خواهد گرفت و روش‌های مختلف پیاده‌سازی خواهد شد. سپس به ارزیابی سیستم خواهیم پرداخت و روش‌های موجود را با هم مقایسه خواهیم کرد.

مقدمه

مسئله‌ی پیدا کردن خطا‌های املایی توسط ماشین از جمله مسائل مورد بحث در پردازش زبان‌های طبیعی است. پس از به وجود آمدن علوم رایانه‌ای و مسائل هوش مصنوعی ، پردازش زبان‌های طبیعی مورد توجه بسیار قرار گرفت. به طور کلی پردازش زبان‌های طبیعی یکی از زیرشاخه‌های بااهمیت در حوزه گسترده هوش مصنوعی ، و نیز در دانش زبان‌شناسی است. تلاش عمده در این زمینه ماشینی کردن فرایند درک و برداشت مفاهیم بیان گردیده با یک زبان طبیعی انسانی توسط ماشین است. با فراگیر شدن پدیده اینترنت و گسترش متون الکترونیکی این علم اهمّیت ویژه‌ای پیدا کرده است که از جمله نتایج آن می‌توان به استخراج اطلاعاتی خاص از یک متن، ترجمه یک متن به زبانی دیگر، یافتن مستنداتی خاص در یک پایگاه داده نوشتاری ، سیستم های پرسش و پاسخ انسان با کامپیوتر، سرویس های اتوماتیک ارتباط با مشتری از طریق تلفن و سیستم های کنترلی توسط صدا اشاره کرد. همچنین پیاده‌سازی انواع خطایاب‌های املایی ، مترجمین هوشمند ماشینی، نرم افزارهای پردازش و تشخیص گفتار و نرم افزارهای تبدیل متن به صدا از جمله تلاش‌ها در این زمینه بوده است.

در رابطه با خطایابی املایی ، مسئله‌ی تشخیص خودکار و تصحیح خطاهای املایی موجود در انواع متن از دهه ی ۶۰ میلادی مطرح بوده است و تا به امروز نیز پیدا کردن الگوریتم ها ی بهینه برای این کار مورد توجه بوده است چراکه طبق آخرین بررسی‌ها در مجموع حدود ۲۶٪ از پرس و جو‌های وب شامل انواع غلط املایی می شوند. خطایاب‌های املایی در تصحیح و کمک به جستجوی سریع‌تر و دقیق‌تر در اینترنت، تصحیح خطاهای ناشی از تبدیل تصویر به متن،صرفه جویی در وقت و هزینه ، ابزارهای جانبی برای ویرایشگرهای متنی، ابزار پیش پردازنده در پردازش زبان‌های طبیعی ، واسط‌های بازیابی اطلاعات، تبدیل گفتار به متن و کامپیوترهای مبتنی بر قلم و … کاربرد‌های بسیاری دارند. همچنین امروزه حجم بسیار زیادی از اطلاعات و متون فارسـی توسـط رایانـه‌ها تولید میشوند. فرایند تولید و ورود اطلاعات، به ویژه متن، هیچ گاه عـاری از خطـا نبـوده و هزینه های بسیاری برای یافتن و برطرف ساختن این خطاها صرف میشود که این امر نیاز به خطایاب را بیشتر نمایان می کند.

۲. کارهای مرتبط

خطایاب املایی

به طور کلی خطایابی املایی شامل بررسی یک متن ، مشخص کردن کلمه یا کلمات اشتباه و تصحیح آن ها می شود. بعضی از خطایاب‌های امروزی به جای ارائه یک تصحیح، لیستی از پیشنهادات را برای کاربر نمایش می‌دهند. بعضی از خطایاب‌های قدیمی‌تر فقط کلمه‌ی شامل غلط املایی را مشخص می‌کنند و پیشنهادی برای املای صحیح ارائه نمی‌کنند چراکه عمل تصحیح، به مراتب پیچیده‌تر و نیازمند پردازش بیشتری است.

خطایاب‌ها برای پیدا کردن خطاها از الگو‌های مشخصی استفاده می‌کنند به طوریکه دسته بندی‌های مختلفی برای انواع خطاها وجود دارد و می‌توان توسط مدل سازی‌های مختلف زبان‌ها آنها را شناسایی کرد، که جلوتر به آنها می‌پردازیم.

انواع خطاهای املایی

خطاهای املایی را می توان به دسته‌های مختلفی تقسیم‌بندی کرد.

به طور کلی دو دسته‌ی :

۱) خطاهای غیر لغت ( Non-word Errors )

۲) خطاهای لغات واقعی ( Real-word Errors )

غیر لغات‌ها همانطور که از نام آنها پیداست کلماتی هستند که معنایی ندارند و در فرهنگ لغات وجود ندارند. معمولا عمل تصحیح آنها با اضافه یا کم کردن و یا با تغییر یک یا چند حرف انجام می شود. برای مثال اگر کاربر کلمه‌ی (فقث) را وارد کرده باشد می توان حدس زد که کلمه‌ی درست (فقط) می‌باشد.

خطاهای لغات واقعی خود شامل خطاهای تایپی(Typographical errors) ، خطاهای شناختی (Cognitive errors) و خطاهای آوایی (Phonetic) می‌شوند. در خطاهای لغات واقعی ممکن است کلمه‌ی نوشته شده از نظر املایی درست باشد و در فرهنگ لغات هم موجود باشد اما کاربرد آن در متن نوشته شده اشتباه باشد.

در خطاهای تایپی فرض بر این است که کاربر املای درست را می‌داند اما به دلایلی خطا انجام می‌دهد (برای مثال دیو به جای دیر و یا اسلام به جای سلام). خطاهای تایپی شامل خطاهای ناشی از‌عادات کاربر و یا نزدیکی نوشتاری حروف است.

در خطاهای شناختی کاربر تسلط کافی به زبان را ندارد و معنای کلمه‌ی درست با کلمه ی وارد شده متفاوت است (برای مثال غصه به جای قصه و یا توجیح به جای توجیه ).

خطاهای آوایی همانند خطاهای شناختی هستند با این تفاوت که کلمه‌ی خطا از لحاظ آوایی مشابه کلمه‌ی صحیح مورد نظر است (برای مثال اصلاح به جای اسلاح )

مورد

الگوی خطاهای اصلی :

در تحقیقاتی که در این زمینه انجام شده است مشخص شده که حدود ۸۰٪ از کل خطاهای املایی موجود در یک نوشتار شامل یکی از موارد زیر هستند [6] :

۱)خطای درج اضافی حرف : اضافه شدن یک یا چند حرف به کلمه‌ی درست.

۲)خطای حذف حرف : پاک شدن یک یا چند حرف از کلمه‌ی درست.

۳)خطای جانشینی : استفاده از یک حرف به جای حرفی دیگر .

۴)خطای جابجایی : جابجایی دو حرف با هم.

۵)خطای فاصله : چسبیدن دو کلمه درست بدون فاصله به هم.

خطایاب ها با کمک این الگو های خطا و مدل سازی زبان‌ها ، می توانند به خطایابی بپردازند.

تشخیص خطا

۱) تشخیص خطاهای غیر لغت :

استفاده از لغت نامه

ساده‌ترین و پراستفاده‌ترین روش برای تشخیص خطاهای غیر لغت ، استفاده از لغت نامه‌ها (Dictionaries) است. در این روش کلمات درست در یک لغت نامه ذخیره می شوند. سپس خطایاب تک تک کلمات وارد شده را در داخل لغت نامه جست‌و‌جو می کند و اگر همانند آن کلمه پیدا نشود ، خطایاب یک خطا را تشخیص داده است. بدین ترتیب هرچه لغت نامه بزرگ‌تر باشد ، بهتر است. اما در این روش مسئله‌ی زمان پاسخگویی و همچنین فضای ذخیره شده نکات مهمی هستند. معمولا تعداد کلمات لغت نامه ها حدود ۲۵۰ هزار لغات یا بیشتر می باشد. با بزرگتر شدن لغت نامه زمان پاسخگویی سیستم بسیار بالا می رود. همچنین به فضای ذخیره سازی زیادی نیاز خواهیم داشت. برای حل این مشکل روش‌های مختلفی مثل مراجعه به لغت نامه‌های کارا، تقسیم لغت نامه‌ها و روش‌های مبتنی بر پردازش ریخت‌شناسی وجود دارند.

بهینه سازی روش لغت نامه

برای مثال یک روش این است که فقط ریشه‌ی کلمات را ذخیره کنیم (ریشه‌یابی). در این روش توسط الگوریتم‌ها و مجموعه قوانین خاص هر زبان پیشوند‌ها و پسوند‌های کلمات را حذف می‌کنیم. به هنگام جست و جوی خطا نیز همین کار را بر روی کلماتی که کاربر وارد کرده انجام می‌دهیم وریشه‌های ایجاد شده را با ریشه های ذخیره شده در لغت نامه مقایسه می‌کنیم. بدین ترتیب فضای اشغال شده توسط لغت‌نامه کمتر شده و زمان پاسخ گویی نیز بسیار سریع تر می‌شود. مشکل این روش این است که ممکن است بعضی خطاها نادیده گرفته شوند چراکه امکان دارد کلمه‌ی وارد شده توسط کاربر ریشه‌ی درستی داشته باشد ولی به همراه پسوند یا پیشوند وارد شده ، حاوی غلط املایی باشد.

روش دیگر استفاده از تابع درهم (Hash Function) در ذخیره‌سازی است. در این روش برای هر کلمه‌ی لغت نامه یک آدرس درهم در نظر می‌گیریم. این آدرس با اعمال تابع درهم بر روی هر یک از حروف الفبا به دست می آید. برای مثال به حرف الف عدد ۱، ب عدد ۲ پ عدد ۳ و به همین ترتیب به تمام حروف یک عدد را نسبت می دهیم. سپس با استفاده از تابع درهم یعنی اعمال محاسبات ریاضی بر روی اعداد حروف هر کلمه ، به یک عدد برای هر کلمه می‌رسیم. بدین ترتیب به جای ذخیره‌ی هر کلمه ، این عدد را در حافظه ذخیره می‌کنیم. هنگامی که کاربر یک رشته‌ی ورودی را وارد می‌کند، آدرس درهم آن محاسبه می‌شود و با مراجعه به جدول درهم از پیش ساخته‌شده و دریافت کلمه‌ی ذخیره شده در آن مکان اگر کلمات یکی نبودند یا کلمه‌ای وجود نداشت، غلط املایی تشخیص داده می‌شود. این روش در واقع نگاشت بیت به بیت (BitMap) می باشد.

بدین ترتیب سرعت دسترسی به اطلاعات و زمان پاسخگویی بسیار سریع‌تر می‌شود. به دلیل خاصیت دسترسی مستقیم نیازی به مقایسه‌های زیادی نیست. همچنین فضای ذخیره‌سازی نیز کاهش می‌یابد. مهم‌ترین چالش در این روش داشتن تابع درهم مناسب است چراکه هر کلمه لازم است که آدرس منحصر به فردی داشته‌باشد. پیدا کردن تابع درهمی مناسب برای تولید این جدول درهم به گونه‌ای که کلمات تکراری تولید نکند و همچنین سریع بودن تابع مشکل اصلی این روش است. البته روش‌های مختلفی برای تولید چنین توابعی وجود دارد.

استفاده از تحلیل چند نگاشت (N-grams)

روش دیگر برای تشخیص خطاهای غیر لغت استفاده از تحلیل چند نگاشت است. چندنگاشت‌ها زیر دنباله‌های چند حرفی از رشته‌های کاراکتری هستند. برای مثال یک، دو، و یا سه حرفی. برای مثال، زیر نگاشت ۳ حرفی کلمه‌ی “آفتاب” شامل ‘آفت’ ، ‘فتا’ و ‘تاب’ ، می‌شود. دو روش کلی برای تحلیل چند نگاشت وجود دارد.

۱.
در یکی از این روش ها به طور غیر مستقیم از لغت نامه استفاده می‌کنیم بدین ترتیب که برای مثال ابتدا سه نگاشت‌های تمام کلمات لغت نامه را ذخیره می‌کنیم. حال هنگامی که کاربر رشته‌ای را وارد می‌کند چند نگاشت‌های آن نیز به همان روش قبلی ساخته می‌شوند و با چند نگاشت های لغت نامه مقایسه می شوند. عدم وجود آن ها در چند نگاشت‌های لغت نامه، مشخص کننده‌ی خطاهای احتمالی است.در این روش معمولاً به یک لغت نامه برای نگه داری از پیش جدول چندنگاشت‌ها نیاز است. در روش‌های مبتنی بر تحلیل چندنگاشت ممکن است تعداد قابل توجهی از خطاها تشخیص داده نشوند چراکه بسیاری از کلمات حاوی خطا، شامل چند نگاشت‌های غیرمعمول نمی‌شوند اما در تشخیص خطاهایی که توسط دستگاه‌های تشخیص نوری حروف (Optical Character Recognition) خطایابی می‌شوند ، خوب عمل می‌کنند.

۲.
در روش دیگر برای تحلیل چند نگاشت‌ها از لغت نامه استفاده نمی‌شود. همانند روش قبل ابتدا چند نگاشت‌های متن ورودی توسط کاربر مشخص می‌شوند اما این بار تعداد تکرار آن ها در متن اهمیت دارد. برای مثال سه نگاشت “پخز” که فقط یکبار در متن تکرار شده باشد،احتمال خطا بودن آن زیاد است. اما “هست” که بسیار بیشتر استفاده شده است احتمال خطا بودن آن ناچیز است. همانند روش قبل احتمال تشخیص ندادن خطا‌های عادی وجود دارد اما این روش در تشخیص خطاهای تایپی بسیار کارا عمل می‌کند.همچنین مزیت دیگر آن این است که برای هر زبانی می‌توان از این روش استفاده کرد.

جدول‌های چند نگاشت می توانند با روش‌های مختلفی ساخته شوند. ساده‌ترین روش استفاده از دونگاشت دودویی است که یک آرایه‌ی دو بعدی است که تمام ترکیب‌های دوتایی حروف را در بر می گیرد. هر خانه‌ی آن شامل ۱ (اگر آن دونگاشت در متن ما حداقل یکبار تکرار شده باشد) یا ۰ است. یک سه نگاشت دودویی به همین شکل ،ولی یک آرایه‌ی سه بعدی است.

این آرایه ها را چند نگاشت‌های دودویی غیر وابسته به موقعیت می‌نامند. بدین معنا که محل چندنگاشت را در کلمه مشخص نمی‌کنند.

با اختصاص فضای بیشتر به جدول چند نگاشت می‌توان موقعیت چندنگاشت را هم ذخیره کرد. این کار باعث بهبود کارایی روش‌های چند نگاشت‌ها می شود چراکه می توان محل آن‌ها در کلمه را نیز مقایسه کرد.

به طور کلی تحلیل چند نگاشتی در بعضی زمینه‌ها مثل تشخیص نوری حروف و خطاهای تایپی مفید است، ولی برای خطاهای تولید شده توسط انسان دقت کمتری دارد. به همین خاطر بیشتر روش‌های تصحیح خطای املایی بر اساس مراجعه به لغت‌نامه می باشند.

خطای حرف اول

عموما خطا در حرف اول کلمات رخ نمی‌دهد. بدین ترتیب می‌توانیم لغت‌نامه ها را بر اساس حرف اول تقسیم بندی کنیم تا زمان مراجعه به لغت نامه و زمان پاسخ گویی کاهش یابند.مشکل این دسته بندی این است که در این صورت دسته‌ای از خطاها(خطاهای حرف اول) توسط سیستم ما تشخیص داده نمی شود.

طول کلمه

طبق تحقیقات انجام شده، در بسیاری از مواقع طول کلمه‌ی خطا در فاصله ی دوتایی از طول کلمه‌ی صحیح است. این موضوع باعث می شد محققان لغت‌نامه ها را بر اساس طول کلمات به چند دسته تقسیم کنند تا زمان جستجو کاهش یابد.

با توجه به قانون زیپف در یک نوشته کلمات کوتاه‌تر تعداد تکرارهای بیشتری دارند. همچنین کلمات با تکرار بیشتر همسایه‌های تک خطایی بیشتری دارند. ولی معمولاً کلمات کوتاه کمتر اشتباه نوشته می‌شوند. در ضمن هرچه کلمه کوتاه‌تر باشد متن درون کلمه‌ای کمتری در اختیار ما قرار می‌دهد و کار تصحیح سخت‌تر می‌شود.

۲) تشخیص خطای لغات واقعی :

از جمله ایرادات خطایاب‌ها می توان به تشخیص دادن کلمه‌ی درست به عنوان خطا و یا تشخیص ندادن بعضی خطاها اشاره کرد. دلیل ایراد نوع اول ، وجود کلمات مبهم و اسم‌های خاص در متن وارد شده می باشد. می توان با فراهم کردن لغت نامه‌ی بزرگ‌تر برای خطایاب و یا استفاده از لغت نامه‌ی تخصصی برای انواع مختلف متن (برای مثال پزشکی) درصد این ایراد را کاهش داد. اما برای ایراد دوم راه حل خاصی وجود ندارد چراکه تعداد اسم های خاص بسیار زیاد است. بسیاری از خطایاب‌ها امکانی را فراهم می‌کنند که کاربر اسم خاص را برای خطایاب مشخص کند تا بعد از اولین باری که خطا در نظر گرفته می‌شود خطایاب دوباره آن را خطا اعلام نکند.

ایراد نوع دوم در مقابل ایراد اول یعنی تشخیص اشتباه بسیار مهم‌تر است چراکه کاربر همواره می تواند خطا را نادیده بگیرد ، اما تشخیص ندادن کلمه‌ی خطا نگران کننده است چراکه کاربر انتظار متنی بدون خطا را دارد.

این مشکل با افزایش سایز لغت‌نامه برای کاهش ریسک ایراد نوع اول ، بیشتر نیز می شود چراکه با افزایش لغات مبهم لغت‌نامه امکان تشخیص ندادن خطاهای لغات واقعی بیشتر می‌شود.

خطایاب های کمی هستند که می‌توانند خطای لغات واقعی را تشخیص دهند. ۳ پروژه در این زمینه قابل ذکر هستند.

۳. پروژه‌ی اول : CRITIQUE

اولی سیستمی با نام CRITIQUE است که توسط IBM ساخته شده است. در این برنامه متن از لحاظ نوشتاری ، دستور زبان و قالب نوشتاری، بررسی‌ می‌شود.سیستم توسط گرامری که برای آن طراحی شده است ، متن را بررسی می‌کند و نقش کلمات شامل اسم ، قید ، افعال اصلی و کمکی و غیره را مشخص می کند. اگر جمله‌ای با قواعد گرامر تعریف شده هم‌خوانی نداشته باشد ، آن قاعده کنار گذاشته می شود و دوباره جمله بررسی می‌شود. این کار تا زمانی ادامه پیدا می کند که جمله مورد قبول واقع شود. حال سیستم با دانستن قواعد کنار گذاشته شده ، می‌تواند تشخیص دهد چه قسمتی از دستور زبان مشکل داشته است.

۴. پروژه‌ی دوم : خطایاب دانشگاه لنکستر

پروژه ی دوم نیز همانند سیستم اولی بر پایه قواعد نحوی است. در ابتدا این پروژه در دانشگاه لنکستر فقط برای مشخص کردن نقش کلمات در جمله بود اما بعدها به خطایاب املایی تبدیل شد. سیستم ابتدا با مراجعه به یک لغت‌نامه نقش کلمات را مشخص می‌کند. لغت‌نامه بر اساس نقش کلمات مرتب شده است (برای مثال لغت‌نامه‌ای برای افعال). همچنین سیستم حاوی جدولی است که جایگاه و ترتیب قرار گرفتن نقش های مختلف در جمله را مشخص می‌کند. وقتی کاربر متنی را وارد می‌کند سیستم ترتیب قرار گرفتن کلمات با نقش‌های دستوری مختلف را بررسی می‌کند و دنباله ای که احتمال درست بودن آن کم است را ، مشخص می‌کند. بدین ترتیب سیستم حدس‌هایی را برای پیشنهاد کلمه‌ی درست ارایه می دهد.

۵. پروژه‌ی سوم‌ : مدل پیشرفته تر CRITIQUE

پروژه ی بعدی مدل پیشرفته تر سیستم قبلی بود که باز هم توسط IBM انجام شد. در این سیستم احتمال قرار گرفتن ۲ کلمه در کنار هم (و یا احتمال های دنباله‌ی ۳ تایی کلمات) محاسبه می‌شوند. سپس عمل تشخیص و تصحیح با توجه به این احتمالات انجام می شوند.

تصحیح خطا

برای تصحیح ، خطایاب باید کلمه‌ی مورد نظر کاربر را حدس بزند و همچنین قادر به نوشتن املا صحیح آن باشد. تولید املا درست سخت نیست چراکه همانطور که توضیح داده شد روش‌های مختلفی برای ذخیره‌ی املای درست (از جمله ذخیره به صورت لغت نامه) وجود دارد. اما قسمت سخت‌تر ارایه ی پیشنهاد مناسب است.

به طور کلی کامپیوتر در تصحیح کلمات کوتاه تر کار سخت تری دارد تا کلمات بلند چراکه انتخاب‌ها برای کلمات کوتاه‌تر بسیار بیشتر است.

به دلیل حجیم بودن لغت‌نامه‌ها خطایاب برای عمل تصحیح باید قادر باشد فقط بخشی از لغت‌نامه که احتمال وجود کلمه ی درست در آن بیشتر است را ، ابتدا بررسی کند. این کار با توجه به توضیحی که در قسمت خطای حرف اول دادیم و در نظر گرفتن اینکه اکثر خطاها یکی از انواع الگوی خطاهای اصلی هستند ، انجام می شود. یعنی بیشتر خطاها از نوع خطای درج اضافی حرف ، خطای حذف حرف ، خطای جانشینی و یا خطای جابجایی هستند که معمولا با تغییر فقط یک حرف ، می توانیم به کلمه ی درست برسیم . همچنین حرف اول عموما صحیح است و بدین ترتیب لغت‌نامه بر اساس آن می تواند محدوده‌ی جست و جوی خود را مشخص کند و کلماتی که به فاصله‌ی یک یا چند حرف از کلمه ی ورودی هستند را بررسی کند. طبق تحقیقات انجام شده ۸۰٪ از خطاها به فاصله‌ی یک حرف از کلمه ی درست هستند [11]. فاصله در این مبحث به تعداد عملیات های تصحیح مورد نیاز گفته میشود.

برای تصحیح این خطاها می توان از الگوریتم ‘کم ترین فاصله‌ی تصحیح’ استفاده کرد. در این الگوریتم برای رسیدن به کلمه‌ی درست می توان از درج یک حرف ، حذف حرف و جا به‌جایی استفاده کرد . هر کدام از این اعمال را می توان چند بار انجام داد تا کلمه ی درست تولید شود.

*Soundex*

در این سیستم با توجه به آوا و تلفظ ، کلمات در دسته‌های مختلفی دسته بندی می‌شوند. کلمات با تلفظ مشابه در گروهای یکسان قرار می گیرند. برای هر کلمه یک کد soundex ساخته می شود. این روش بر اساس مشابهت حروف صفحه کلید می باشد. حال با ساخته‌شدن کد برای هر کلمه و دسته بندی آنها ، خطایاب می تواند با مراجعه به گروه کلمه‌ی خطا ، کاندید‌های تصحیح را انتخاب کند.در کد soundex حروف صدادار حذف می‌شوند و حروف بی صدا دسته بندی می شوند.

ساخت کد soundex :

۱) حرف اول به صورت بزرگ نگه داشته می شود

۲) حروف a,e,i,o,u,y,h,w با خط فاصله جایگزین می‌شوند

۳) دسته بندی حروف دیگر:

b,f,p,v : ۱

c,g,j,k,q,s,x,z : ۲

d,t : ۳

l : ۴

m,n : ۵

r : ۶

۴) اعداد کنار هم مشابه حذف می‌شوند

۵) خط فاصله‌ها حذف می‌شوند

۶) حرف اول به صورت بزرگ به همراه ۳ عدد اول نگه داشته می‌شوند.( اگر کمتر از ۳ عدد ساخته شده بود ، ۰ اضافه می‌کنیم )

برای مثال : (car(C600) ، toy(T00) ، bicycle(B224

SPEEDCOP

سیستم speedcop برای خطایابی سریع و خصوصا خطاهای تایپوگرافی به صورت خودکار ساخته شد. یک کلید برای هر کلمه ی لغت‌نامه ساخته می‌شود. حرف اول نگه داشته می‌شود ، سپس حروف بی صدای کلمه به ترتیب بعد از آن قرار می‌گیرند. حروف یکسان فقط یکبار نوشته می‌شوند. سپس حروف صدادار به ترتیب بعد از آنها قرار می گیرند. برای مثال کلمه‌ی xenon به XNEO تبدیل می‌شود. وقتی سیستم خطایی را تشخیص می‌دهد ، کد آن را می سازد و در لغت‌نامه جست و جو می‌کند تا آن را پیدا کند. سپس برای عمل تصحیح کلمات مشابه با این کد را بررسی می کند.

روش های Soundex و SPEEDCOP برای مشخص کردن قسمت خاصی از لغت‌نامه و بررسی کاندید‌ها در آن قسمت ، به کار می روند چون همانطور که گفتیم جست‌و‌جوی کل لغت‌نامه هزینه‌ی بسیاری دارد. چالش پیش رو در این روش این است که اگر کلمه‌ی درست در محدوده‌ی مشخص شده‌ی لغت‌نامه نباشد ، خطایاب قادر به پیدا کردن آن نخواهد بود.

انتخاب کاندید‌های پیشنهادی

مرحله ی بعدی برای خطایاب انتخاب لیستی از کلمات درست ( لیست کاندید‌ها ) و سپس ارایه‌ی بهترین انتخاب است.

برای خطاهای تایپی این کار سخت نیست چراکه بسیاری از آن ها از نوع ۴ نوع اصلی هستند. خطایاب کلمات مشابه را بررسی می کند و اگر در یکی از این ۴ نوع با کلمه‌ی ورودی تفاوت داشته باشند به لیست کاندید‌ها اضافه می‌شوند.

روش دیگر محاسبه‌ی ارزش شباهت برای هر کلمه ی نزدیک به کلمه ی خطا است. سپس کلمات با ارزش بیشتر به لیست اضافه می‌شوند. به این عمل ‘تطبیق رشته (String-Matching)’ می گویند. روش‌های مختلفی برای این کار وجود دارد. برای مثال در نظر گرفتن تعداد حروف در زیردنباله های مشابه از حروف در دو کلمه. مثلا کلمهات medsin و medicine در زیردنباله های med و in ، ۵ حرف مشابه دارند یعنی ۶۳٪ تشابه .

همچنین می توانیم چند نگاشت‌های کلمات را مقایسه کنیم. هر دو کلمه‌ای که چند نگاشت‌های مشابه بیشتری داشته باشند ، بیشتر به هم شباهت دارند ( برای مثال می‌توان سه نگاشت‌ها را در نظر گرفت ).

در بعضی روش‌ها به بعضی حروف ارزش بیشتری داده می‌شود. برای مثال حروف نزدیک به ابتدا و یه حروف بی صدا ارزش بیشتری می‌گیرند.

روش آماری :

دیگر روش هایی که خطایاب‌ها برای امتیازدهی و تصحیح استفاده می‌کنند ، روش های آماری هستند که بر اساس احتمال کار می کنند. در این روش‌ها جدولی وجود دارد که احتمال خطا های مختلف را ذخیره می کند. سپس پس از تولید لیست کاندید‌ها توسط خطایاب برای امتیازدهی و رتبه بندی از فرمول زیر استفاده می کنیم:

P(X|Y)\quad =\quad \frac { P(Y|X)\quad *\quad P(X) }{ P(Y) }

در این فرمول X یکی از نامزدها و Y کلمه‌ی خطای مشاهده شده است. (P(X|Y احتمال مناسب بودن کاندید X است. (P(Y|X احتمال خطا بودن Y برای کلمه‌ی درست X است. (P(X احتمال وقوع X است.
برای تمام کلمات کاندید احتمال را محاسبه می کنیم و سپس بر اساس آن‌ها رتبه بندی را انجام می‌دهیم.

شباهت آوایی :

بعضی خطایاب‌ها بر اساس شباهت تلفظ ، کلمات مشابه را ارزش‌گذاری می‌کنند به این معنی که عمل مقایسه بر روی تلفظ انجام می‌شود نه املای کلمات. برای مثال کلمه‌ی خطای indissceat به صورت /IndIski:t/ تلفظ می‌شود. خطایاب این تلفظ را به صورت سه تایی جدا می‌کند. برای کلمات لغت‌نامه نیز همین کار انجام‌ شده. بدین ترتیب با مقایسه‌ی این حروف سه تایی عمل ارزش‌گذاری انجام می‌شود. هرچه تعداد شباهت‌ها بیشتر باشد ، کلمه ارزش بیشتری پیدا می کند.

indissceat #In Ind ndI dIs Isk ski: ki:t i:t#

indiscreet #In Ind ndI dIs Isk skr kri: ri:t i:t#

در مثال بالا ۶ شباهت را مشاهده می‌کنیم که می تواند حدس بسیار مناسبی برای تصحیح باشد.

۶. آزمایش‌ها

در این بخش به توضیح روش‌های استفاده شده در فاز دوم و ارزیابی‌های انجام شده می پردازیم.

استفاده از مدل‌های چند نگاشت برای خطایابی املایی

استفاده از مدل زبان

در اولین روش برای پیاده سازی, از مجموعه کد و داده های Dan Jurafsky و Chris Manning که در دوره‌ی آنلاین خود برای NLP ارائه داده‌اند ، استفاده می‌کنیم. لینک این داده‌های اولیه‌ی مسئله در قسمت پیوند‌های مفید ارائه شده است.

اساس کار این روش کد توضیح داده شده توسط Peter Norvig در رابطه با خطایابی املایی می‌باشد. در این روش برای ساخت خطایاب املایی مدل‌های زبانی مختلفی را از نظر دقت و کارایی بررسی می‌کنیم. در مدل زبان ، به هر مجموعه ‌ی از حروف ، احتمالی را اختصاص می‌دهیم. سپس می‌توان با توجه به این احتمالات به عمل خطایابی پرداخت. برای مثال احتمالات درست بودن کلمات مختلف به جای کلمه‌ی غلط را بررسی می‌کنیم و هر کلمه‌ی که احتمال درست بودن آن بیشتر باشد را با آن جایگزین می کنیم. با توجه به روشی که برای محاسبه‌ی این احتمالات انتخاب می کنیم ، مدل های مختلفی برای زبان ساخته می‌شود. برای ارزیابی سیستم از مجموعه داده‌ای شامل جملاتی با فقط یک خطای املایی، استفاده می‌کنیم. سپس میزان دقت مدل های مختلف زبانی را بررسی می کنیم. بدین ترتیب که میزان دقت برابر است با تعداد تصحیح های درست به تعداد کل جملات.

داده ی مورد استفاده

داده‌ی ما مجموعه‌ای از نوشته های دانش آموزان متوسطه است که توسط David Holbrook جمع‌آوری شده است.

پوشه‌ی داده شامل سه فایل است :

۱) holbrook-tagged-train.dat :‌ مجموعه نوشته برای ساخت مدل زبان

۲) holbrook-tagged-dev.dat : مجموعه نوشته شامل خطاهای املایی

۳) count_1edit.txt : جدولی شامل تعداد تغییرات و ویرایش های لغات

پیاده سازی

در این روش سه مدل زبانی را پیاده سازی می‌کنیم:

۱) Laplace Unigram Language Model :‌ مدل نگاشت تکی ( یک نگاشت) همراه با یک هموارسازی.

منظور از هموارسازی این است که به کلماتی که در داخل متن مورد استفاده برای مدل‌کردن نیستند هم یک احتمال

کمی بدهیم.

۲) Laplace Bigram Language Model : مدل نگاشت دوتایی ( دو نگاشت) همراه با یک هموارسازی.

۳) Stupid Backoff Language Model : ترکیبی از مدل اول بدون هموارسازی و مدل دوم همراه با هموارسازی.

توضیح چند تابع اصلی :

۱) train(HolbrookCorpus corpus) : با توجه به مجموعه‌ای از نوشته (corpus) مدل زبانی را تشکیل می دهد. محاسبه‌ی تعداد کلمات ، جملات و احتمالات در این تابع انجام می شود.

۲) (score(List words : تابع ارزیابی مدل زبانی

توضیح کلاس‌ها:

۱) SpellCorrect.py :‌ این کلاس بهترین انتخاب را با توجه به مدل زبانی داده شده، انجام می‌دهد و کلمه‌ی‌غلط را تصحیح می‌کند.

۲) EditModel.py :‌ این تابع احتمال درست بودن هر تصحیح را محاسبه می‌کند تا SpellCorrect.py از آن استفاده کرده و عمل تصحیح را انجام دهد.

۳) Sentence.py : شامل داده‌ها و توابع کمکی برای تولید جمله ی درست است. همچنین اطلاعات هر جمله را مثل کلمات درست و غلط آن را نگهداری می‌کند.

۴) Datum.py : لیستی شامل دو رشته می‌باشد. word و error. اولی کلمه‌ی تصحیح شده و دومی‌ خطای املایی است. برای کلمات درست رشته‌ی error تهی است.

لینک github:
پیوند

روش دیگر: استفاده از الگوریتم ارائه شده توسط Peter Norvig

در این روش نیز از تئوری احتمال که قبل‌تر توضیح داده شد، استفاده می‌شود. با توجه به کلمه‌ی خطا می خواهیم کلمه با بیشترین احتمال درست بودن را به جای کلمه‌ی غلط قرار دهیم. یعنی P(w|c) ،احتمال درست بودن کلمه‌ی c به جای کلمه‌ی خطای w ، بیشترین مقدار باشد.

برای پیاده‌سازی ابتدا از فایل big.txt برای ساخت مدل زبان استفاده می‌کنیم. تابع اصلی در این قسمت train است که برای محاسبه‌ی تعداد دفعات تکرار هر کلمه در متن استفاده می‌شود.بدین ترتیب مدل احتمال ساخته می‌شود.

همانطور که قبل‌تر توضیح داده شد، در اینجا هم از هموارسازی (smoothing) استفاده می‌کنیم و به کلماتی که در متن مرود استفاده برای مدل‌سازی نبودند هم احتمال کمی می‌دهیم. برای این کار از کلاس collections.defaultdict استفاده می‌کنیم. مقدار پیش‌فرض هر کلید را ۱ در نظر می‌گیریم.

همچنین عمل تصحیح با توجه به یکی از الگوهای خطای اصلی که یعنی خطای درج اضافی حرف ، حذف حرف، جانشینی، جابجایی و خطای فاصله ، انجام می‌شود.به تعداد اعمال مورد نیاز برای تبدیل کلمه‌ی خطا به کلمه‌ی درست edit distance گفته می‌شود. بدین ترتیب تابع edits1 لیستی از تمام کلمات درستی که به فاصله‌ی یک از کلمه‌ی خطا هستند را بر می‌گرداند.به همین شکل تابع edits2 لیست کلمات درست به فاصله‌ی ۲ از کلمه ی غلط را بر می‌گرداند.

همچنین known_edits2 فقط کلماتی از لیست بازگشتی edits2 را بر می‌گرداند که در لیست کلمات مدل شده بوده‌اند.

حال تابع correct با در نظر گرفتن بیشترین احتمال، کلمه‌ای درست را به جای کلمه‌ی غلط قرار می دهد.

ارزیابی :

برای ارزیابی سیستم از مجموعه داده یBirkbeck spelling error corpus پیوند استفاده می‌کنیم. دو مجموعه ی تست که شامل کلمه ی درست و کلمه‌ی خطا هستند را توسط لغت‌نامه، تشکیل می‌دهیم. تابع spelltest با توجه به تعداد کل کلمات، کلمه ی صحیح داخل لغت‌نامه‌ی مجموعه‌ی تست و کلمه‌ای که به جای کلمه‌ی خطا در نظر گرفته شده ، درصد دقت روش را باز می‌گرداند.

لینک github:
پیوند

با استفاده از کتابخانه ی PyEnchant

روش دیگر استفاده از کتابخانه‌ی PyEnchant است. این کتابخانه جهت خطایابی املایی توسط زبان برنامه‌نویسی پایتون ، مورد استفاده قرار می‌گیرد. تعداد زیادی کد باز متن دیگر جهت خطایابی وجود دارند اما این کتابخانه از لحاظ کارایی و دقت بسیار خوب عمل می‌کند. برای استفاده از آن باید PyEnchant و Encant را نصب کنید. تابع check() صحیح بودن کلمه را بررسی می‌کند و تابع suggest() لیستی از کلمات درست پیشنهادی را باز می‌گرداند.

برای ارزیابی از مجموعه داده‌ای که در روش قبل توسط Peter Norvig جمع آوری شده بود، استفاده می‌کنیم.

لینک github:
پیوند

۷. بهبود نتایج و تکمیل گزارش

در این فاز به بهبود نتایج و تکملیل گزارش می‌پردازیم.
برای بهینه‌سازی می‌توانیم از الگوریتم بهتر و سریعتر “تصحیح خطا توسط حذف متقارن(FAROO)” که توسط Wolf Garbe ارایه شده است بپرازیم[14]. این روش نیز همانند روش های قبلی، بر پایه‌ی کمترین فاصله‌ی تصحیح (Damerau-Levenshtein distance) بنا شده است. به هنگام بررسی یک کلمه اگر کمترین فاصله‌ی تصحیح برای آن صفر باشد، املا‌ی آن کلمه درست است. در غیر این صورت از بین کلمات موجود در لغت‌نامه‌ی ذخیره شده،پیشنهادهایی ارایه می‌شود. تفاوت الگوریتم فوق با الگوریتم‌های قبلی در نحوه‌ی جست‌و‌جو‌ی کلمات لغت‌نامه، برای پیدا کردن کلمه با کمترین فاصله‌ی تصحیح از کلمه‌ی خطا می‌باشد.
سه روش برای این کار وجود دارد:

۸. روش ساده ( Naive approach )

در این روش فاصله‌ی تصحیح کلمه‌ی ورودی کاربر از تمام کلمات لغت‌نامه محاسبه می‌شود و کلمه با کمترین فاصله‌ی تصحیح پیشنهاد داده می‌شود. این روش جست‌وجو بسیار کند و هزینه‌بر است. [13]

۹. روش ‌Peter Norvig

روش استفاده شده توسط Peter Norvig بدین شکل بود که تمام کلمات به فاصله‌ی تصحیح کمتر از ۲، از روی کلمه‌ی ورودی ساخته می‌شد و سپس این کلمات با کلمات لغت‌نامه مقایسه می‌شدند. برای کلمه‌ای به طول ‌n، الفبایی به اندازه‌ی a و فاصله‌ی تصحیح ۱، در مجموع 2n+2an+a-1 کلمه ساخته می‌شود(توسط جابجایی،حذف حرف اضافه،جانشینی و درج حرف اضافی).[11]

۱۰. روش تصحیح خطا توسط حذف متقارن(FAROO)

و اما روش خذف متقارن بدین شکل عمل می‌کند که ابتدا در مرحله‌ی به اصطلاح 'قبل از محاسبه(pre-calculation step)'، برای هر کلمه‌ی لغت‌نامه، کلمات به فاصله‌ی تصحیح کمتر از ۲(فقط توسط حذف حرف اضافه) را محاسبه کرده و به همراه کلمه، در لغت‌نامه ذخیره می‌کند. حال برای انجام عمل تصحیح و ارایه‌ی پیشنهاد، از روی کلمه‌ی وارد شده توسط کاربر به همین شکل کلمات به فاصله‌ی تصحیح کمتر از ۲ از آن ساخته شده و در لغت‌نامه جست‌وجو می‌شوند. برای کلمه‌ای به طول ‌n، الفبایی به اندازه‌ی ‌a و فاصله‌ی تصحیح ۱، فقط n کلمه که توسط حذف به دست آمده‌اند، خواهیم داشت. هزینه‌ی این روش ذخیره سازی تعداد بیشتری کلمه در لغت‌نامه است.
در عمل ۴ نوع مقایسه وجود دارد‌:
۱) کلمه‌ی لغت‌نامه با کلمه‌ی ورودی
۲) کلمه‌ی لغت‌نامه بعد از عمل خذف با کلمه‌ی ورودی
۳) کلمه‌ی لغت‌نامه با کلمه‌ی ورودی بعد از عمل حذف
۴) کلمه‌ی لغت‌نامه بعد از عمل خذف با کلمه‌ی ورودی بعد از عمل حذف
بدین ترتیب در این روش فقط از حذف حروف اضافه, استفاده می شود. در واقع کلماتی که با جایگزینی، جانشینی و یا درج در کلمه‌ی ورودی به دست می‌آیند, توسط حذف حروف اضافه در کلمات لغت‌نامه به دست می‌آیند.
پیاده‌سازی روش فوق به صورت متن‌باز در لینک مقابل وجود دارد. پیوند

مقایسه بین روش FAROO و روش Peter Norvig:

۱۱. کارهای آینده

بررسی روش‌های وابسته به متن و پیاده سازی آن‌ها.

۱۲. مراجع

1) English Spelling and the Computer published by Longman, 1996
2) K. Kukich, “Techniques for automatically correcting words in text,” ACM Computing Surveys, vol. 24, pp. 378-439, 1992.
3) J. J. Hull, and S. N. Srihari, “Experiments in text recognition with binary n-gram and Viterbi algorithms,” IEEE Trans. Patt. Anal. Machine Intell. PAMI-4, 5 (Sept.), 1982 520-530.
5) D. E. Knuth, “The Art of Programming Vol. 3, Sorting and Searching,” Addison-Wesley, Reading 1973.
6) F. J. Damerau, “A technique for computer detection and correction of spelling errors,” Commun ACM 7, 3 (Mar.), 1964, pp. 171-176.
G. K. Zipf, “The Psycho-Biology of Language,” Houghton Mifflin, Boston, 1935.
7) E. M. Riseman, and A. R. Hanson, “A contextual postprocessing system for error correction using binary n-grams,” IEEE Trans. Comput. C-23, (May), 480-493, 1974.
8) A. V. Aho, “Algorithms for finding patterns in strings,” in Handbook of Theroretical Computer Science, J. Van Leeuwen, Ed. Elsevier Science Publishers, 1990.
9) M. K. Odell, and R. C. Russell, U.S Patent Number 1261167, 1918.
10) K. Atkinson, “Gnu aspell,” In Available at http://aspell.net, 2009.
11) How to Write a Spelling Corrector by Peter Norvig پیوند
12) PyEnchant Library پیوند
13) Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze: Introduction to Information Retrieval.
14) Improved Edit Distance Based Spelling Correction

۱۳. پیوندهای مفید

تایید شده

توضیحات در مورد تاریخچه ، عنوان ، روش های پیاده سازی و آزمایش ها خیلی خوب بود.
مواردی که به ذهن بنده رسید این بود که به نظرم در قسمت های مختلفی از متن از منابع استفاده شده اما ارجاع داده نشده. فقط جاهای معدود و کمی ارجاع داده شده مگر این که بیشتر متن تولید شده کاملا از طرف خود نویسنده باشه.
نکته بعدی هم این که معمولا کلمات فارسی در خود متن گفته میشه و در کنارش یه لینک قرار داده میشه که میره به انتهای متن و معادل انگلیسی اون کلمه که اگر این مورد هم انجام میشد خیلی بهتر بود.
اما توضیحات و جزئیات پیاده سازی و آزمایش ها و نظم و روان بودن پروژه واقعا خوب بود.
موفق باشید

رسول مسعودی

خیلی ممنون از زحمات شما