مقدمه
امروزه با فراگیر شدن پدیده اینترنت ، گسترش متون الکترونیکی و استفاده از واسط های مبتنی بر پرس و جو، وجود ابزارهایی کمکی جهت تسریع و تسهیل در غلط یابی و ارائه کلمه پیشنهادی مناسب، اجتناب ناپذیر گشته است. برای مثال حدود 10 تا 12 درصد پرس و جوهای وارد شده در موتورهای جستجو و بیش از 14% تمام پرس و جوهای ارسال شده برای بازیابی اطلاعات، شامل عبارت هایی با غلط املایی است.
غلط یاب ها در حوزه وسیعی از کاربردها همانند تصحیح و کمک به جستجوی سریعتر و دقیقتر در اینترنت، تصحیح خطاهای ناشی از تبدیل تصویر به متن، ابزارهای جانبی برای ویرایشگرهای متنی، ابزار پیش پردازنده در پردازش زبان های طبیعی ، واسط های بازیابی اطلاعات، تبدیل گفتار به متن و کامپیوترهای مبتنی بر قلم بکار می آیند.کارهای زیادی جهت مدل کردن الگوی خطا و مشخص نمودن پارامترهای آن صورت گرفته است. تقسیم بندی های متفاوتی از الگوی خطا، با توجه به منبع خطا وجود دارد. دسته بندیهای ارائه شده برای خطا ، به ساختار آوائی و نگارشی هر زبان بستگی دارد.
مثلا یک دسته بندی می تواند مبتنی بر شباهت در تلفظ، خطای تایپوگرافی و خطای فتونیکی باشد. خطای تایپوگرافی شامل خطاهای ناشی از عادات کاربر و یا نزدیکی نوشتاری حروف است. خطاهای فتونیکی، از شباهت تلفظی حروف با نوشتار متفاوت، ناشی می شود. الگوهای خطای بدست آمده صرفنظر از دسته بندی های اعمال شده، به عنوان یک راهنما جهت تشخیص محل وقوع خطا و رفع آن عمل می نمایند. مشکل اساسی در این رابطه، وابستگی الگوی خطا به زبان و رسانه ای است که سیستم در آن کار می کند.
کارهای مرتبط
تشخیص الگوی خطا با توجه به وابستگی آن به زبان و رسانه کاربرد، کاری دشوار، زمانبر و عموما نیازمند استفاده از خبرگان زبان است، هرچند که در بیشتر موارد چنین مدل هایی از دقت و کارائی مقبولی برخوردار هستند.
عموما خطاهای موجود در نوشتار به دلیل یکی از موارد زیر است.
خطای جانشینی : استفاده از یک حرف به جای حرف دیگر.
خطای حذف : حذف ناخواسته یک یا چند حرف.
خطای درج : درج ناخواسته یک یا چند حرف در کل کلمه.
خطای جابجایی : جابجایی دو حرف مجاور.
خطای چسبیدن : چسبیدن دو کلمه درست بدون فاصله.
سیستم غلط یاب برای ارائه یک پیشنهاد صحیح با فضای جستجوی بزرگی روبرو می شود که در میان این پیشنهادات می بایستی تنها یک کلمه به عنوان کلمه صحیح انتخاب شود. در یک سیستم غلط یاب هدف این است که با کمک مدل های خطا، فضای جستجو محدودتر شود تا با کمترین هزینه محاسباتی نزدیکترین و بهترین کلمه صحیح پیشنهاد شود.
آزمایشها
کارهای آینده
مراجع
غلط یاب املایی با استفاده از تکنیک های یادگیری ماشین ، یازدهمین کنفرانس بین المللی کامپیوتر انجمن کامپیوتر ایران،پژوهشگاه دانشهای بنیادی