خطایابی املایی

تغییرات پروژه از تاریخ 1392/12/24 تا حالا
# مقدمه

>امروزه با فراگیر شدن پدیده اینترنت ، گسترش متون الکترونیکی و استفاده از واسط های مبتنی بر پرس و جو، وجود ابزارهایی ‏کمکی جهت تسریع و تسهیل در غلط یابی و ارائه کلمه پیشنهادی مناسب، اجتناب ناپذیر گشته است. برای مثال حدود 10 تا 12 ‏درصد پرس و جوهای وارد شده در موتورهای جستجو و بیش از 14% تمام پرس و جوهای ارسال شده برای بازیابی اطلاعات، ‏شامل عبارت هایی با غلط املایی است.‏
غلط یاب ها در حوزه وسیعی از کاربردها همانند تصحیح و کمک به جستجوی سریعتر و دقیقتر در اینترنت، تصحیح خطاهای ‏ناشی از تبدیل تصویر به متن، ابزارهای جانبی برای ویرایشگرهای متنی، ابزار پیش پردازنده در پردازش زبان های طبیعی ، ‏واسط های بازیابی اطلاعات، تبدیل گفتار به متن و کامپیوترهای مبتنی بر قلم بکار می آیند.‏

>کارهای زیادی جهت مدل کردن الگوی خطا و مشخص نمودن پارامترهای آن صورت گرفته است. تقسیم بندی های متفاوتی از ‏الگوی خطا، با توجه به منبع خطا وجود دارد. دسته بندیهای ارائه شده برای خطا ، به ساختار آوائی و نگارشی هر زبان بستگی ‏دارد.‏
مثلا یک دسته بندی می تواند مبتنی بر شباهت در تلفظ، خطای تایپوگرافی و خطای فتونیکی باشد. خطای تایپوگرافی شامل ‏خطاهای ناشی از عادات کاربر و یا نزدیکی نوشتاری حروف است. خطاهای فتونیکی، از شباهت تلفظی حروف با نوشتار ‏متفاوت، ناشی می شود. الگوهای خطای بدست آمده صرفنظر از دسته بندی های اعمال شده، به عنوان یک راهنما جهت تشخیص ‏محل وقوع خطا و رفع آن عمل می نمایند. مشکل اساسی در این رابطه، وابستگی الگوی خطا به زبان و رسانه ای است که ‏سیستم در آن کار می کند.‏


# کارهای مرتبط

>تشخیص الگوی خطا با توجه به وابستگی آن به زبان و رسانه کاربرد، کاری دشوار، زمانبر و عموما نیازمند استفاده از خبرگان ‏زبان است، هرچند که در بیشتر موارد چنین مدل هایی از دقت و کارائی مقبولی برخوردار هستند. ‏

عموما خطاهای موجود در نوشتار به دلیل یکی از موارد زیر است.‏

+ ** خطای جانشینی** : استفاده از یک حرف به جای حرف دیگر.

+ **	خطای حذف** : حذف ناخواسته یک یا چند حرف.‏

+ **	خطای درج **: درج ناخواسته یک یا چند حرف در کل کلمه.‏

+ **	خطای جابجایی **: جابجایی دو حرف مجاور.‏

+ **خطای چسبیدن **: چسبیدن دو کلمه درست بدون فاصله.‏

>سیستم غلط یاب برای ارائه یک پیشنهاد صحیح با فضای جستجوی بزرگی روبرو می شود که در میان این پیشنهادات می بایستی ‏تنها یک کلمه به عنوان کلمه صحیح انتخاب شود. در یک سیستم غلط یاب هدف این است که با کمک مدل های خطا، فضای ‏جستجو محدودتر شود تا با کمترین هزینه محاسباتی نزدیکترین و بهترین کلمه صحیح پیشنهاد شود.‏

# آزمایش‌ها

# کارهای آینده

# مراجع
+  غلط یاب املایی با استفاده از تکنیک های یادگیری ماشین ، یازدهمین کنفرانس بین المللی کامپیوتر انجمن کامپیوتر ایران،پژوهشگاه دانشهای بنیادی

# پیوندهای مفید
+ [تمرین خطایابی املایی درس پردازش زبان طبیعی به همراه داده‌های یادگیری](http://www.cs.indiana.edu/~alexr/nlpclass_2012/hw3.html)
+ [‫روشی جدید در خطایابی املایی در زبان فارسی‬](http://www.cs.columbia.edu/~rasooli/papers/AnewapproachforPersianspellchecking.pdf)
+ [خطایابی املایی در پروژه ویراستیار](http://www.virastyar.ir/content/خطایابی-املایی)
+ [اصول و مبانی خطایابی املایی، پروژه درس هوش مصنوعی، دانشگاه علم و صنعت، ۱۳۸۸](http://bayanbox.ir/id/4167494434444049956?download)
+ [Natual Language Processing Course - Spelling Correction](https://class.coursera.org/nlp/lecture/preview)
+ [How to write a spelling corrector](http://norvig.com/spell-correct.html)