بسم الله الرحمن الرحیم

مقدمه

به نظر مسخره می‌آید که هر بار می‌خواهیم متنی فارسی که پر از لغات انگلیسی است را تایپ کنیم، مجبور هستیم مدام از کلیدهای میانبر تغییر زبان استفاده کنیم.
حتما تا به حال برای همه ی ما پیش آمده که وقتی در مرورگر یک آدرس اینترنتی را تایپ می‌کنند، پس از نگاه کردن به صفحه ی نمایشگر خود به اشتباه با چیزی شبیه به «صصص.لخخلمث.زخپ» مواجه می شویم. تصور کنید که چقدر کار راحت تر می شود اگر صفحه کلید یا رایانه خودش بفهمد که هدف ما در آنجا انگلیسی تایپ کردن بوده است و نه فارسی.
هدف این پروژه در واقع نرم افزاری است که بتوان در آن بدون نیاز به تغییر زبان کیبورد و استفاده ی مدام و خسته کننده از دکمه های میانبر صفحه کلید، فارسی و انگلیسی را با هم نوشت و خود نرم افزار تشخیص دهد که کلمه‌ی مورد نظر فرد در هر جمله و عبارت، فارسی بوده است یا انگلیسی.
این نرم افزار در درجه ی اول باعث راحتی و آسودگی کاربر می گردد و همچنین سرعت تایپ کاربر را مخصوصا در مواردی که متن مورد نظر آمیزه ای از جملات و کلمات دو زبانه می باشد،بالاتر می برد.

کارهای مرتبط

شاید بتوان گفت که سایت گوگل یکی از بهترین تشخیص دهنده ها برای زبان ورودی می باشد. هنگامی که شما بدون توجه به این که صفحه کلید در چه حالتی است، مشغول به تایپ هستید و مثلا یک کلمه ی فارسی را به اشتباه به صورت انگلیسی تایپ می کنید و یا برعکس، سایت گوگل این اشتباه شما را تشخیص داده و خطای شما را در هنگام نمایش دادن نتایج، تصحیح می کند.
با اینکه این سایت از لحاظ هدف و نتیجه بسیار شبیه این پروژه می باشد اما متاسفانه منبع و مرجعی برای روش کار آن یافت نشد.

نمونه ای از تشخیص زبان ورودی کیبورد توسط سایت گوگل

از جمله کارهای مرتبط دیگر می توان به Ninja Keyboard و Key Switcher اشاره کرد.این نرم افزار ها که بر روی ویندوز نصب می شوند، کلمات ورودی کاربر در برنامه های مختلف رو کنترل کرده و اگر کاربر فراموش کرده باشد که حالت صفحه کلید خود را تعویض کند، به صورت خودکار این کار را برای کاربر انجام می دهند.
اما دونکته قابل توجه وجود دارد : اولا اینکه این نرم افزارها از زبان فارسی پشتیبانی نمی کنند و به تعداد کمی از زبان ها محدود می شوند. ثانیا روش کار خود را برای پیاده سازی پروژه توضیح نداده اند و مشخص نیست که از چه روشی برای انجام پروژه ی شان استفاده کرده اند.

مواردی که در بالا ذکر شد، نمونه هایی از انجام این پروژه بودند. اما با توجه به اینکه هیچکدام روش کار خود را توضیح نداده و روش حل مسئله را در اختیار عموم قرار نداده بودند، بنابراین در انجام این پروژه نمی توان از آنها استفاده کرد و یا کمک گرفت.

حل مسئله

با توجه به اینکه مسائلی که به زبان طبیعی انسان و یا نوشتار مربوط هستند عموما با Language Modeling حل می شوند، به نظر می رسد برای حل این مسئله نیز باید از تکنیک های Language Modeling بهره گرفت. حال به تعریف مختصری از این عبارت می پردازیم :
مدل های طبیعی زبان:
به زبانی می گویند که بین انسان ها رایج است و انسان ها می توانند از آن برای ارتباط با یکدیگر به صورت های نوشتن،‌ حرف زدن، خواندن و ... استفاده کنند. وقتی می گوییم مدل سازی زبان طبیعی، یعنی بیاییم و روابط و قواعد زبان را به طور هدفمند،‌ ساده کنیم تا به ابزاری برسیم که بتوان از آن برای بررسی زبان و یا استفاده یا حتی تولید آن استفاده کرد. بسیاری از این مدل ها از یک پس زمینه ریاضی برخوردار هستند،‌مانند گراف، احتمالات و ... .
برای کسب اطلاعات بیشتر در این زمینه می توانید به اینجا یا اینجا مراجعه کنید.

یکی از مدل هایی که مبتنی بر زبان های طبیعی می باشد و می توان در این پروژه از آن استفاده کرد مدل n-gram می باشد :
در این مدل، از آمار کلاسیک و احتمال بهره گرفته شده است. فرض کنید که یک سری اشیا یا نشانه ها و یا هر چیز دیگری داشته باشیم. هر کدام از این ها را به صورت یک رأس در گراف تصور کنید که می تواند به رأس دیگری یال جهت دار داشته باشد. این یال جهت دار، نشان دهنده یک نوع رابطه است که با توجه به مورد دلخواه ما می تواند معانی متفاوتی داشته باشد. مثلاً در مورد زبان، می تواند توالی دو کلمه باشد (اگر کلمه ای بعد از کلمه دیگری بیاید، یک یال از اولی به دومی وجود دارد). به یک توالی n تایی از این رأس ها، n-gram می گوییم (توالی های 3gram، 2gram و ... داریم). در این مدل، یک مجموعه داده های آماری بسیار بزرگ نیاز داریم که هر کدام مجموعه ای از این نشانه ها به همراه روابط بین آن ها است. برای مثال، در مورد یک زبان خاص، یک سری متن در آن زبان می باشد.
روابطی در این مدل تعریف می شود که می توان با استفاده از آن، درستی یک توالی خواص از این نشانه ها را بررسی کرد.
حال به توضیح مختصری در مورد روابط این مدل می پردازیم :
فرض کنید می خواهیم درستی عبارت

را بررسی کنیم. در این مدل، احتمال درستی به صورت یک عدد تعیین می شود که هرچه داده های آماری ما بیشتر باشد، نتیجه دقیق تر است. عبارت بالا را به اجزای زیر تقسیم می کنیم و تعداد تکرار هر کدام را در داده های آماری پیدا می کنیم :

حال احتمال های 3gram ، 2gram و ... به صورت زیر تعریف می شوند :

هر کدام از عبارت های بالا یعنی احتمال آمدن آخرین حرف مورد نظر بعد از حروف قبلی که مقدار آن برابر است با :

در عبارت بالا، تابع C یعنی تعداد تکرار توالی مورد نظر در داده های آماری.
در حالت کلی، احتمال درستی عبارت بالا در مدل n-gram به صورت رابطه زیر است :

در این جا، تنها یک مشکل باقی می ماند و آن هم این است که اگر تنها یکی از این احتمال ها صفر شود، احتمال کل صفر خواهد شد. در حالی که می دانیم داده های آماری ما محدودیت دارند و ممکن است بالاخره یکی از توالی ها، مخصوصاً اگر تعداد آن زیاد باشد، در داده ها وجود نداشته باشد. راه حل این است که به هر کدام، یک مقدار ثابت (مثلاً 1) اضافه کنیم.

برای آشنایی بیشتر با این مدل می توانید به اینجا مراجعه کنید.

این مدل می تواند در انجام این پروژه به ما بسیار کمک کند. زیرا با استفاده از آن می توان فهمید که هر کلمه که در متن آمده است، اساسا صحیح نوشته شده و مورد نظر نویسنده بوده و یا صرفا به خاطر صحیح نبودن حالت صفحه کلید، به آن شکل خاص نوشته شده است.

آزمایش ها

در فاز دوم، پیاده سازی این پروژه با استفاده از زبان جاوا صورت گرفته است. اساس و پایه ی این پیاده سازی به این صورت است که هنگامی که یک متن برای پردازش به برنامه داده می شود، برنامه با توجه به پردازش هایی که از قبل بر روی متون فارسی و انگلیسی مختلف انجام داده است، صورت صحیح یک کلمه را تشخیص داده و آن را به خروجی برنامه اضافه می کند. در واقع برنامه این را بررسی می کند که صورت فارسی یک رشته از کاراکترها بیشتر در متون پردازش شده وجود داشته است یا صورت انگلیسی آن. سپس با توجه به احتمالی که هرکدام از کلمات داشته اند، هر کلمه ای را که احتمالش بیشتر باشد به عنوان پاسخ مسئله در نظر می گیرد.

داده های مورد استفاده :
همانطور که گفته شد، در انجام این پروژه از متون فارسی و انگلیسی مختلفی استفاده شده است تا بتوان هنگامی که یک کلمه به برنامه داده شد، صورت صحیح آن را تشخیص دهد.
داده های انگلیسی این پروژه از متون مختلفی جمع آوری شده است که بالغ بر 1,000,000 کلمه می باشد. از طریق این لینک می توانید به این داده ها دست پیدا کنید.
همچنین از دادگان پرسیکا که شامل بر 10,000 خبر از خبرگزاری ایسنا می باشد استفاده شده است که البته برای اینکه حجم داده های فارسی و انگلیسی مورد بررسی یکسان باشد، تنها از 2500 خبر آن استفاده شده است.
روش پیاده سازی شده :
در این قسمت به توضیح مختصری در خصوص برنامه ی پیاده سازی شده می پردازیم :
برنامه به طوری نوشته شده است که ابتدا به بررسی دو فایل big.txt و bigfa.txt می پردازد و بر اساس آنها یک hashmap می سازد. hashmap در واقع ساختمان داده ای می باشد که کارکرد آن نگهداری لیستی از مقادیر است که هرکدام از آنها توسط یک کلید قابل تشخیص و بازیابی می باشد. در این hashmap کلید ها همان کلمات درون هر فایل متنی است و مقادیر بر اساس تکرار هر کلمه در هر یک از متن ها مقداردهی می شود.
چون این فرآیند نسبتا زمان بر است، بعد از این که یکبار این کار انجام می شود hashmap های ساخته شده درون یک فایل ذخیره می شوند که بتواند به سرعت مورد بازیابی قرار گیرد. البته یک انتخاب درون برنامه وجود دارد که میتواند این hashmap ها را به روز رسانی کند.
بعد از ساختن این دو hashmap که یکی مربوط به کلمات زبان فارسی و دیگری مربوط به کلمات زبان انگلیسی است ورودی از کاربر گرفته شده و تک تک کلمات بررسی می شوند. اگر کلمه ای به صورتی که در ورودی داده شده است، در متونی که از قبل پردازش شده است وجود داشته باشد، آن کلمه به همان صورت که داده شده است به خروجی منتقل می شود ولی اگر اینچنین نباشد و کاربر بدون توجه به زبان صفحه کلید کلمه ای را تایپ کرده باشد، برنامه صورت صحیح آن را تشخیص داده و سپس به خروجی منتقل می کند.
اساس تبدیل و جایگزینی حروف فارسی به انگلیسی یا برعکس بر این است که مثلا بر روی صفحه کلید،اگر صفحه به زبان فارسی باشد دکمه ی A همان حرف ش می باشد و برنامه نیز جایگزینی حروف را بر این اساس انجام می دهد.
توجه داشته باشید که هم برای متون از پیش پردازش شده و هم برای متن ورودی که می خواهد برای پردازش به برنامه داده شود، کاراکتر فاصله جداکننده ی کلمات در نظر گرفته شده است و به طور مثال کلمه ی سی ان ان به عنوان سه کلمه در نظر گرفته می شود که این موضوع از ضعف ها و محدودیت های پروژه بوده و باید در آینده اصلاح شود.
برنامه برای تشخیص صورت صحیح کلمات به این صورت عمل می کند که به طور مثال اگر کلمه ی sghl در متن ورودی موجود باشد عینا این کلمه را مورد بررسی و جستجو در لیست کلماتی که از قبل پردازش شده است، قرار می دهد. همچنین این بررسی را برای صورت فارسی آن کلمه که مثلا در اینجا از تبدیل حروف S و G و H و L به حروف س و ل و ا و م ساخته می شود و کلمه ی سلام را شکل می دهد، انجام می دهد. پس از بررسی آن صورتی را در خروجی چاپ می کند که تعداد تکرارش بیشتر بوده باشد که در این مثال برای شکل انگلیسی کلمه 0 تکرار و برای شکل فارسی آن بیش از 100 تکرار موجود بوده است.
همچنین با توجه به اینکه ممکن است کلمه وجود داشته باشد که هم صورت فارسی آن و هم صورت انگلیسی آن در هر دو زبان وجود داشته باشد، کلمه ای توسط برنامه انتخاب می شود که در آن زبان پرکاربرد تر باشد. مثلا کلمه ی شد اگر صفحه کلید به زبان انگلیسی باشد، کلمه ی An را می سازد که این دو کلمه هر دو، در زبان های مربوط به خودشان قابل استفاده هستند و برنامه آن صورتی را انتخاب می کند که در متون از پیش پردازش شده، بیشتر تکرار شده باشد.
روش کار با برنامه :
هر کاربر برای استفاده از این برنامه کافی ست که ورودی و متنی را که می خواهد مورد پردازش قرار بگیرد را درون فایل voroodi.txt تایپ کرده و سپس از طریق یک IDE برنامه را RUN کند. برنامه به کاربر دو انتخاب می دهد که با انتخاب گزینه ی دوم برنامه اجرا شده و خروجی هم بر روی کنسول IDE و هم درون فایل khorooji.txt قابل مشاهده خواهد بود.
نکته : با توجه به تنظیماتی که برای یک فایل txt. وجود دارد، ورودی باید از خط دوم در فایل مربوطه نوشته شود.

تصویری از برنامه

در زیر می توان نمونه ای از پزدازش یک متن را توسط برنامه مشاهده کرد :
متن ورودی برنامه :
hdk d; jsj dh d; فثسف fvhd hdk hsj ;i ببینیم حقخلقشئ nvsj ;hv می ;kn ؟
hdk \v,Ci باید بتواند که d; ;gli thvsd و ثدلمهسا را از هم تشخیص دهد
فاشدن غخع lja;vl
متن خروجی برنامه :
این یک تست یا یک test برای این است که ببینیم program درست کار می کند ؟
این پروژه باید بتواند که یک کلمه فارسی و english را از هم تشخیص دهد
thank you متشکرم
همانطور که دیده می شود دقت وصحت برنامه برای این متن ساده 100 درصد صحیح می باشد.
با توجه به اینکه یک منبع و نوشته ای که سرشار از لغات انگلیسی و فارسی باشد یافت نشد، بنابراین نمی توان دقت و صحت عملکرد دقیق این برنامه را سنجید. اما دو نمونه متن فارسی و انگلیسی که به برنامه داده شد، دقت برای هر کدام به ترتیب بیش از98 و 99 درصد بود. این به این معنا است که برنامه با دقت بسیار بالایی اگر متن درستی به آن داده شود شکل صحیح آن را تغییر نمی دهد و آن را عوض نمی کند و تنها کلماتی را تغییر می دهد که واقعا به صورت صحیح نیستند.

کد ها :
شما برای استفاده از این برنامه و مشاهده ی کدها می توانید به این لینک که در سایت گیت هاب قرار دارد مراجعه نمایید.

کارهای آینده :

مواردی که به نظر می رسد باید به برنامه اضافه شود تا شاهد برنامه ی کامل تری باشیم به شرح زیر می باشد :

برنامه باید بتواند صورت صحیح کلماتی را که با همدیگر یک کلمه را تشکیل می دهند تشخیص دهد. مانند کلمه ی بی بی سی
برنامه باید برای یک رشته ی خاص استثناء قائل شود و به هیچ وجه متن مورد نظر را دستکاری نکند. مثلا اگر جمله ای درون علامت {} آمد به درون آن کاری نداشته باشد و مستقیما آن را به خروجی منتقل کند.
یکی از نقاط ضعفی که در برنامه موجود می باشد این است که متن خروجی به صورت پشت سرهم چاپ می شود و مثلا اگر در متن ورودی سرخط رفته باشیم، این امر نادیده گرفته می شود. این اشکال باید در آینده تصحیح شود.
برنامه باید قابلیت این را پیدا کند که از کاربر بازخورد گرفته و بر اساس آن بازخورد عملکرد خود را بهبود بخشد.
باید قابلیتی به برنامه اضافه شود تا خود برنامه پس از نصب بر روی دستگاه طرح بندی یا همان Layout صفحه کلید را تشخیص داده و بر اساس آن جایگزینی حروف را انجام دهد. زیرا طرح بندی تمام صفحه کلید ها یکسان نیست و با یکدیگر تفاوت دارند.

منابع و مراجع

Third international joint on conference on Natural Language Processing , January 2008
Natural Language Processing , Raymond J. Mooney
A general language model for information retrieval , Fei Song and W.Bruce Croft
All our N-gram are belong to you , Alex Franz and Thorsten Brants
مدل های زبان های طبیعی

ارزیابی شرح مسئله و کارهای مرتبط 1394/01/29

محمد عبدوس

با عرض سلام و آرزوی توفیق روز افزون. از زحماتی که در این فاز پروژه انجام داده اید تشکر میکنم. نکاتی را که باید در این فاز رعایت میکردید در زیر آورده شده است:
1- مراجعی را که گذاشته اید کامل نیست(قالب مرجع را ندارد مثلا سال، ژورنال و ...) و 2 موردی را که گذاشته بودید در مورد ngram , language model بود و اینکه از اینها باید به چه نحوی در پروژه استفاده شود صحبتی صورت نگرفته بود. بهتر بود مقالاتی را که در زمینه تشخیص زبان است مطالعه میکردید.
2- در مورد ابزار تشخیص زبان گوگل خیلی صحبت نکرده بودید و در مورد سایر ابزارها اینکه مشکلات این ابزارها چیست حرفی زده نشده بود(غیر از مشکل پشتیبانی نکردن از زبان فارسی).
3- روش انجام کار مربوط به مقاله ای میشد که عنوان آن مقاله مربوط به بازیابی اطلاعات میشد. بهتر بود مقالات بیشتری را مطالعه میکردید و روش انجام آنها را نیز بررسی میکردید.
4- بهتر بود برای توضیح ngram model اگر مطلب را از جایی برداشت کرده اید لینک آن را هم قرار میدادید(مثلا از اینجا http://ce.sharif.edu/~h_forghani/%D9%85%D8%AF%D9%84%20%D9%87%D8%A7%DB%8C%20%D8%B2%D8%A8%D8%A7%D9%86%20%D8%B7%D8%A8%DB%8C%D8%B9%DB%8C.htm)
5- در مورد چالشهایی که برای این کار وجود دارد صحبتی نکرده اید. این چالشها میتوانند چالشهای مربوط به زبان فارسی باشند(مثلا چسبیده بودن حروف، چند نوشتاری بعضی کلمات مانند اتاق یا اطاق و ...) یا چالشهای داده و ...
6- توضیحی در مورد چگونگی استفاده از داده آموزش نداده اید. اینکه آیا برای این کار نیاز به داده آموزش است یا خیر و اگر است چطور باید تهیه شود
از توجهتون ممنونم

ارزیابی پیاده‌سازی و گزارش نتایج 1394/02/27

تایید شده

به نام خدا
پروژه شما را مطالعه کردم. ضمن عرض خسته نباشید به عرض چند نکته بسنده می‌کنم.

قراردادن کورپوس در سایت گیت‌هاب کار درستی نیست. بهتر بود کورپوس‌های خود را در جایی دیگر آپلود می‌کردید و آدرس و نحوه‌ی قراردادن آن در پروژه را در یک فایل متنی کوچک توضیح می‌دادید.
استفاده از نیم‌فاصله یک عادت زیبا در فارسی‌نویسی است که در صورت رعایت آن، خواننده ترغیب بیشتری به مطالعه متن شما پیدا می‌کند.
اگر می‌توانستید یک فایل تست حاوی 100 جمله ایجاد کنید و لااقل به صورت دستی درصد دقت برنامه را محاسبه کنید و در اختیار خواننده بگذارید بسیار بهتر می‌شد.
در کل تلاش شما در این فاز پروژه قابل تحسین و مورد قبول است و نقاط ضعفی که مطرح کردید قابل برطرف‌کردن هستند و مشکلی در روند کار شما ایجاد نمی‌کنند.
به امید موفقیت شما در ادامه‌ی تکمیل این پروژه و توسعه این سیستم بسیار کارآمد

با سلام
1- در مورد "برنامه با توجه به پردازش هایی که از قبل بر روی متون فارسی و انگلیسی مختلف انجام داده است" توضیحی داده نشده است.
2- در مورد نحوه تشخیص کلمات درون یک مت توضیحی داده نشد که آیا عملیات یکسان سازی هم روی متن انجام میدهید یا خیر؟ مثلا اگر راهکار شما برای تشخیص کلمه استفاده از فاصله باشد کلماتی مانند "می آورم یا سی ان ان " را که با فاصله جدا شده اند را چند کلمه در نظر میگیرید؟
3- نحوه تشخیص صورت صحیح کلمه در قسمت "روش پیاده سازی شده" آورده نشده است. فقط به گفتن "برنامه صورت صحیح آن را تشخیص داده" اکتفا کرده اید.
4- صحبتی از ارزیابی پروژه نداشته اید. درصد دقت برنامه و صحت آن از جمله مواردی است که باید در گزارش خود قرار میدادید.
از تلاشی که انجام داده اید سپاسگزارم.

با عرض سلام و احترام
مسئله به خوبی توضیح و بسط داده شده بود، نکته ای که در این میان حائز اهمیت است که این استثنایی که فرمودید(در جمله بعدی به آن اشاره کرده ام) در هیچ جا از برنامه شما پیاده سازی نشده بود
"همچنین با توجه به اینکه ممکن است کلمه وجود داشته باشد که هم صورت فارسی آن و هم صورت انگلیسی آن در هر دو زبان وجود داشته باشد، کلمه ای توسط برنامه انتخاب می شود که در آن زبان پرکاربرد تر باشد."
نکته بعدی این که پرکاربرد بودن یک کلمه در دوزبان چگونه محاسبه می شود؟به این نکته اشاره نشده بود!
در این آدرس https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf
قبل از روش n-gram روش bigram, Markov!Assump1on توضیح داده شده است لطفادلایل خود را برای گذر از این دو روش و انتخاب n-gram بفرمایید.
در نهایت تشکر می کنم از زحماتی که برای تحلیل و پیاده سازی این پروژه کشیدید.

با سلام و خسته نباشید...
کار شما تا این مرحله نسبتا خوب بوده است.هر چند دارای چند ایراد جزیی می باشد :
۱.منابعی که استفاده کرده اید خیلی کم است که شاید یک دلیل آن ساده و واضح بودن پروژه شما است اما اگر از منابع بیشتری استفاده می کردید قطعا کارتان اعتبار بیشتری پیدا می کرد.
۲.باید سعی کنید تا جایی که ممکن است از کلمات فارسی استفاده کنید و مترادف انگلیسی آن ها را در پاورقی بیاورید.( مثلا استفاده از مدل های طبیعی زبان به جای natural language model.)
۳.در منابع خود لینک یک سایت را قرار داده اید که بهتر بود آن را در بخشی با عنوان پیوند های مفید قرار می دادید.
۴.بهتر بود در قسمت پاورقی نام منابع را نمی آوردید.
۵.در متنتان به ندرت قسمتی را به یک منبع ارجاع داده اید.(مثلا قسمت هایی از بخش حل مساله را از سایتی که در منبع قرار داده اید گرفتید ولی ارجاعی وجود ندارد.)
از جمله نکات مثبت کارتان یکی رعایت سادگی و اختصار در توضیح هایتان است و دیگر اینکه کدتان به درستی کار می کند و نتیجه قابل قبولی داشته است.

ارزیابی بهبود نتایج و تکمیل گزارش 1394/04/10

در نگارش نکات زیر را رعایت کنید:
برای شکل ها و روابط شماره و توضیح قرار دهید.
منابع باید شماره داشته باشند و با شماره در متن به آنها ارجاع داده شود.
لینک ها هم باید تاریخ رویت داشته باشند که اینجا رعایت نشده.

بیان اهمیت و مفاهیم و نحوه انجام آزمایش و مثال های مختلف خیلی خوب بیان شده. تنها اشکالاتی که به نظر من اومد یکی بعضی جمله بندی ها و کلمات در ابتدای پروژه خیلی مناسب نیست. ضمن این که در انتهای پروژه نتیجه که بیان شده مثلا 98 درصد موفق بوده خیلی خلاصه و در یک جمله گفته شده یعنی این که آزمایشی انجام بشه و آمار بر حسب مستندات ارائه بشه وجود نداشت.
اما بقیه توضیحات واقعا کامل و خوب بود.

با سلام
خسته نباشی میگم به شما . کارتون خوب بود ولی نکاتی رو که نیاز بود رعایت کنید در زیر آوردم:
1- همیشه برای اعلام دقت باید نحوه محاسبه اون رو هم بیارید اینطوری که بگید 98 درصد دقت داشته خیلی نمیتونه معیار دقیقی باشه .
2- حتما مراجع شماره گذاری شوند که مشخص شود در کدام قسمت متن از کدام مرجع استفاده کرده اید.
3- بهتر بود فلوچارتی از نحوه پردازش ها تا رسیدن به مرحله خروجی رسم میکردید که کمک بهتری به درک سیستم میکرد.
4- غلط های املایی هم که در متن وجود داشت را اصلاح کنید . برای نمونه پزدازش
5- در کل کارتون خوب بود و با توجه به کارهای آینده دقت و کارآیی سیستم خیلی بهتر میشه
موفق باشید

تشخیص خودکار زبان