![ان هذا القران یهدی للتی هی اقوم ](http://farhangi.um.ac.ir/portal/sites/default/files/images/logo%20%D8%B1%D9%86%DA%AF%DB%8C.jpg)
#مقدمه
تشخیص آیات قرآنی در متون که عنوان پروژه می باشد بیشتر در مورد متن های تفسیری صادق است به این مفهوم که آیات قرآن در متون تفسیری فارسی بیشتر به چشم می خورد. حال هدف تفسیر آیات قرآن به شرح ذیل است :
ابتدا آیه مورد نظر مطرح می شود سپس آیه به طور یکجا و یا قطعه قطعه به استناد آیات قرآنی دیگر و یا احادیثی از ائمه اطهار(علیهم السلام) و روایات دیگر تفسیر می شود. نکته قابل توجه این است که متن عربی حدیث نیز در کنار توضیح فارسی آن به چشم می خورد (هدفی از طرح بیان این مطلب است که بعدأ ذکر خواهد شد.)
بنابراین متون تفسیری فارسی در داخل متون فارسی که بخش عمده تفسیر را تشکیل می دهند در کنار آیات قرآن کریم ، حاوی متون حدیثی و روایتی است که آن ها نیز مانند قرآن کریم به زبان عربی اند. بنابراین این پژوهش به دو زیر مسئله تبدیل می شود :
1. تشخیص بخش های عربی در متون فارسی تفسیری
2. تشخیص آیات قرآن کریم از سایر متون عربی
مسئله اول به عنوان یک مسئله تشخیص زبان و مسئله دوم به عنوان یک مسئله تشخیص منبع از دیدگاه فنون رده بندی متن (Text Classification) که از زیر شاخه های متن کاوی (Text Mining) است قابل بررسی اند.
از آن جا که مسئله اول در حال حاضر در حیطه این پژوهش نمی باشد با فرض موفقیت سامانه در تفکیک بخش های عربی از فارسی پژوهش حاضر در مسئله دوم متمرکز شده و در آن تلاش بر تفکیک آیات قرآن کریم از سایر متون عربی خواهد بود.
در حقیقت مسئله بر تشخیص آیات قرآن در متون فارسی تأکید دارد.
برای حل این مسئلهحال شاخه علمی که برای حل این مسئله از آن مدد جسته شده است یعنی رده بندی متون توضیح داده می شود.
در این راستا به الگوریتم Benedetteo, Caglioti & Loreto اشاره می شود که می تواند با تکیه بر شیوه استفاده الگوریتم های فشرده سازی از مفهوم آنتروپی در نظریه اطلاعات رشته مورد نظر را حتی در طول بسیار کوچک رده بندی نماید.
در پایان شیوه ای خاص که توسط دکتر شکراللهی فر و همکارانش برای تشخیص آیات قرآنی مورد استفاده قرار می گیرد را توضیح می دهیم.
#کارهای مرتبط
محققان مشکل تشخیص آیات قرآن کریم در متون را از چند نظر بررسی می کنند :
*تذکر*: به دلیل زیاد بودن متن تفسیری از آوردن آن در این جا معذورم.
1. برای نمونه متنی از ترجمه تفسیر مجمع البیان را در اختیار داریم ، این متن به این صورت است که بسیاری از پیکره متن فارسی و دارای بخش هایی عربی (آیات قرآن دارای اعراب) می باشد ، در این صورت چون متن قرآنی دارای حرکت است به راحتی از متن اصلی تمییز داده می شود ولی این همیشه صادق نیست.
2. متن دیگری را در نظر بگیرید که آیات دارای حرکت نیستند و به همین دلیل با احادیثی از ائمه اطهار(علیهم السلام) که در همان متن تفسیری می باشد اشتباه گرفته شده و همین امر مسئله تفکیک و تشخیص آیات را دچار مشکل می کند.
3. در همین راستا ممکن است برخی از اشعار عربی نیز در متون تفسیری یافت شوند و چون که آیات قرآنی دارای حرکت و اعراب نمی باشند هیچ مشخصه ظاهری ندارند که از سایر متون عربی تمییز داده شوند.
4. از لحاظ طول آیات قرآنی نیز در نمونه ای از تفسیر نور نکات قابل توجهی نهفته است: در این نمونه آیه مورد نظر هم به طور کامل به کار رفته است و هم در حد عبارت و یا حتی کلمه تنها شکسته شده است.
بنابراین در متون فارسی تفسیری :
1. نه تنها تمامی بخش های فارسی بلکه بسیاری از آیات قرآنی مخلوط شده نیز فاقد حرکت می باشند.
2. این آیات در کنار بخش های عربی دیگر نظیر احادیث و اشعار قرار گرفته اند.
3. این آیات در طول های مختلف از جمله طولانی گرفته تا یک کلمه تنها در داخل متون فارسی مخلوط شده اند.
#رده بندی و تشخیص منبع متن:
مسئله تشخیص منبع یک متن در کنار دیگر متونی که از منابعی دیگرند ولی هم متن مورد نظر و هم دیگر متون به زبانی یکسان نگاشته شده اند حوزه ای است که از منظر رده بندی متن نگریسته می شود.
از جمله کاربردهای مبحث رده بندی (طبقه بندی ، دسته-بندی یا کلاس بندی) متن است که در آن سه مرحله پیش-پردازش ، آموزش رده بند و رده بندی وجود دارد.
در مرحله پیش-پردازش, دانش موجود در هر متن باید بازنمایی شود تا قابل استفاده نرم افزارهای رده بندی گردد. این بازنمایی به شکل مدل برداری از ویژگی های متن که برگرفته از عناصر موجود در آن است انجام می گیرد. رایج ترین این ویژگی ها کلمه است که برخی مواقع بوسیله نرم افزارهای پردازش زبان طبیعی با برچسب هایی همراه می شوند که حاوی اطلاعات صرفی- نحوی آنها است. در برخی موارد این ویژگی ها به صورت های پیچیده تری نیز تبدیل می شوند که رایج ترین شیوه استفاده از مدل سازی چند-گرمی است. برای بازنمایی متون با استفاده از ویژگی های مناسب استخراج یا ساخته شده از همان متون هر یک از این ویژگی ها به ارزشی عددی نگاشت داده می شود که به عنوان وزن آن ویژگی در متن مورد نظر محاسبه می شود. برای این منظور ماتریس m×n ایجاد می شود که در آن m کل متن های موجود در رده ها، n کل ویژگی های ایجاد شده، و Aij تعداد تکرار ویژگی i یا به عبارتی وزن آن در متن j است.
در این هنگام بطور معمول مشکل گستره و پراکندگی زیاد وزن این ویژگی ها پیش می آید که برای حل آن به شیوه های گزینش ویژگی ها رجوع می شود تا مقادیری از ویژگی ها که بیش از دیگران قابلیت تمییز دهندگی متون را دارند گلچین شوند.
در مرحله آموزش رده بند، برای ایجاد سامانه های رده بندی از سامانه های یادگیری ماشین با ناظر بهره گیری می شود. این سامانه ها بوسیله ویژگی- وزنهای به دست آمده در مرحله پیش-پردازش ازمتونی که تحت عنوان متون آموزشی از قبل رده بندی شده اند آموزش داده شده و به یک رده بند متون تبدیل می شوند.
در مرحله رده بندی، متون مورد نظر برای رده بندی، پس از گذر از مرحله پیش-پردازش و تبدیل به بردارهای مقدار- وزن در قالب ویژگی های انتخاب شده در مرحله آموزش، به رده بند داده می شوند تا،مطابق با رده های از قبل آموزش داده شده به رده بند، در یکی از رده های آن رده بندی شوند. میزان موفقیت رده بند در این رده بندی معادل ارزیابی انجام شده بر روی آن در مرحله آموزش فرض می شود.در اجرای مراحل فوق برای ایجاد یک رده بند، آنچه رده بندهای مختلف را از یکدیگر متمایز می کند بیشتر نوع و چگونگی استفاده از ویژگی ها در مرحله پیش-پردازش است به علاوه نوع سامانه یادگیری ماشینی که انتخاب شده و برای منظور خاص تنظیم می شود.
حال به دو نمونه از فنون موفق که برای استفاده از ویژگی های متون به منظور تأیید منبع بکار رفته اند اشاره می شود:
# 1. الگوریتم Benedetteo, Caglioti & Loreto
یکی از شیوه های غالب کنونی در ایجاد، استخراج و گزینش ویژگی های متن روش مورد استفاده توسط Darrio Benedetteo, Emanuele Caglioti and Vittorio Loreto است که در آن برای تشخیص منبع رشته فرضی از ویژگی توالی کلمات استفاده شده و برای وزن دهی مقادیر ویژگی ها ازفنون نظریه اطلاعات بهره گیری شده است.
به نظر گروه فوق، بسیاری از پدیده های طبیعی، همچون زبان و توالی DNA و پروتئین،اغلب به صورت رشته هایی از کاراکترها بازنمایی می شوند که با تجزیه آنها می توان اطلاعاتشان را استخراج کرد. به طور مثال در مورد توالی DNA و پروتئین می توان زیر-توالی هایی که نشانگر ژنها و کارکردشان است تشخیص داد. و در متون مکتوب می توان زبان، نگارنده و موضوع آنرا مشخص ساخت.
#ارزیابی الگوریتم :Benedetteo, Caglioti & Loreto
ارزیابی گزارش شده توسط طراحان این الگوریتم در بکارگیری آن برای رده بندی متونی در زبانهای رایج اروپایی حاکی از صحت 93.3 % آن است. هرچند بکارگیری این الگوریتم برای رده بندی متون فارسی وعربی توسط طراحان آن گزارش نشده است، در آزمایش های اولیه در تشخیص آیات قرآن کریم واحادیث از یکدیگر بر اساس الگوریتم فوق توسط شکرالهی و همکارانش در دانشگاه نبی اکرم (ص)،تبریز،صحت مشابه حاصل شده است.
# 2. بهره گیری از سامانه خبره مبین
شیوه دیگری که توسط شکرالهی و همکارانش برای ایجاد و گزینش ویژگی های متنی در تشخیص آیات قرآن کریم و احادیث از یکدیگر استفاده شده است بکارگیری سامانه خبره مبین است که به منظوربرچسب گزاری دستوری واژه ها در متون عربی کلاسیک، همانند قرآن کریم و احادیث، توسط شکرالهی وهمکارانش طراحی و پیاده سازی شده است.
مرحله پیش-پردازش:
برخلاف الگوریتم قبلی که در آن سنگ بنای ویژگیهای ایجاد شده کلمه است، در این الگوریتم بجای
کلمه از برچسبهای دستوری کلمهها بهرهگیری میشود. به عنوان مثال رشته ذیل ترجمه یکی از آیه
های قرآن کریم به تنها یک دسته از برچسبهای دستوری کلمههای آن است.
PN PN PN PN @ PN PN V PN @ PN PN PN @ N N PN @ N V P N
در ایجاد ویژگیهای متنی، از این رشتههای ساده با استفاده از مدلسازی چند-گرمی ١ رشتههای ترکیبی
ساخته میشود، که تا کنون آزمایشات بیشتر روی جفت-گرمیها انجام یافتهاند. گزینش بهینه در بین
این ویژگیها بر اساس تابع خی-دو ٢ انجام می گیرد. بر اساس گزارشات پژوهشی متعدد در ردهبندی
متن، این تابع که در شماره ( 9) ارائه شده است بهتر از توابع مرسوم دیگر در دادهکاوی ٣ نتیجهبخش بوده
است.
N*(TP*TN-FP*FN)^2]/(TP+FN)*(FP+TN)*(TP+FP)*(FN+TN)]=X^2
در این تابع که میزان وابستگی یک ویژگی مورد نظر و یک رده در مقایسه با سایر ردهها را با یک عدد
بیان کرده و در صورت صفر بودن نشاندهنده عدم وابستگی معنیدار است، آرگومانهای استفاده شده به
شرح ذیل میباشند.
TP:تعداد تکرار ویژگی مورد نظر در رده مثبت
FP:تعداد تکرار ویژگی مورد نظر در سایر ردهها
FN:تعداد متون فاقد ویژگی مورد نظر در رده مثبت
TN:تعداد متون فاقد ویژگی مورد نظر در سایر ردهها
N:کل تعداد متنها در تمامی ردهها
بر اساس حاصل این تابع به ازای هر ویژگی- رده، برای هر رده ویژگیهایی که دارای بالاترین مقدارند
گزینش میشوند، که تعداد آنها بطور معمول بین 1% تا 10 % تعداد کل ویژگیهاست. آنگاه نوبت وزن-
به ترتیب ( 10 ) محاسبه میشود. TF.IDF دهی به این ویژگیهاست که تابع رایج آن بر اساس تابع
TF.IDF=TF. logN/DF
در این تابعبه تعداد تکرار ویژگی مورد نظر ١ یا به اصطلاح وزن آن در متن مورد نظر، ٢ TFبه تعداد DFمتنهای شامل آن ویژگیبه معکوس ٣ IDFبه تعداد کل متنها اشاره دارند. N و ،DF
بدین ترتیب ماتریس بزرگ قبلی با سلولهایی که حاوی تعداد تکرار تمامی ویژگیهای ایجاد شده در
تمامی متنها بود به ماتریسی بسیار کوچک تبدیل میشود که سلولهای آن حاوی وزنهای ویژگیهای
گزینش شده برای همان متنهاست.
مرحله آموزشردهبند:
ماتریس نهایی ایجاد شده در مرحله پیش- پردازش به عنوان مجموعه داده آموزشی برای سامانههای
و نیز SVM یادگیری ماشین با ناظر استفاده میشود. تا کنون سامانههای یادگیری ماشین با ناظر ١
درختهای تصمیم گیری ٢ با ویژگیهای فوق برای تشخیص دسته آیات قرآنی از یکدیگر آموزش داده شده
اند، ولی در زمینه تشخیص آیات قرآنی از احادیث و متون مشابه آزمایشات هنوز ادامه دارند.
مرحله ردهبندی و ارزیابی:
سامانههای فوق موفقیت چشمگیری در تشخیص دسته آیات قرآنی از یکدیگر، مانند آیات مکی از آیات
حدود F-score مدنی و نیز آیات جزءهای ابتدایی قرآن از جزءهای دیگر آن داشتهاند. در هر دو مورد
%95 مشاهده شده است.
نتیجهگیری:
بر اساس توضیحات عرضه شده در تشخیص هوشمند آیات قرآن در متون فارسی تفسیری، به جهت
مخلوط بودن بخشهای دیگر عربی مانند احادیث و اشعار عربی در این متون و شباهت آنها با آیات
قرآنی، ابتدا باید سامانهای دیگر کلیه بخشهای عربی را از داخل متون فارسی تفسیری جدا نماید و سپس
در این بخشهای عربی آیات قرآن تمییز داده شوند. از طرفی دیگر، این بخشهای عربی در قالب رشته-
هایی با طولهای زیاد به اندازه یک آیه کامل یا چند سطر تا طولهای بسیار کوتاه در حد یک کلمه
ظاهر شدهاند.
با نگریستن به سامانه هوشمند تشخیص آیات قرآن در متون فارسی تفسیری به عنوان سامانهای برای
در کنار موفقیت قابل توجه در ،Benedetteo, Caglioti & Loreto تأیید منبع متن، الگوریتم
تشخیص منبع رشتههای طولانی، توفیق شایانی در خصوص رشتههای بسیار کوتاه نداشته است. سامانه-
ای که برای حل این معضل با تلاش شکرالهی و همکارانش در حال ایجاد شدن است، با وجود نتیجه
بخش بودن در تفکیک آیات قرآنی از یکدیگر، در تفکیک آنها از متون عربی دیگر از جمله احادیث هنوز
به سرانجام نرسیده است. به نظر میرسد پژوهش بیشتری باید در راستای شناسایی وجه ممیزه زبان
قرآن با سایر متون مشابه انجام پذیرد.
#مراجع
1. جستجوی هوشمند عبارات قرآنی در متون دیجیتال ، محمد حبیب زاده بیژنی
2. رده بندی متون فارسی با استفاده از روش های آماری ، محمد حسین الهی منش – دکتر بهروز مینایی
3. امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو ؛ قوانین سیستم تشخیص اسم و خبر نواسخ (خانواده اِنّ) ، محمد رضا جوان آراسته – دکتر بهروز مینایی
4. کنکاشی در الگوریتم های خطایابی ، دکتر بهروز مینایی – محمد حسین شیخ الاسلام
5. کاربرد های داده کاوی در علوم اسلامی ، حسن عابدینی – دکتر بهروز مینایی
6. برچسب گذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف ، محمد حسین الهی منش – دکتر بهروز مینایی
7. امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو ؛ قوانین سیستم تشخیص حدود جمله ، محمد امین الهی منش – دکتر بهروز مینایی
8. امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو ؛ قوانین سیستم تشخیص معطوف و معطوف علیه (واو)، محمد رضا جوان آراسته – دکتر بهروز مینایی
9. شناسایی واحد های اسمی در زبان عربی ، دکتر بهروز مینایی – محمدرضا وفائی
10. مروری بر نرم افزار هوشمند صرف ، حامد مقیسه
11. سیستم هوشمند برچسب گذار ادات سخن زبان عربی ؛ لایه صرف ، حبیب سریانی – دکتر بهروز مینایی
12 . A new framework for detecting similar texts in Islamic Hadith Corpora
Hossein Juzi
, Ahmed Rabiei Zadeh
, Ehsan Barati
, Behrouz Minaei-Bidgoli
Computer Research Center of Islamic Sciences, Qom, Iran
School of Engineering, Qom University, Qom, Iran
Iran University of Science and Technology, Tehran, Iran
13 . Automatic classification of Islamic Jurisprudence Categories
Mohammad Hossein Elahimanesh,
Behrouz Minaei-Bidgoli,
Hossein Malekinezhad
Islamic Azad University, Qazvin Branch, Qazvin, Iran
Iran University of Science and Technology, Tehran, Iran
Islamic Azad University, Naragh Branch, Naragh, Iran
Computer Research Center of Islamic Sciences, Qom, Iran
14 . A framework for detecting Holy Quran inside Arabic and Persian texts
Mohsen Shahmohammadi1
, Toktam Alizadeh
, Mohammad Habibzadeh Bijani
,Behrouz Minaei
Islamic Azad University Tehran (North), Tehran, Iran,
Computer Research Center of Islamic Sciences (Noor), Qom, Iran
University of Science and Technology, Tehran, Iran
15 . Extracting person names from ancient Islamic Arabic texts
Majid Asgari Bidhendi, Behrouz Minaei-Bidgoli, Hosein Jouzi
School of Computer Engineering, Iran University of Science and Technology, Tehran, Iran
Computer Research Center of Islamic Sciences, Qom, Iran
16 . An Introduction to Noor Diacritized Corpus
Akbar Dastani,
Behrouz Minaei-Bidgoli,
Mohammad Reza Vafaei,
Hossein Juzi
Computer Research Center of Islamic Sciences, Qom, Iran
Iran University of Science andTechnology, Tehran,Iran
17 . Grammatical Analysis of Quranic Arabic using
Artificial Intelligence
Posted by kaisdukes on September 13, 2010
18 . An Artificial Intelligence approach
to Arabic and Islamic content on the internet
Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha, Abdul-Baquee Sharaf
I-AIBS Institute for Artificial intelligence and Biological Systems,
School of Computing, University of Leeds, Leeds LS2 9JT, UK
19 . An Introduction to Noor Corpus and its
Language Model
Mohammad Hossein Elahimanesh
Islamic Azad University, Qazvin Branch, Qazvin, Iran
Computer Research Center of Islamic Sciences
Qom, Iran
Behrouz Minaei-Bidgoli
Iran University of Science and Technology, Tehran, Iran
Computer Research Center of Islamic Sciences
Qom, Iran
Mohammad Javad Gholami
Computer Research Center of Islamic Sciences
Qom, Iran
Hossein Juzi
Computer Research Center of Islamic Sciences,
Qom, Iran
20 . The Qur'an Annotation for Text Mining
School of Computing
By : Abdul-Baquee M. Sharaf Supervisor
Dr. Eric Atwell
# پیوندهای مفید
* [دریافت متن قرآن کریم](http://tanzil.net/)
* [متن عربی و فارسی المیزان که برای تست مفید است](http://zolal.sobhe.ir/#almizan_ar/2_1
#مرحله پیش-پردازش:
برخلاف الگوریتم قبلی که در آن سنگ بنای ویژگی های ایجاد شده کلمه است، در این الگوریتم بجای کلمه از برچسب های دستوری کلمه ها بهره گیری می شود. به عنوان مثال رشته ذیل ترجمه یکی از آیه های قرآن کریم به تنها یک دسته از برچسب های دستوری کلمه های آن است.
PN PN PN PN @ PN PN V PN @ PN PN PN @ N N PN @ N V P N
در ایجاد ویژگی های متنی، از این رشته های ساده با استفاده از مدلسازی چند-گرمی رشته های ترکیبی ساخته می شود، که تا کنون آزمایشات بیشتر روی جفت-گرمی ها انجام یافته اند. گزینش بهینه در میان ویژگی ها بر اساس تابع خی-دو انجام می گیرد. بر اساس گزارشات پژوهشی متعدد در رده بندی متن، این تابع که در زیرارائه شده است بهتر از توابع مرسوم دیگر در داده کاوی نتیجه بخش بوده است.
N*(TP*TN-FP*FN)^2]/(TP+FN)*(FP+TN)*(TP+FP)*(FN+TN)]=X^2
در این تابع که میزان وابستگی یک ویژگی مورد نظر و یک رده در مقایسه با سایر رده ها را با یک عددبیان کرده و در صورت صفر بودن نشان دهنده عدم وابستگی معنی دار است، آرگومان های استفاده شده به شرح ذیل میباشند.
TP:تعداد تکرار ویژگی مورد نظر در رده مثبت
FP:تعداد تکرار ویژگی مورد نظر در سایر رده ها
FN:تعداد متون فاقد ویژگی مورد نظر در رده مثبت
TN:تعداد متون فاقد ویژگی مورد نظر در سایر رده ها
N:کل تعداد متن ها در تمامی رده ها
بر اساس حاصل این تابع به ازای هر ویژگی- رده، برای هر رده ویژگی هایی که دارای بالاترین مقدارندگزینش می شوند، که تعداد آنها بطور معمول بین 1% تا 10 % تعداد کل ویژگی هاست. آنگاه نوبت وزن-دهی به این ویژگی هاست که تابع رایج آن بر اساس تابع TF.IDF به ترتیب زیر محاسبه میشود:
TF.IDF=TF. logN/DF
در این تابع TF به تعداد تکرار ویژگی مورد نظر یا به اصطلاح وزن آن در متن مورد نظر، DF به تعداد متن های شامل آن ویژگی،IDF به معکوس DF و N به تعداد کل متن ها اشاره دارند. بدین ترتیب ماتریس بزرگ قبلی با سلولهایی که حاوی تعداد تکرار تمامی ویژگی های ایجاد شده درتمامی متن ها بود به ماتریسی بسیار کوچک تبدیل می شود که سلولهای آن حاوی وزنهای ویژگی های گزینش شده برای همان متن هاست.
#مرحله آموزش رده بند:
ماتریس نهایی ایجاد شده در مرحله پیش- پردازش به عنوان مجموعه داده آموزشی برای سامانه های یادگیری ماشین با ناظر استفاده می شود. تا کنون سامانه های یادگیری ماشین با ناظر SVM و نیز درختهای تصمیم گیری با ویژگی های فوق برای تشخیص دسته آیات قرآنی از یکدیگر آموزش داده شده اند، ولی در زمینه تشخیص آیات قرآنی از احادیث و متون مشابه آزمایشات هنوز ادامه دارند.
#مرحله رده بندی و ارزیابی:
سامانه های فوق موفقیت چشمگیری در تشخیص دسته آیات قرآنی از یکدیگر، مانند آیات مکی مدنی و نیز آیات جزءهای ابتدایی قرآن از جزءهای دیگر آن داشته اند. در هر دو مورد F-score از آیات حدود %95 مشاهده شده است.
#نتیجه گیری:
بر اساس توضیحات عرضه شده در تشخیص هوشمند آیات قرآن در متون فارسی تفسیری، به جهت مخلوط بودن بخشهای دیگر عربی مانند احادیث و اشعار عربی در این متون و شباهت آنها با آیات قرآنی، ابتدا باید سامانه ای دیگر کلیه بخشهای عربی را از داخل متون فارسی تفسیری جدا نماید و سپس در این بخشهای عربی آیات قرآن تمییز داده شوند. از طرفی دیگر، این بخش های عربی در قالب رشته-هایی با طول های زیاد به اندازه یک آیه کامل یا چند سطر تا طولهای بسیار کوتاه در حد یک کلمه ظاهر شده اند.
با نگریستن به سامانه هوشمند تشخیص آیات قرآن در متون فارسی تفسیری به عنوان سامانه ای برای تأیید منبع متن الگوریتم Benedetteo, Caglioti & Loreto در کنار موفقیت قابل توجه در،تشخیص منبع رشته های طولانی، توفیق شایانی در خصوص رشته های بسیار کوتاه نداشته است. سامانه-ای که برای حل این معضل با تلاش شکرالهی و همکارانش در حال ایجاد شدن است، با وجود نتیجه بخش بودن در تفکیک آیات قرآنی از یکدیگر، در تفکیک آنها از متون عربی دیگر از جمله احادیث هنوزبه سرانجام نرسیده است. به نظر می رسد پژوهش بیشتری باید در راستای شناسایی وجه ممیزه زبان قرآن با سایر متون مشابه انجام پذیرد.
# اطلاعات مربوط به فاز 4 خرداد !
در این مرحله می خواهیم دادههای مورد آزمایش و نحوه ارزیابی کمی مربوط به مساله را در این بخش توضیح دهیم.
# روش پیشنهادی
الگوریتم سیستم تشخیص هوشمند آیات قرآنی دارای 5 مرحله می باشد :
1- ساخت بانک قرآنی
2- پردازش اولیه بر روی متن ورودی
3- شناسایی کلمات قرآنی
4- جستجوی توالی الگوها و تشخیص آیه
5- آدرس دهی و برجسته سازی آیات قرآنی درون متن اصلی
این الگوریتم الگوریتمی نوین مبتنی بر اندیس گذاری متن و الگوها است که ایده اصلی آن نگاشت الگوها و متن مورد پردازش به یک سری آرایه های عددی و پردازش بر روی این اعداد به جای پردازش متن است.
در دو مرحله آیات قرآنی را می یابد
I. با یک الگوریتم تطبیق دقیق چند الگویی اندیسی کلمات قرآنی تشخیص داده شده و به آرایه های عددی بدل می شوند
II. فیلتری طراحی شده که با استفاده از جستجو بر روی اندیس ها توالی اندیسی بین کلمات را تشخیص می دهد و مشخص می کند که این کلمات یک آیه است یا بخشی از آیه یا چند آیه در جاهای مختلفی از قرآن
# نتایج
در این مرحله آزمایش های متفاوتی صورت گرفته است در ابتدا داده های مورد آزمایش را توصیف کرده و سپس نتایج به دست آمده را ارائه و تحلیل می کنیم
نتیجه کلی از میانگین نتایج آزمایش ها به دست آمده است.
#مجموعه داده ها
برای انجام بررسی نتایج از دو منبع استفاده شده است:
منابعی که آیات قرآنی در آن بسیار به چشم می خورد
منابعی که آیات قرآنی کمتری دارد اما کلمات قرآنی در آن زیاد است
این بخش ها طوری مورد آزمایش قرار می گیرند که آیا منابع مشابه با آن ها به اشتباه به عنوان منابع قرآنی در نظر گرفته می شوند یا نه
# معیار های ارزیابی
این سیستم جزو سیستم های بازیابی تشخیص اطلاعات است نه بازیابی داده معین ، چرا که ما با مسائلی من جمله اختلاف رسم الخط ها ، اختلاف قرائات و ... روبرو هستیم
پس باید پردازش بیشتری و پیچیده تری روی سیستم انجام گیرد زیرا بازیابی اطلاعات برخلاف بازیابی داده ها با ابهاماتی رو به رو است بنابراین باید هر چه بیشتر اطلاعات را مدل کنیم تا ابهام در درک اطلاعات توسط سیستم کم شود
در این سیستم همانند سیستم بازیابی اطلاعات معیار صحت ، دقت و معیار F معیار های اصلی ارزیابی اند
معیار صحت تشخیص یک آیه
تعداد کلماتی که به درستی به عنوان قرآن تشخیص داده شده اند نسبت به تعداد کل کلمات قرآنی موجود در متن
معیار دقت تشخیص یک آیه
تعداد کلماتی که به درستی به عنوان قرآن تشخیص داده شده اند نسبت به تعداد کل کلماتی که آیه تشخیص داده شده اند
معیار F
میانگین هارمونیک صحت و دقت و دارای تأثیرات هم زمان هر دو معیار
# نتایج آزمایش ها
متنی که توسط این سیستم هوشمند بررسی می شود برای هر کلمه در آن دو حالت پیش می آید که دو معیار ارزیابی در مورد آن است :
بر اساس کلماتی که قرآن اعلام شده اند
بر اساس کلماتی که قرآن اعلام نشده اند
متنی با 2418 کلمه و فراوانی آیات بالا
نوع کلمات
الف ) کلماتی که قرآن تشخیص داده شده اند
صحت : 1
دقت : 0.866788
معیار F :دارای 0.928641
ب ) کلماتی که قرآن تشخیص داده نشده اند
صحت : 1
دقت : 0.96242
معیار F :دارای 0.98085
ج ) میانگین هندسی کل
صحت : 1
دقت : 0.92864
معیار F :دارای 0.95403
متنی با 3802 کلمه و فراوانی آیات کم
نوع کلمات
الف ) کلماتی که قرآن تشخیص داده شده اند
صحت : 0.95833
دقت : 0.81367
معیار F :دارای 0.8801
ب ) کلماتی که قرآن تشخیص داده نشده اند
صحت : 0.97704
دقت : 0.99555
معیار F :دارای 0.98621
ج ) میانگین هندسی کل
صحت : 0.9676
دقت : 0.89547
معیار F :دارای 0.93014
#مراجع
6. جستجوی هوشمند عبارات قرآنی در متون دیجیتال ، محمد حبیب زاده بیژنی
7. رده بندی متون فارسی با استفاده از روش های آماری ، محمد حسین الهی منش – دکتر بهروز مینایی
8. برچسب گذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف ، محمد حسین الهی منش – دکتر بهروز مینایی
9. امکان سنجی تولید سامانه هوشمند تشخیص آیات قرآن در متون فارسی تفسیری
11. برخی مسائل در طراحی موتور جستجوی قرآنی وب محمدی نصیر ، مجتبی
10. Dario Benedetteo, Emanuele Caglioti & Vittorio Loreto. Language
Treesand Zipping. PHYSICAL REVIEW LETTERS. Volume 88, number 4,
2002.
5. George Forman. Feature Selection for Text Classification. Computational
Methods of feature Selection. CRC Press/Taylor and Francis Group, 2007.
6. Mahmoud Shokrollahi-Far, Behrouz Minaei, Issa Barzegar, Hadi
Hossein-Zadeh, Mojhdeh Ghasdi, Salman Hoseini. Bootstrapping Tagged
Islamic Corpora. In Proceedings of 2nd International Conference on Arabic
Language Resources and Tools, Cairo, Egypt. 2009.
7. Mahmoud Shokrollahi-Far. Mobin Exper System: Grammatical Tagger
for Classical Arabic. Submitted to 10th International Conference on the
Statistical Analysis of Text Data, Italy. 2010.
8. Mahmoud Shokrollahi-Far. Source Verification of Quranic Texts.
Submitted to 10th International Conference on the Statistical Analysis of Text
Data, Italy. 2010 . (ارجاع مربوط به شکراللهی و همکران)
# پیوندهای مفید
* [دریافت متن قرآن کریم](http://tanzil.net/)
* [متن عربی و فارسی المیزان که برای تست مفید است](http://zolal.sobhe.ir/#almizan_ar/2_1)
* [سورس کد](http://uplod.ir/5ob9rnkiaskz/code.txt.htm)