مقدمه:

توسعه سیستمهای رایانه ای و گسترش استفاده از فناوری اطلاعات در زندگی روزمره باعث شده تا اطلاعات از درجه ی اهمیتی والا برخوردار شوند؛ چنانکه عصر حاضر را عصر اطلاعات نامیده اند.اطلاعات تولید شده و میزان استفاده از اطلاعات، دو معیار اساسی برای توسعه کشورها به شمار میآیند.هر چه حجم اطلاعات افزایش می یابد کنترل و مدیریت آن مشکل تر میشود. لذا تولید و وجود اطلاعات به تنهایی کافی نیست بلکه باید ابزارهایی برای استفاده از این اطلاعات فراهم شوند. در واقع کاربران بایدبدانند که چگونه باید به نیاز اطلاعاتی خود در این حجم عظیم منابع اطلاعاتی پاسخ دهند. درنتیجه روشهای بازیابی اطلاعات در قالب پاسخدهی به نیاز اطلاعاتی کاربران اهمیت ویژهای پیدا میکند.در دنیای کنونی این کمبود اطلاعات نیست که مسأله است بلکه کمبود دانشی است که ازاین اطلاعات میتوان حاصل کرد . میلیونها صفحهی وب، میلیونها کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت تنها چند دست از این منابع اطلاعاتی هستند. اما نمیتوان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش خلاصه ی اطلاعات است و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات.

سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیر ساختیافته گسترده شده در جهان وجود دارد1.. بازیابی اطلاعات ،2. استخراج اطلاعات 3 .کشف دانش درمتن، این سه روش برخورد با این مسئله هستند که با یافتن کلمات کلیدی می توان راحت تر و در زمانی کوتاه تر به مفهوم یک متن یا مقاله پی برد .ساده ترین روش برای یافتن وا ژگان کلیدی، استفاده از فراوانی واژه است.البته این روش آنچنان کارآمد نیست.

هدف از این پروژه پیدا کردن روشی برای استخراج خودکار کلمات کلیدی از متن میباشد.

کارهای مرتبط:

فرض کنید که میخواهیم یک سیستم بازیابی اطلاعات ایجاد کنیم برای هر سیستم سه بخش وجود دارد:
-1 حذف کلمات پرتکرار .
-2 حذف پسوندها از کلمات:
-3تشخیص ریشه های معادل
در مورد 2 روش مهم وزن دهی صحبت خواهیم کرد

  • 1.term frequency : تعداد دفعات تکرار واژه در متن مقاله استtf))

    2.inverse document frequency: معکوس فراوانی واژه در اسناد یک پیکره است(idf)

و همچنین به معرفی یک الگوریتم مهم استخراج کلمات کلیدی از متن میپردازیم. [Kea(key extraction algorithm)[2].: [1
Kea(key extraction algorithem):

این الگوریتم از دو پارامترTF.IDF و فاصله استفاده میکند.پارامتر TF.IDFیکی از پرکاربردترین روابط در حوزه بازیابی اطلاعات متنی میباشد .در این الگوریتم idf عبارت T در سند D محاسبه میشود وفاصله هم به معنی این است که اولین بار در چه موقعیتی عبارت T ظاهر شده است. که در ادامه پروژه به طور مفصل در مورد آن بحث می شود.


[1]>(Learning to Extract Significant Phrases from Text: Yuan J. Lui)
[2]>E. Frank, G. Paynter, I. Witten, C. Gutwin and C. Nevill-Manning, “Domain-Specific
Keyphrase Extraction”, Proceedings of 16th International Joint Conference on Artificial
Intelligence, California, USA, Morgan Kaufmann, 1999, pp. 668-673.

محسن ایمانی

در این فاز ز شما انتظار بیشتری در تعریف کارهای مرتبط می‌رفت که محقق نشده است.

  • استخراج کلمات کلیدی از متن با روش‌های متنوع و متفاوتی صورت می‌پذیرد که شما اشاره‌ای به بسیاری از این نوع روش‌ها در کارهای مرتبط نکرده‌اید و تنها به معرفی یک روش پرداخته‌اید.

  • روشی را که برای معرفی انتخاب کرده‌اید را هم متاسفانه در حد کافی توضیح نداده‌اید و تنها به نام بردن و یک توضیح چند جمله‌ای اکتفا نموده‌اید.

  • همان‌طور که ذکر کردید استخراج کلمات کلیدی از متن دارای بخش‌های مختلفی هست که نام برده‌اید. اما روش‌های انجام هر کدام از این بخش‌ها نیز در هیچ جای متن شما ذکر نشده‌ است.

  • مراجع را به صورت بسیار ناقص و مبهم ذکر کرده‌اید، مثلا مرجع دوم شما اصلا مشخص نیست که کتاب است یا مقاله، نامش چیست و یا در چه سالی منتشر شده است.

انشالله در فازهای بعدی تلاش بیشتری را در پیاده‌سازی صورت دهید.