استخراج کلمات کلیدی از متن

تغییرات پروژه از ابتدا تا تاریخ 1392/12/24


# مقدمه
+ بسم الله الرحمن الرحیم

با توجه به گسترش متون و مستندات الکترونیکی فارسی ، استفاده  از روشی کارآمد جهت [بازیابی اطلاعات](http://fa.wikipedia.org/wiki/%D8%A8%D8%A7%D8%B2%DB%8C%D8%A7%D8%A8%DB%8C_%D8%A7%D8%B7%D9%84%D8%A7%D8%B9%D8%A7%D8%AA) ضروریست.
برای بازیابی اطلاعات ، پی بردن به مفهوم اصلی متن ،رده بندی متون و یافتن کلمات مناسب برای جست و جو  و مقالات ؛ استخراج کلمات کلیدی بهترین روش است.
کلمات کلیدی مجموعه ای از لغات مهم در یک مستند هستند که توصیفی از محتوای مستند را فراهم می آورند و برای اهداف مختلفی قابل استفاده هستند. 

*یکی از عملیات های مهم در فرآیند های
 [خوشه بندی](http://fa.wikipedia.org/wiki/%D8%AE%D9%88%D8%B4%D9%87%E2%80%8C%D8%A8%D9%86%D8%AF%DB%8C) ، طبقه بندی و استخراج اطلاعات ، استخراج کلمات کلیدی از متن است.

*با یافتن کلمات کلیدی می توان راحت تر و در زمانی کوتاه تر  به مفهوم یک متن یا مقاله پی برد

*همچنین برای بازگرداندن مستندات بهتر و نتایج دقیق تر از موتورهای جست و جو از کلمات کلیدی استفاده می شود.

در مجموع کلمات کلیدی ابزار مفیدی برای جست و جوی حجم زیادی از مستندات در زمان کوتاه هستند.
 لازمه استخراج کلمات کلیدی از متن دقت زیاد است ؛ با عنایت به این مطلب و با توجه به اینکه  این فرآیند بسیار دشوار و زمان بر است ، نیاز به یک فرآیند خودکار برای استخراج کلمات کلیدی احساس می شود.
لذا در این پروژه تصمیم برآن است که روشی برای استخراج خودکار کلمات کلیدی از متن بیان و پیاده سازی شود.


# کارهای مرتبط
+ فرآیند کلی استخراج کلمات کلیدی به شرح زیر است:
ابتدا کلمات اضافی حذف شده و سایر کلمات ریشه یابی و برچسب گذاری میشوند.
سپس تعدادی ازکلمات به عنوان کاندید مشخص می شوند که به هر کلمه کاندید وزنی اختصاص داده میشود.
در مرحله آخر کلمات کلیدی دارای بیشترین وزن انتخاب می شوند.

متداول ترین روش برای انتخاب کلمات کلیدی n-grams است.

روش های استخراج کلمات کلیدی :

روش TF-IDF

روش یادگیری ماشینی

ترکیب روش های تحلیل آماری و زبانشناختی

روش پیشنهادی این پروژه روش TF-IDF است:
در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.


# آزمایش‌ها

# کارهای آینده

# مراجع
بهروز مینایی بیدگلی ، مجتبی وحیدی اصل ، سمیه عربی نرئی ؛ "استخراج کلمات کلیدی جهت طبقه بندی متون فارسی" 

زهره کریمی ، مهرنوش شمس فرد ؛ "سیستم خلاصه سازی خودکار متون فارسی" ، دوازدهمین کنفرانس بین المللی انجمن کامپیوتر ایران ، 1385

امیرشهاب شهابی ، محمدرضا کنگاوری ؛ "چکیده سازی چندنوشتاری زبان فارسی"

Dalianis,  H.;  “SweSum–A   text  Summar izer   f or   Swedish,  Technica l  r eport” ,  TRITANA-P0015,  IPLab-174,  NADA, 
KTH, 2000.

Frantzi, K.;  Ananiadou,  S.;  Mima,  H.;”A utoma tic  Recognition  of   Multi-wor d  Ter ms:   the  C-va lue/NC-value Method ”, 
International Journal on Digital Libraries, 3(2):115-130, 2000