استخراج کلمات کلیدی به معنای استخراج مجموعهای از کلمات از متن یک سند میباشد که بتواند شاخصی برای محتوای سند مربوطه باشد. در واقع وقتی شما در یک موتور جستجو به دنبال یک صفحه خاص و یا متن خاصی در اینترنت میگردید. استخراج کلمات کلیدی را برای استفاده در موتور جستجو به صورت دستی انجام میدهید. هدف از این پژوهش انجام این کار به صورت خودکار میباشد. از کاربردهای استخراج خودکار کلمات کلیدی از متن میتواند به بازیابی اطلاعات، کشف تقلب، پیشنهاد برچسب و کلمه کلیدی برای مقالات، موتورهای جستجو و ردهبندی متن اشاره نمود.
در این پژوهش روشهای مختلف استخراج خودکار کلمات کلیدی از متن معرفی شده و یکی از آنها پیادهسازی و ارزیابی میشود.
۱. مقدمه
امروزه با افزایش حجم اطلاعات و دادههای متنی، تحقیقات بسیاری در زمینه مدل کردن اطلاعات و استخراج اطلاعات مفید از آنها به عمل آمده است چون کاربران نیازمند ابزارهایی بودند تا با استفاده از آنها به راحتی بتوانند اطلاعات مفید را از دادههای موجود استخراج و استفاده نمایند. استخراج خودکار عبارتهای کلیدی، یک متن بلند را به خلاصهای کوتاه تبدیل میکند و میتوان بر اساس آن متن را طبقه بندی موضوعی (دسته بندی) کرد و متن های مشابه را پیشنهاد داد. به عنوان مثال به تصویر زیر توجه نمایید:
با توجه به اینکه عمل استخراج کلمات و عبارات کلیدی از متون متون فارسی، بسیار وقت گیر بوده و هزینه زیادی در بردارد، و ابزار های بسیار کمی در این رابطه وجود دارند و از طرفی اهمیت این موضوع نمیتوان غافل شد، در این پروژه سعی داریم تا بهترین راه کار را به زبان شیرین فارسی را پیاده سازی نماییم.
۲. اهمیت استخراج عبارات کلیدی
عبارتهای کلیدی متن نشاندهندة مفاهیم و موضوع مقاله بوده، میتوانند در موارد زیر مورد استفاده قرار گیرند:
استخراج خودکار عبارتهای کلیدی، یک متن بلند را به خلاصهای کوتاه تبدیل میکند. به عنوان مثال، میتوان از این ویژگی در مرورگرهای وب استفاده کرد؛ بدین ترتیب که کاربر با فشار دادن یک دکمه، عبارتهای کلیدی متن را مشاهده و در نتیجه به حوزة موضوعی متن مورد نظر پی میبرد.
عبارتهای کلیدی میتوانند به عنوان قسمتی از نتایج جستجو همراه با سایر مشخصههای متن بازیابی شده (همانند عنوان، قسمتهایی از متن، URL و ...) یا به جای آنها نمایش داده شوند. موتور های جستجوی وب که استفاده از آن ها برای یافتن نتایج مطلوب مورد استفاده قرار میگیرند بر اساس کلمات کلیدی متن را ارزیابی و طبقه بندی میکنند و با توجه به اینکه رقابت بر سر نتایج برتر موتور های جستجو بسیار زیاد است و هر کسی سعی دارد جزو نتایج برتر باشد تا بهتر و بیشتر خود و یا هدف خود را به مخاطبان برساند که به این امر اصطلاحا سئو (Search Engine optimization) گفته میشود.
در مواردی که به مشخصههایی بیش از نامگذاری صرف به منظور درک سریعتر متن نیاز داریم، عبارتهای کلیدی میتوانند مفید باشند. به عنوان مثال، اگر نام یک فایل یا نامه الکترونیکی به عنوان برچسب با عبارتهای کلیدی ادغام گردند، حالت بهتری را ایجاد میکنند. در این حالت، مشاهده عبارتهای کلیدی همراه با عنوان، به فهم محتوای نامه کمک بیشتری میکند.
برجستهکردن عبارتهای کلیدی در متون الکترونیکی میتواند به مرور سریع و اجمالی متن کمک کند.
کمک به نویسنده یا ویراستار در تخصیص عبارتهای کلیدی به متن. انجام این کار به صورت خودکار میتواند به عنوان یک استاندارد، نوعی یکدستی و مطابقت نوشته با کارکرد سیستم بازیابی اطلاعات و در نتیجه اطلاعرسانی صحیحتر را به همراه داشته باشد.
در مواردی که با مشکل پهنای خط یا مطابق با اصول نمایش گرافیکی اطلاعات با محدودیت فضای نمایشی مواجه هستیم، نمایش عبارتهای کلیدی بسیار مفید است. اصولاً در کشورهای جهان سوم که خطوط از سرعت و پهنای خط پایینی برخوردارند و در مکانهایی که محدودیت فیزیکی وجود دارد، همانند صفحات نمایش رایانه (اندازه ثابت)، حالت مطلوبتری را ایجاد میکند.
استخراج خودکار عبارتهای نمایهای متون نشریات و صفحات وب، خواندن و جستجوی اطلاعات نشریات را برای خوانندگان تسهیل میکند.
حضور عبارتهای کلیدی در نتایج جستجو میتواند به اصلاح و تعریف مجدد فرمول جستجو و حتی تغییر دیدگاه کاربران از ساختار موجود در یک زمینه خاص کمک کند؛ یعنی کاربران میتوانند با افزودن، حذف واژگان دامنه جستجو را محدودتر کرده، ضریب دقت را بالاتر ببرند. در نتیجه، بالابردن ضریب دقت یا با گستردهترکردن دامنه جستجو و در نتیجه به بالابردن ضریب بازیابی کمک میکند. بنابراین میتوان عبارتهای کلیدی را به عنوان جزئی لازم برای سیستمهای بازیابی اطلاعات معرفی کرد.
در مفاهیم سازماندهی اطلاعات در سیستمهای بازیابی اطلاعات میتوان به گونهای مؤثر از عبارتهای کلیدی در خوشهبندی و طبقهبندی مدارک استفاده کرد.
۳. دسته بندی روش های استخراج کلمات کلیدی
تمامی روشهای پیشنهاد شده برای استخراج کلمات کلیدی ، به چهار راهکار کلی طبقه بندی میشوند:
روشهای آماری مبتنی بر تحلیل فراوانی کلمات.
روشهای نحوی مبتنی بر تجزیه زبانی و انطباق الگو.
روشهای ساختاری: بررسی عنوان و رئوس کلی مطالب سند.
روشهای ادراکی مبتنی بر استفاده از پایگاه دانش برای تفسیر معنی و مفهوم.
در اکثر روشهای معروف تعداد کلمات استخراج شده به عنوان کلمه کلیدی 10 الی 15 کلمه میباشد. اکثر روشهای استخراج کلمات کلیدی مبتنی بر پردازش زبان طبیعی از دیکشنری برای مشخص کردن ریشه کلمات و بخشهای گفتار استفاده میکنند.
برای استخراج کلمات کلیدی یک سری پیش پردازش باید روی متن انجام شود. یکی از این پیش پردازش ها تعیین کلمات است که باتوجه به فضای خالی و یا علامات نگارشی انجام می گیرد. در زبان فارسی با توجه به این که کلمات چند بخشی داریم استفاده از فضای خالی جهت تفکیک کلمات باعث تغییر کلمه به چند کلمه دیگر شود که مطلوب ما نیست. پس از تعیین کلمات، کلمات عمومی را حذف کرده و بقیه متن را ریشه یابی میکنیم و در مورد ریشه یابی در زبان فارسی نیز مشکل هضم وجود دار. سپس کلمات را وزندهی کرده و تبدیل به بردار میکنیم و با اعمال آستانه، لیست کلمات کلیدی استخراج میشود.
در ادامه بحث به ذکر روش های آماری می پردازیم که پیاده سازی پروژه نیز بر اساس این روش است.
۴. بررسی روش های آماری
استخراج کلمات کلیدی به روش آماری، تا حد زیادی مستقل از زبان است و تنها بخش ساخت واژی وابسته به زبان است. به این علت چند نمونه از کارهای انجام شده در سایر زبانها را در این بخش آوردهایم. همچنین یکی از کارهای انجام شده در زبان فارسی نیز، در ادامه به همراه نتایج حاصل شده تشریح خواهد شد. برای زبان فارسی فقط یک کار در حوزه ی نمایه سازی پیدا شد.
یک راهکار برای استخراج کلمات کلیدی یادگیری باناظر یا روش TF-IDF است. به طور کلی در الگوریتم یاد شده از تکرار کلمات و نحوه پراکندگی آن در متن و نیز پراکندگی کلمه کلیدی مفروض در مستندات قبلی اقدام به انتخاب کلمات کلیدی می نماییم. بدیهی است هر چه تعداد مستندات قبلی ما (به عبارت دیگر بایگانی ما) کامل تر باشد، به نتایج مطلوب تری دست خواهیم یافت. برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم . سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است. برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است. سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.
بعد از طی کردن این مراحل به حساب کردن وزن کلمات می پردازیم :
تعیین وزن کلمات با استفاده از دو معیار term frequency و inverse document frequency انجام می شود که به شرح زیر محاسبه خواهند شد :
که در آن f(t,d) تعداد تکرار کلمه t در سند d (سند هدف) است و max{f(w,d)} تعداد پر تکرارترین کلمه در سند d می باشد و
که در آن N تعداد کل اسناد موجود در پیکره است و
بیانگر تعداد اسنادی است که کلمه t در آنها وجود دارد. در نهایت وزن هر کلمه به صورت زیر محاسبه خواهد می شود :
در صورت مواجه شدن با کلمه ایکه در مجموعه اسناد وجود نداشته باشد به صورت قراردادی مخرج idf را یک در نظر می گیریم. پس از آنکه وزن تمامی کلمات سند ورودی محاسبه شد ، کلماتی که دارای بیشترین وزن هستند ، به عنوان کلمات کلیدی معرفی می شوند.
به طور مثال اگر ما بخواهیم مقالات مرتبط با همین مقاله (چگونه بفهمیم یک کلمه در یک سایت کلمه کلیدی است؟ (معرفی الگوریتم «فراوانی وزنی») را از بین حدود ۱۲۰۰ مقاله سایت به دست آوریم باید این روال را طی کنیم:
– اولاً تعداد کل مقالات را به دست میآوریم. (فرض کنید ۱۲۰۰ مقاله)
– تک تک کلمات عنوان را در دیتابیس جستجو کنیم. (مثلاً کلمه «چگونه» )
– تعداد مقالاتی که هر کلمه را شامل میشود محاسبه میکنیم. (مثلاً الان کلمه «چگونه» در ۴۲ مقاله تکرار شده و کلمه «در» در ۳۱۳ مقاله)
– لگاریتم تعداد کل مقالات تقسیم بر تعداد مقالاتی که هر کلمه تکرار شده را محاسبه میکنیم. (مثلاً در مورد کلمه «چگونه» لگاریتم ۱۲۰۰ تقسیم بر ۴۲ میشود: ۱.۴ و لگاریتم «در» میشود: 0.5)
– هر کلمهای که نتیجهاش نزدیکتر به 0 باشد یعنی کمتر کلیدی است.
۵. کارهای مرتبط
با توجه به بررسی الگوریتم های آماری در قسمت های قبلی اقدام به پیاده سازی استخراج کلمات کلیدی با توجه به روش TF-IDF نموده ایم. عملیات اجرا شده طی این روش به صورت زیر می باشد:
حذف کلمات ایست
جایگزینی الفبای عربی با فارسی
بررسی تکرار هر کلمه در متن
محاسبه مقدار TF (تکرار هر کلمه در متن واردشده)
محاسبه مقدار IDF (وجود کلمات در اسناد قبلی)
محاسبه مقدار TF*IDF و معرفی کلمات کلیدی
بررسی دسته بندی با توجه به کلمات کلیدی هر دسته بندی و معرفی دسته بندی
ذکر این نکته لازم می باشد که هر چه قدر تعداد مستندات قبلی ما بیشتر باشد ارائه کلمات کلیدی و معرفی رده بندی متن بسیار نزدیک به واقعیت خواهد بود.
۶. آزمایشها
تعدادی متن مورد آزمایش قرار گرفت که عملکرد قسمت استخراج کلمات کلیدی در حد قابل قبول است و با بیشتر شدن تعداد مستندات عملکرد این بخش بهبود می یابد .
آزمایش شماره 1:
متن ورودی:
"وَرزش به فعالیتها یا مهارتهای عادی جسمانی گفته میشود که بر پایه یک رشته قوانین مورد توافق همگان و با اهداف تفریحی یا برای مسابقه، نشاط شخصی، دستیابی به ورزیدگی، مهارتجویی یا آمیزهای از این اهداف انجام میگیرد. تعریف ورزش به هدف و منظور از انجام آن بستگی دارد. تفاوت منظور همراه با در نظر گرفتن مهارت فرد یا گروه یا دلیری علامت مشخصه ورزش است.
بنابر این پریدن از روی یک مانع در مقابل دیدگان هزاران نفر در یک میدان سر پوشیده ورزش است در حالی که پریدن از روی یک چشمه هنگام پیاده روی در روستا فقط تلاش برای خیس نشدن پای فرد است. یا پیکارهای شنا که در برابر هزاران نفر در یک استخر سرپوشیده مسابقاتی انجام میگیرد یک گونه از ورزش بشمار میرود در حالیکه شنا در یک استخر معمولی یا در دریا یک تفریح شمرده میشود.
انواع مختلفی از ورزش وجود دارند و انسان ها قسمت مهمی از وقت، پول و دلبستگی خود را نه فقط به عنوان شرکت کننده بلکه به عنوان تماشاگر به آن ها اختصاص می دهند .
ورزش امروزه در جهان به وسیله ای مبدل شده که انسان ها را با هم متحد و آشنا کرده و بین آن ها پیوند اخوت و برادری برقرار می کند و مهمترین هدف و وظیفه ورزش همین است ایجاد مودت و دوستی بین ورزش کاران که هر چند در میدان رقیب هم هستند اما در خارج از میدان به عنوان رفیق همدیگر می باشند .
ورزش ترکیبی از فعالیت های فیزیکی عادی و معمول و مهارت های شخصی و به عنوان تفریح و یک سری از قوانین که برای مسابقه ، لذت بردن و رسیدن به برتری است. ترکیب شخصیت هایی با مهارت های متفاوت در یک ملت، شجاعت و دلاوری آن ملت را افزایش می دهد "
نتیجه کلمات کلیدی استخراج شده: ورزش، فعالیت، مهارت
دسته بندی متن: ورزشی
آزمایش شماره 2:
متن ورودی:
"در گفتگوهای روزمره کلمه سیاست سیاسی و سیاستمدار بسیار به کاربرده میشود، اما اگر از گوینده پرسیده شود منظور دقیق شما از سیاست چیست به سختی میتواند به این سؤال جواب دهد. در ادبیات گذشته کلمه سیاست به دو معنا تعریف میشده است. اولین معنای آن «زیرکی» ، «حیله گری» و «رندی» است که واژهای مانند «سیّاس» به همی معنا استفاده میشده است. در ادبیات کهن ایران هم چنین سیاست به معنای «تنبیه» و «شکنجه» یا «مجازات» هم به کاربرده میشده است. نهایتاً به نظر میرسد لفظ سیاست در این دو معنا چندان بار معنایی مثبتی نداشته است و نهایتاً به نوعی دلزدگی عمومی از این لفظ منجر میشده است. در ادبیات و فرهنگ رایج امروز نیز «سیاسی کار» دارای معنای مثبتی نیست.
در گفتگوهای روزمره کلمه سیاست سیاسی و سیاستمدار بسیار به کاربرده میشود، اما اگر از گوینده پرسیده شود منظور دقیق شما از سیاست چیست به سختی میتواند به این سؤال جواب دهد.
اما برخلاف ادبیات رایج و عمومی در زبان فارسی، در مغرب زمین سیاست (Politics) لزوماً در شکل منفی و ریشه منفی مورد استفاده قرار نگرفته و دارای ریشه معنایی متفاوتی است.
تاریخ مفهوم امروزی سیاست ریشه در تحولاّت تاریخی دارد که به پیدایش « سیاست» (Politics) امروزی منجر شده است.
سیاست به مثابه مطالعهی دولت شهر:
در یونان باستان ساختار سیاسی دولت – شهر (Polis) به عنوان ساختاری ضد ساختار استبدادی اُیکس (Oikos) که نوعی پادشاهی بود شکل گرفت. رشد رژیم سیاسی تساوی گرا و مشارکت محور میان شهروندان آتن باستان باعث شکل گیری مفهوم جدیدی از پلیس (polis) میان فلاسفه سیاسی، نویسندگان و تاریخ نگاران شد.
کتاب سیاست ارسطو به مطالعه نظام مند پلیس (شهر)، ساختارها و شهروندانش مرتبط است. البته توجه داشته باشید که با ترجمه کتابهای ارسطو به عربی بعد از اسلام، کلمه polisب ه مدینه در متون فلسفه اسلامی ترجمه شد که در آثار فیلسوفان مهمی مانند فارابی و یا ابن سینا دیده میشود.
کلمه سیاسی یا (Political) در آثار ارسطو به معنای گفتگوی دو طرفه و همه جانبه در مجامع عمومی شهر دربارهی موضوعات مهمی که در آینده رخ خواهد داد آمده است. این واژه در بعد از قرون وسطی و دوران مدرن دارای معانی جدیدی شد که ادراک آن برای تحلیل ما از سیاست مفید به نظر می رسد.
تعریف سیاست در جهان مدرن:
سیاست میتواند به عنوان یکی از چهار شکل زیر تعریف شود:
1- سیاست به عنوان یک فعالیت:
طبق این تعریف سیاست فعالیتی است که به شکل نیمه وقت و یا تمام وقت توسط سیاستمداران انجام میشود. آنها با تصمیماتی جمعی سروکار دارند که نظام سیاسی را که در آن زندگی میکنند تحت تأثیر قرار میدهد. این نظام سیاسی میتواند یک زیربخش مانند شورای ده یا بخشداری باشد و یا با عالیترین سطح حکومت سروکار داشته باشد. در اکثر کشورها میان سیاست مدارانی که به شکل حرفهای به دنبال سیاست هستند و مردم عادی که نقش حداقلی در سیاست دارند تفاوت وجود دارد. بنابراین در این تعریف سیاست عنوان کارکرد گروه اول در نظر گرفته میشود.
2- سیاست به عنوان امور جاری:
برای برخی از مردم غیر علاقهمند به امور سیاسی، سیاست بخشی از زندگی است که آنان نمیخواهند در آن درگیر شوند. حتی برای عدهای سیاست امری خطرناک است و از آن اجتناب میکنند. اما برای برخی مردم سیاست امری جذاب است و همان گونه که از تیمهای ورزشی حمایت میکنند به طرفداری از گروهها و چهرههای سیاسی هم میپروراند. برای این افراد خواندن روزنامه، بحث کردن دربارهی عملکرد سیاست مداران، احزاب و گروه های سیاسی و .... نمونهای از کنش سیاسی است. واژه مشابه و نزدیک به این موضوع «زندگی سیاسی» است.
3- سیاست به عنوان آن چه دولت انجام میدهد
طبق برخی تعاریف سیاست به آن چه توسط دولت ها انجام می شود خلاصه می گردد.برای حکومت کردن باید به کنترل کردن پرداخت و تمام جوامع توسط حکومت ها و یافرادی با کنترل روبرو هستند. بر مبنای این تعریف ، به اعمال آن افرادی که – چه یک فرد و چه حکومت- به کنترل کردن جامعه مشغولند، سیاست میگویند. در واقع بر این مبنا هر آن چه دولت انجام میدهد سیاست محسوب میشود.
4- سیاست به عنوان تعارض و راه حل تعارض
از این منظر، تعارض به معنای وسیع کلمه، شامل هر شکل از عدم تفاهم میشود. تمام روابط بین گروهی دچار و جود تفاوتها در اهداف و روشها هستند. این منازعات از منازعات مخفی و کلامی آغاز میشود و به منازعات فیزیکی در حد اعلای کلمه می انجامد. از این منظر، مفروض بنیادین این است که تعارض و عدم تفاهم امری عمومی در جامعه است. مردم دربارهی آن چیزهایی که باید به دست آیند و روشهای دستیابی به آنها، دچار متعارضند. بنابراین اگر تعارض در جامعه وجود نداشته باشد نیازی به سیاست نیست.
اگرچه در افکار عمومی سیاست دارای معنایی منفی مانند حیله گری و یا مجازات بوده و حداکثر به معنای دانش دهنده حکومت کردن است و با ساختار اداری و سازمانی حکومت سروکار دارد اما دانشمندان علوم سیاسی دارای تعاریف گسترده تری از معنای اولیه مدنظر عموم مردم هستند
در واقع بر مبنای این نظر، منابع کمیاب قدرت، ثروت، منزلت در جامعه مورد تقاضای افراد و گروههای مختلف هستند و هر کدام میکوشند که این منابع کمیاب را به خود اختصاص دهند.
این رقابتها و عملکردها بر سر منابع نایاب و کمیاب به تعارض می انجامد و در عین حال روش های حل تعارض از روش های عقلانی تا روش های خشونت آمیز وجود دارد.
در واقع سیاست به این تعارضات و روش های حل این تعارضات در سطح اجتماع و جامعه انسانی اشاره دارد.
جمع بندی: اگرچه در افکار عمومی سیاست دارای معنایی منفی مانند حیله گری و یا مجازات بوده و حداکثر به معنای دانش و هنر حکومت کردن است و با ساختار اداری و سازمانی حکومت سروکار دارد اما دانشمندان علوم سیاسی دارای تعاریف گسترده تری از معنای اولیه مدنظر عموم مردم هستند. آنان بر تعارض و منازعه بر سر منابع کمیاب ثروت، قدرت و منزلت و حل این تعارض ها از روشهای گوناگون( از انتخابات تا جنگ) و اعمال قدرت در جامعه، به جای صرف مطالعه دولت تکیه می کنند. "
کلمات کلیدی استخراج شده: سیاست ، سیاسی، سیاستمدار
دسته بندی : نادرست
هنر ، آنچه را طبیعت از تکمیل آن ناتوان است کامل میکند. (ارسطو)
هنر مهمترین کار و فعالیت ماورای طبیعی مناسب برای زندگی است. (نیچه)
در هنر، (باید) وجود ندارد، هنر آزاد است. (واسیلی کاندینسکی)
هنر یعنی پذیرفتن واقعیات…
هنر ثبت واقعیتهای ذهنی است…
هنر یعنی زندگی کردن و دوست دشتن…
هنر اصطکاک روح است با فضای اطراف…
و…
این ها تعاریفی بود که خیلی از بزرگان در طول سال ها و قرن ها از هنر داشته اند و همه ی آن ها می تواند هم درست باشد و هم غلط برخی هنر را زیبایی می دانند اما این تعریف هم صرفا نمی تواند درست باشد چون هر اثر هنری برای خلق شدن نیاز به یک هنرمند دارد پس یک گل و یا یک درخت که خود به وجود آمده اند نمی تواند یک هنر باشد، شاید بگویید خداوند یک هنرمند است، درست است اما ما در اینجا به دنبال تعریفی کلی تر از هنر می گردیم.
عده ی ای هنر را وسیله ای برای پالایش و اعتلای روح آدمی بیان می کنند و معتقدند که هنر باید اخلاق گرا باشد اما این هم خود تعریفی نادرست است زیرا هنری که ما در یک پوستر اجتماعی و سینما به کار می بریم با هنر خاتم کاری و خوشنویسی در بیان مفاهیم متفاوت است.
و افراد دیگری هم می گویند هنر نسخه برداری از طبیعت است مانند میل به خشونت، هوای نفس و … که می توانند مثل یک هنر مقدس زیبا باشند زیرا آیینه ی تمام نمای واقعیت ها می باشد. همچنین عده ای هم بر این باورند که هنر بیان احساس و عاطفه ی آدمی و برداشت او از زندگی و جهان هستی است.
اشکالی که در تعاریف بالا وجود دارد این است که همه فقط یک بعد از هنر را در نظر می گیرند ولی هنر کاملا ترکیبی از همه ی آن هاست و نتیجه ی اخلاقی این که هنر تعریف خاصی ندارد و نمی توان برای آن معیارهای مشخصی در نظر گرفت. به همین دلیل متفکران موضوعی به نام (( نظریه نهادی)) را مطرح کرده اند و بر این باورند که اگر چیزی بخواهد یک اثر هنریشناخته شود، ویژگی یا ویژگیهای خاصی نیست که بتوان در درون آن اثر مشاهده کرد؛ بلکه شأن خاصّی است که عالَم هنر برای آن اثر، قائل میشود.
طبق این تعریف عالم هنر شامل کسانی است که در تشکیلاتی نه چندان مدوّن، حضور دارند و به صورتهای گوناگون، در ارتباط با یکدیگر به سر میبرند. این مجموعه افراد که شامل هنرمندان ((نقّاشان، نویسندگان، آهنگسازان، کارگردانان و…))، مدیران موزهها، مدیران هنری، مخاطبان حرفهای آثارهنری (هر چند که خودشان هم هنرمند نباشند)، گزارشگران هنر در رسانهها، منتقدان هنری، تاریخنگاران هنر، نظریه پردازان و فیلسوفان هنر و دیگر کسانی که به نوعی با هنر در ارتباطند، هستند، که در صورتی که در مورد هنری بودن یک اثر به توافق برسند، میتوان آن را یک اثر هنری دانست و اگر اثری از سوی عالَم هنر به عنوان یک اثر هنری شناخته نشود، دیگر نمیتوان آن را یک اثرهنری به شمارآورد.
در حقیقت، عالَم هنر را میتوان مرزی دانست که اگر یک اثر ساخته دست بشر، از آن عبور کند به یک اثر هنری تبدیل میشود و اگر نتواند از آن بگذرد، اثر هنری به حساب نخواهد آمد. با این حساب، میتوان لگن توالت دوشان را هم به این دلیل که به دست یک هنرمند ساخته شده است و در یک فضای هنری به نمایش درآمده است و هم به دلیل این که از سوی جامعه هنرمندان عالَم هنر، به عنوان یک اثر هنری پذیرفته شده است، یک اثر هنری به حساب آورد.
تیموتی بینکلی، هم درباره این مسئله که آیا برخی از آثار بحثانگیز امروز، به راستی آثار هنری اند یا نه، میگوید: فقط میتوانم بگویم که آنها به دست کسانی که هنرمند محسوب میشوند، ساخته (یا خلق یا ایجاد) میشوند، منتقدان، آنها را با عنوان آثار هنری مورد نقد و بررسی قرار میدهند، در کتابها و نشریههای مربوط به هنر، درباره شان بحث میشود، در گالریها یا مکانهای مرتبط با هنر، به نمایش گذاشته میشوند و چیزهایی از این قبیل.
کلمات کلیدی استخراج شده: هنر، هنرمند، طبیعت
دسته بندی: نادرست
۷. کارهای آینده
با توجه به اینکه کلمات زبان فارسی دارای صورتهای نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است و در زیر برخی از چالش های زبان فارسی آمده است:
بررسی و یافتن ضمیر های منفصل و متصل و یافتن مرجع ضمیر و جایگزینی ضمیر با مرجع ضمیر
مشکل معنایی با جایگزینی کلمات با ریشه های آن ها
مشکل در متون عامیانه
دشواری در تعیین اجزای جمله (فعل و فاعل و ...)
تشخیص اسم از صفت
...
که هر کدام از این چالش ها نیاز به آشنایی کامل با دستور زبان فارسی دارد و در آینده سعی خواهد شد با بررسی الگوریتم های دیگر نظیر n-gram و امکان ترکیب ویژگی های مثبت هر الگوریتم راه حل جامع تری ارائه نمود
۸. مشاهده پروژه
۹. مراجع
پروژه استخراج کلمات کلیدی از متن، درس هوش مصنوعی 92، دانشگاه علم و صنعت ایران
Kim, Su Nam, et al. "Automatic keyphrase extraction from scientific articles." Language Resources and Evaluation: 1-20.
lis.aqr-libjournal.ir/article_44201.html
www.sid.ir/Fa/Journal/ViewPaper.aspx?id=273695
https://wtlab.um.ac.ir/images/thesis/90-hossein%20kamyar.pdf
dsp.ut.ac.ir/en/wp-content/.../StatNLP-Lecture3-Similarity-IR-.pdf
digiseo.ir/post/c_showListObject/482_TF-IDF-چیست؟
www.prosody.ir/attachments/059_27-Keyword.pdf
https://ceit.aut.ac.ir/islab/projects/arshad/.../Files/abstract_farsi.doc
۱۰. پیوندهای مفید
تحلیل سیستم یافتن خودکار کلمات کلیدی متون زبان فارسی، پروژه پیکره زبان فارسی، شورای عالی اطلاع رسانی
www.aclweb.org/anthology/C10-1065
ieeexplore.ieee.org/document/6016631/
ictactjournals.in/paper/IJSC_V5_I4_paper1_1003_1008.pdf
www.ijcte.org/papers/681-A20208.pdf