یک مقاله در مجله‌های علمی به شکل‌های گوناگونی مورد ارجاع قرار می‌گیرد. اگرچه پیدا کردن ارجاع‌های یکسان در نگاه اول، پیچیده به نظر نمی‌رسد. انجام دقیق این کار هم چالش‌های مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است:

Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI.

S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993.

۱. مقدمه

هدف پروژه بدست آوردن ارجاع های یکسان به یک مقاله, کتاب یا ... است و حذف تکرار ها یا دسته بندی کردن ارجاع های یکسان به عنوان یک ارجاع.
اما به طور کلی مشخص کردن ارجاع های یکسان کاربرد های دیگری نظیر بهینه سازی موتورهای جستجوگر صفحات تحت وب را دارد که برای افزایش دقت و سرعت پاسخگویی روش های مختلفی مانند خوشه بندی متون به کار گرفته می شود.
[خوشه بندی] یا [Document Clustering] روشی برای دسته بندی متن ها با حجم داده ی وسیع می باشد و هدف پیدا کردن شباهت ها یا الگوهای رفتاری مشابه در یک داده از متن می باشد. در اینجا ارجاع های یکسان به گونه ای در یک خوشه قرار خواهند گرفت که در یک خوشه حداکثر شباهت بین ارجاع ها وجود داشته باشد در حالی که بین دو خوشه متفاوت, حداقل شباهت دیده شود.
خوشه بندی تا جایی ادامه پیدا خواهد کرد که تمامی ارجاع های یکسان هر کدام در یک خوشه و به عنوان یک ارجاع واحد مورد استفاده قرار گیرند.

۲. کارهای مرتبط

در خوشه بندی متون, الگوریتم های زیر را خواهیم داشت:

  • الگوریتم های سلسله مراتبی

  • الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)

  • الگوریتم های مبتنی بر یافتن اجتماعات

  • الگوریتم های مبتنی بر تئوری گراف ها

  • الگوریتم های درختی

  • الگوریتم های مبتنی بر یادگیری

  • خوشه بندی ماتریس های خلوت

  • الگوریتم های مبتنی بر چگالی

بیشتر تأکید ما بر روی الگوریتم های سلسله مراتبی خواهد بود. الگوریتم های سلسله مراتبی نیز به دو دسته بالا به پایین و پایین به بالا تقسیم خواهند شد که باز هم از بین این دو با توجه به توضیحاتی که در ادامه خواهد آمد ما الگوریتم سلسله مراتبی پایین به بالا را برای انجام این پروژه مد نظر قرار خواهیم داد.1

الگوریتم سلسله مراتبی پایین به بالا:

در این الگوریتم هر ارجاع به عنوان خوشه ای مجزا در نظر گرفته می شود و در طی فرایند خوشه بندی ارجاع هایی که با یکدیگر شباهت های بیشتری داشته باشند با یکدیگر ترکیب می شوند و چندین ارجاع به صورت دسته های ارجاع های مختلف تبدیل خواهند شد.

Hierarchical_clustering_simple_diagram

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

  • http://en.wikipedia.org/wiki/Hierarchical_clustering

  • en.wikipedia.org/wiki/K-means_clustering

  • Unsupervised deduplication using cross-field dependencie

  • Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007.

  • Hall, Rob, Charles Sutton, and Andrew McCallum. "Unsupervised deduplication using cross-field dependencies." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.

۶. پیوندهای مفید


  1. هنگام پیاده سازی از الگوریتم های دیگر به همراه شبکه منطق مارکوف نیز شاید به کار گرفته شود!

محسن ایمانی

شما در متن فاز اول خود مسئله «مشخص کردن ارجاع‌های یکسان» را به صورت یک مسئله خوشه‌بندی در نظر گرفته، سپس روش‌های خوشه‌بندی را نام بردید و خوشه‌بندی سلسله مراتبی از پایین به بالا را مورد بررسی قرار دادید.

اما کار شما دو نقطه ضعف عمده دارد:

  • قرار نیست شما در پروژه خود روش‌های خوشه‌بندی را معرفی و بررسی کنید؛ شما در این پروژه می‌توانید از روش‌های مختلف خوشه‌بندی به عنوان یک کاربرد استفاده کرده و از آن‌ها نام ببرید. در واقع شما در کارهای مرتبط به جای شرح روش های خوشه‌بندی، باید به این مسئله می‌پرداختید که در مقالات مختلف چگونه روش‌های خوشه‌بندی برای این مسئله به کار گرفته شده‌اند، به عنوان مثال چه ویژگی‌هایی از ارجاعات استخراج شده‌اند و یا شباهت‌یابی بین ارجاعات به چه طریق صورت می‌گیرد. در واقع شما در این فاز بیشتر از این که به موضوع پروژه خودتان بپردازید به موضوع خوشه‌بندی پرداخته‌اید.

  • صفحه‌های ویکی‌پدیا را نمی توان به عنوان یک مرجع در نظر گرفت. بهتر است شما برای ارجاع، از مقالات و یا کتاب‌ها استفاده کنید. صفحه‌های ویکی‌پدیا را می‌توانید در لینک‌های مفید بیاورید. همچنین برای ارجاع به یک مقاله آوردن نام آن به تنهایی کافی نیست و باید citation آن را به طور کامل و در قالبی که مراجع نمونه آمده‌اند، بیاورید. برای این کار می‌توانید از Google Scholar استفاده کنید.

علیرضا نوریان

مساله شما پیدا کردن ارجاع‌های یکسان هست و شما می‌تونید با هر روشی حلش کنید از جمله خوشه‌بندی، رده‌بندی و حتی مبتنی بر قاعده.

شما در کارهای مرتبط باید بگید که این مساله رو دیگران چطور حل کردن. با این توضیح، باید روی بخش مراجع و کارهای مرتبط بیشتر کار کنید.