یک مقاله در مجلههای علمی به شکلهای گوناگونی مورد ارجاع قرار میگیرد. اگرچه پیدا کردن ارجاعهای یکسان در نگاه اول، پیچیده به نظر نمیرسد. انجام دقیق این کار هم چالشهای مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است:
Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI.
S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993.
۱. مقدمه
هدف پروژه بدست آوردن ارجاع های یکسان به یک مقاله, کتاب یا ... است و حذف تکرار ها یا دسته بندی کردن ارجاع های یکسان به عنوان یک ارجاع.
اما به طور کلی مشخص کردن ارجاع های یکسان کاربرد های دیگری نظیر بهینه سازی موتورهای جستجوگر صفحات تحت وب را دارد که برای افزایش دقت و سرعت پاسخگویی روش های مختلفی مانند خوشه بندی متون به کار گرفته می شود.
[خوشه بندی] یا [Document Clustering] روشی برای دسته بندی متن ها با حجم داده ی وسیع می باشد و هدف پیدا کردن شباهت ها یا الگوهای رفتاری مشابه در یک داده از متن می باشد. در اینجا ارجاع های یکسان به گونه ای در یک خوشه قرار خواهند گرفت که در یک خوشه حداکثر شباهت بین ارجاع ها وجود داشته باشد در حالی که بین دو خوشه متفاوت, حداقل شباهت دیده شود.
خوشه بندی تا جایی ادامه پیدا خواهد کرد که تمامی ارجاع های یکسان هر کدام در یک خوشه و به عنوان یک ارجاع واحد مورد استفاده قرار گیرند.
۲. کارهای مرتبط
در خوشه بندی متون, الگوریتم های زیر را خواهیم داشت:
الگوریتم های سلسله مراتبی
الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)
الگوریتم های مبتنی بر یافتن اجتماعات
الگوریتم های مبتنی بر تئوری گراف ها
الگوریتم های درختی
الگوریتم های مبتنی بر یادگیری
خوشه بندی ماتریس های خلوت
الگوریتم های مبتنی بر چگالی
بیشتر تأکید ما بر روی الگوریتم های سلسله مراتبی خواهد بود. الگوریتم های سلسله مراتبی نیز به دو دسته بالا به پایین و پایین به بالا تقسیم خواهند شد که باز هم از بین این دو با توجه به توضیحاتی که در ادامه خواهد آمد ما الگوریتم سلسله مراتبی پایین به بالا را برای انجام این پروژه مد نظر قرار خواهیم داد.1
الگوریتم سلسله مراتبی پایین به بالا:
در این الگوریتم هر ارجاع به عنوان خوشه ای مجزا در نظر گرفته می شود و در طی فرایند خوشه بندی ارجاع هایی که با یکدیگر شباهت های بیشتری داشته باشند با یکدیگر ترکیب می شوند و چندین ارجاع به صورت دسته های ارجاع های مختلف تبدیل خواهند شد.
۳. آزمایشها
۴. کارهای آینده
۵. مراجع
en.wikipedia.org/wiki/K-means_clustering
Unsupervised deduplication using cross-field dependencie
Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007.
Hall, Rob, Charles Sutton, and Andrew McCallum. "Unsupervised deduplication using cross-field dependencies." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.
۶. پیوندهای مفید
هنگام پیاده سازی از الگوریتم های دیگر به همراه شبکه منطق مارکوف نیز شاید به کار گرفته شود!