تشخیص نویسنده متن

نویسنده این متن کیست؟ پروژه تشخیص خودکار نویسنده به دنبال روش‌هایی می‌گردد که به این پرسش پاسخ دهد.

در واقع این پروژه باید با استفاده از مجموعه کوچکی (کم‌تر از ۱۰ سند متنی) از یک نویسنده، به ازای هر سند متنی که نویسنده آن مجهول است، به این پرسش پاسخ دهد که آیا نویسنده سند مجهول نیز با سندهای قبل یکسان است یا خیر.

مقدمه

تشخیص نویسنده ی متن در بسیاری از حوزه هایی که شامل بازیابی اطلاعات و زبان شناسی هستند یک مسئله مهم به شمار می رود، همچنین در زمینه های کاربردی مانند، تعقیب قانونی یک متن و روزنامه نگاری که پیدا کردن نویسنده ی یک متن ممکن است جان انسانی را نجات دهد (مانند یادداشتی برای باج خواهی)، از اهمیت به سزایی برخوردار است.

چارچوب کلی تمام راه حل های پیشنهادی برای حل این مسئله استفاده از طبقه بندی متن (Text Classification) است. به این ترتیب که با استفاده از تعداد محدودی سند از نویسنده های مشخص، نویسنده ی یک سند مجهول را می یابیم. مسئله ی مهم بعدی حصول اطمینان از این است که آیا سند جدید متعلق به یکی از نویسنده های شناخته شده می باشد یا خیر؟

در زندگی واقعی، زبان شناسان حرفه ای پزشکی قانونی خود برای تشخیص نویسنده ی مجهول اغدام می کنند. به منظور پر کردن شکاف میان زبان شناسی و علوم کامپوتر نیاز به بکارگیری و تلفیق تجربیات هر دو زمینه ی علمی وجود دارد.

کارهای مرتبط

به عنوان یک راه حل برای این مسئله قصد داریم میزان شباهت متن های شناخته شده را با متن ناشناس بیابیم.

جهت مقایسه اسناد ابتدا باید کلمات موجود در هر سند متنی را طبقه بندی کنیم. برای این کار یک تحلیلگر لغوی ابتدا تمام لغات را از هم جدا کرده و حروف آن را به صورت کوچک درمی آورد تا بتوان راحت تر آنها را با یکدیگر مورد مقایسه قرار داد سپس stopword ها را که شامل لغاتی با تکرار زیاد و بدون معنای خاص هستند را حذف می کند. پس از این مرحله عمل بن یابی، یعنی یافتن بن افعال انجام می گیرد. با استفاده از تمام لغات باقی مانده ارزش یا وزن هر لغت در سند متنی مورد نظر مشخص می شود.

حال با استفاده از وزن لغات در سند متنی ناشناس و وزن لغات اسناد متنی معلوم می توان میزان شباهت اسناد را تعیین نمود و تشخیص داد که آیا یک نویسنده آنها را نگاشته یا خیر؟

در اینجا هدف اختصاص یک عدد در بازه صفر و یک، به سند متنی ناشناس است که میزان شباهت آن را با متن های شناخته شده تعیین می کند. به طوری که عدد صفر نشان دهنده این است که شباهتی بین اسناد وجود ندارد و عدد یک به معنای بیشترین شباهت بین متن ناشناس و متون شناخته شده است.

به منظور محاسبه شباهت این اسناد از فرمول زیر کمک می گیریم:

فرمول

متغیر های A و B نشان دهنده تعداد تکرار یک لغت در هر یک از سندهای متنی هستند.

آزمایش‌ها

+لینک دسترسی به کد پیاده سازی شده

کارهای آینده

مراجع

محمد غضنفری

شما مراجع مناسبی را معرفی نمرموده اید و تعداد آنها هم خیلی کم است. طبیعتا به همین دلیل در بخش کارهای مرتبط هم مطلبی ننوشته اید. در ضمن روش پیشنهادی خودتان را شرح نداده اید.

ضمن عرض خسته نباشید امیدوارم با رعایت این نکات در فازهای آتی پروژه تان موفق تر باشید.

تایید شده

از نکات مثبت متن شما، ساده و قابل فهم بودن آن می‌باشد و فردی همچون من که در رابطه با موضوع تحت بررسی آشنایی آنچنانی ندارد مشکلی در درک اولیه از مطلب ندارد. در عین حال عمق مطلب می‌توانست اندکی بیشتر شود.

متاستفانه لینک به گیت‌هاب پروژه برای بررسی قرار داده نشده است.

در مورد محتوای سند، اگر اشتباه نکنم برخلاف ادعای شما در مورد اینکه چارچوب تمام راه حال‌های مسئله که استفاده از طبقه‌بندی متون است، راه حل ارائه شده در کارهای مرتبط از روش‌های Information Retrieval بوده و طبقه‌بندی متن محسوب نمی‌شود. یا حداقل اشاره‌ای به classifier مورد استفاده همچون KNN نشده بود.

محسن ایمانی

نکاتی در مورد پروژه شما به نظر بنده می‌رسد:

  • شما هنوز هیچ مرجع جدیدی را به پروژه خود اضافه نکرده‌اید که این مسئله نگران کننده می‌باشد.

  • روشی که به عنوان یک کار مرتبط در زمینه تشخیص نویسنده ارائه نمودید، در واقع اصلا راه حل مناسبی برای این مسئله نمی‌باشد و مسئله تشخیص نویسنده را عملا نمی‌توان با روش‌های شباهت‌یابی به نحوی که بیان نمودید حل کرد. اگر این کار مرتبط را از مقاله‌ای برداشت کرده‌اید حتما مرجع آن را ذکر کنید تا بیشتر بررسی شود. روش‌های متعدد و متنوعی در این حوزه برای حل مسئله تشخیص نویسنده وجود دارد که شما به هیچ یک، حتی روش‌های ذکر شده در همان یک مرجع نمونه، اشاره نکرده‌اید. پیشنهاد می‌کنم برای شروع مقاله نمونه را مطالعه کنید و همچنین سری به مراجعی که این مقاله از آن استفاده نموده بزنید. همچنین می‌توانید سری به گزارش کارهای انجام شده در مسابقه تشخیص نویسنده هم بزنید.

امیدوارم در فازهای بعدی ضعف‌های موجود را به خوبی مرتفع نمایید.

تایید شده

هیچ کاری برای بررسی انجام نشده!