استخراج اطلاعات با استفاده از یادگیری نیمه‌نظارتی

انسان اطلاعات زیادی در مورد دنیای پیرامون خود دارد و وقتی متنی را می‌نویسد در مورد همین دانسته‌ها صحبت می‌کند. مثلا می‌گوید: «این بازیکن فوتبال، در بازی روز قبل حضور نداشت». ماشین این چیزها را نمی‌داند ولی اگر می‌دانست، خیلی فایده داشت. استخراج اطلاعات برای بدست آوردن دانسته‌های انسان، از روی متون نوشتاری معرفی شده است.

یکی از راه‌های پاسخ به این مساله، گسترش دانسته‌ها توسط ماشین است. مثلا اگر ما اسم ۲۰ بازیکن فوتبال را بدانیم، می‌توانیم از آنها برای پیدا کردن نام بقیه استفاده کنیم. سپس می‌توانیم نام‌هایی را که فکر می‌کنیم به درستی استخراج شده‌اند را هم به دانسته‌های اولیه اضافه کنیم و اینطوری الگوهای جدیدی را برای استخراج بدست بیاوریم. به این ترتیب اگرچه داده‌های آموزشی اولیه کم باشد، می‌توانیم مرحله به مرحله روی داده‌های بیشتری آموزش ببینیم. این روش به خودراه‌اندازی1 معروف است که یکی از انواع یادگیری نیمه‌نظارتی2 به حساب می‌آید.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار می‌گیرد.

مقدمه

یادگیری نیمه نظارتی چیست؟
همانطور که از اسم آن مشخص است روشی میان یادگیری نظارتی و یادگیری غیر نظارتی می‌باشد. در این روش بعضی از داده‌ها دارای بچسب بوده و بعضی نیز برچسب ندارند. به علت اینکه در خیلی از برنامه‌های کاربردی عملیات برچسب گذاری هزینه‌بر و زمان‌بر می‌باشد. برای اینکه کارایی را افزایش داده و از کل توان خود در حل مسئله برای بهبود بیشتر استفاده کنیم می‌توان از داده‌های بدون برچسب نیز استفاده نمود. در یادگیری نیمه‌نظارتی هدف یافتن روش‌هایی است که با استفاده از داده‌های بدون برچسب و داده‌های برچسب‌دار به حل مسئله پرداخته و کارایی را نسبت به قبل افزایش دهند[4].

چه زمانی باید از یادگیری نیمه نظارتی استفاده کرد؟
پرسش اصلی در زمینه یادگیری نیمه نظارتی این است که اصولا تحت چه شرایطی باید از این روش استفاده کرد. به عبارتی در چه مسائلی و یا روی چه مجموعه داده‌هایی استفاده از این روش منجر به بهبود عملکرد عامل یادگیرنده یا جداساز می‌شود. یا بطور کلی‌تر آیا استفاده از داده‌های بدون بچسب واقعا می‌تواند کارایی را بهبود بخشد. نگاهی به حجم مقلات ارائه شده در این زمینه نشان می‌دهد پاسخ مثبت است، اما یک شرط اساسی وجود دارد و آن هم اینکه باید توزیع نمونه‌ها که به کمک داده‌های بدون برچسب برآورد می‌شود، مناسب مسئله جداسازی باشد. در حقیقت داده‌های بدون برچسب کمک می‌کند تا دانش اولیه درمورد توزیع داده‌ها کسب شود.
به بیان دقیق‌تر ، در صورتی استفاده از داده‌های بدو ن برچسب مفید واقع خواهد شد، که دانش بدست آمده از داده‌های بدون برچسب درمورد توزیع داده‌ها (p(x، حاوی اطلاعات مفیدی برای استنتاج درمورد (p(y|x باشد. اگر این موضوع در یک مسئله خاص برقرار نباشد، روش نیمه‌نظارتی کمکی در بهبود تعمیم پذیری جداساز نخواهد داشت، حتی ممکن است داده‌های بدون برچسب با اطلاعات نادرستی که درمورد توزیع داده‌ها می‌دهند، موجب افزایش خطای جداسازی شوند. بر این اساس واضح است برای استفاده از روش‌های نیمه‌نظارتی، پیش‌فرض‌های بخصوصی باید برقرار باشد که این پیش‌فرض‌ها همان دانش پیشین هستند. همان طور که گفته شد استفاده از داده‌های بدون برچسب درحقیقت معادل با یادگیری توزیع داده‌ها است، و هر فرآیند یادگیری برای همگرا شدن نیازمند یک دانش پیشین است[5].
پیش فرض‌ها:
• پیش فرض همواری در یارگیری نیمه نظارتی3 : اگر دو نقطه x1 و x2 در یک منطقه با چگالی بالا نزدیک به هم باشند، برچسب‌های متناظر آن‌ها یعنی y1 و y2 هم باید نزدیک باشند.
• پیش فرض خوشه4 : داده‌های موجود در یک خوشه احتمالا برچسب‌های مشابهی دارند.
• پیش فرض خمینه5 : ( درفضای ورودی با بعد بالا) داده‌ها (تقریبا) روی یک خمینه با بعد پایین‌تر قرار دارند و تابع جداساز روی خمینه داده‌ها هموار است.
روش های یارگیری نیمه نظارتی[7]:
Constrained Clustering
Distance Metric Learning
Manifold Methods in Vision
Sparsity based Learning
Active Learning

استخراج اطلاعات
استخراج اطلاعات به منظور تبدیل متن به اطلاعات قابل استفاده از منظر ماشین است. رویه مرسوم در پژوهش‌های دیرین مرتبط با این موضوع مبتنی بر اهداف از پیش تعیین شده بوده است. یعنی ماشین باید نوع خاصی از اطلاعات را که احتمالا به اشکال مشخصی نیز در متن بیان می‌شوند، استخراج می‌کرده. << استخراج هدفمند اطلاعات>> عنوان مناسبی برای این نحوه نگاه به مسئله به نظر می‌رسد. مثلا استخراج زمان و مکان برگزاری مسابقات را می‌توان یک استخراج هدفمند دانست که معمولا باید روی دامنه مشخصی از متن‌ها انجام گیرد.
وقتی استخراج اطلاعات را به صورت یک مسئله باناظر تعریف می‌کنیم، در واقع استخراج هدفمند را برگزیده‌ایم. یعنی فرض می‌کنیم که اطلاعات مشخصی برای استخراج، توسط انسان مشخص شده‌اند و حالا ماشین باید این داده‌ها را یاد بگیرد تا بتواند از متون جدید نیز داده‌های مورد نظر را استخراج کند. اگرچه الزامی وجود ندارد که مجبور به انتخاب رابطه یا روابطی محدود باشیم، نوع نزدیک شدن ما به مسئله عملا منجر به این محدودیت می‌شود. از روش های استخراج هدفمند اطلاعات می‌توان به روش‌های مبتنی بر قاعده که در سامانه هایی از قبیل YAGO و DBpedia استفاده شده است نام برد[9,10]. در این سامانه‌ها با استفاده از قواعد دست ساز، انبوه اطلاعات ساخت یافته موجود در ویکی پدیا و یا وردنت استخراج می‌شوند. روش دیگر استخراج هدفمند اطلاعات، استفاده از مدل‌های گرافی است. برای نمونه استخراج ویژگی‌های مقاله از میان سربرگ و ارجاع‌ها به شکل یک مسئله پیش بینی ساختار تعریف و حل شده است[11]. روش دیگر استخراج اطلاعات استفاده از توابع کرنل است که برای این کار تعریف شده و مورد استفاده قرار گرفته‌اند. برای نمونه استفاده از تجزیه کم عمق جمله برای تشخیص رابطه اشخاص و نهادها و همچنین مکان سازمان‌ها بررسی شده‌است[12].

کارهای مرتبط

سامانه (NELL(Never Ending Lanquage Learning:
سامانه NELL برای پر کردن شکل ساده شده‌ای از یک هستان شناسی ایجاد شده است. در واقع این سامانه قرار نیست رابطه یا نوع جدیدی کشف کند و فقط برای پیدا کردن نمونه‌ها ایجاد شده است. همچنین این سامانه با هدف ایجاد هم افزایی در استخراج اطلاعات طراحی شده است. یعنی قرار است ماشین از اطلاعات استخراج شده برای بهبود کیفیت استخراج استفاده کند. NELL برای رسیدن به این هدف، اطلاعات را با روش‌های مختلف استخراج می‌کند و سپس به سازگاری میان آن‌ها می‌اندیشد. حاصل این فرایند افزوده شدن نمونه‌های مطمئن به هستان شناسی اولیه است که در عمل منجر به بهبود کیفیت استخراج می‌شود[1] .
منابع استخراج اطلاعات
دو نوع اطلاع مورد هدف این سامانه هستند که با تعداد آرگومان‌ها از هم تفکیک می‌شنود. نمونه‌هایی از یک نوع مثل اسامی شهرها تنها یک آرگومان دارند و روابط میان دو نوع مثل عضو بودن یک بازیکن در یک تیم، که دو آرگومان دارد. این سامانه با مجموعه‌ای از این نوع و رابطه‌های از پیش تعریف شده شروع به کار می‌کند و سعی می‌کند الگوهای وقوع این مفاهیم را در متن یاد بگیرید. توصیف این سامانه از الگو به شکل‌های زیر انجام می‌شود:
• الگوهای متنی که بر اساس برچسب اجزای سخن واژه‌ها تعریف می‌شوند. مثل: <<شهر الف>> و یا <<روابط تجاری میان الف و ب >>
• الگوهای متون ساخت یافته در قالب صفحات وب که بر اساس حروف تعریف می‌شوند و برای استخراج اطلاعات جدول‌ها و لیست‌ها طراحی شده‌اند. مثلا برای یک صفه خاص، الگوی(option) X (/option) ممکن است لیستی از شهرها را استخراج کند.
• الگوهای تصریفی واژه‌ها که به صورت ویژگی به یک ابزار رده‌بند معرفی می‌شوند. برای نمونه پایان یافتن واژه با <<ایسم>> می‌تواند نشانگر یک مکتب فکری باشد.
• گزاره‌های شرطی که میان روابط برقرار هستند. این گزاره‌ها مستقیما از متن خارج نمی‌شوند و فقط برقرار بودن آن‌ها میان روابط بررسی می‌شود. مثلا << حضور یک بازیکن در جام جهانی>> به معنی <<بازیکن فوتبال>> بودن اوست.
سازگاری میان اطلاعات استخراج شده
در این سامانه همه‌ی اطلاعات به صورت یکپارچه‌ای فهمیده می‌شند، اگرچه از منابع مختلف استخراج شده باشند. سازگاری میان اطلاعات استخراج شده با این روش‌ها مورد بررسی قرار می‌گیرد:
• برقرار بودن رابطه انحصاری میان دو اطلاع به معنی نفی تعلق نمونه به هر دو رابطه است. مثلا نام شهر و نام ورزش رابطه‌ی انحصاری دارند، اما یک شهروند می‌تواند یک بازیکن فوتبال هم باشد. این روابط بخشی از ورودی‌های سامانه هستند و یادگرفتن آن‌ها مورد بحث نیست.
• آرگومان‌های یک رابطه معمولا نوع مشخصی دارند و این نوع قابل ارزیابی است. مثلا رابطه <<عضویت یک بازیکن در یک تیم>> دو آرگومان دارد که نوع هر دو مشخص است و امکان ندارد که یک شهر در یک تیم عضو باشد.
• وجود توافق میان ابزارهای رده‌بند نیز قابل بررسی است. مثلا وقتی این که الگوهای متنی و الگوهای مبتنی بر ساختار هر دو یک خروجی را تایید کنند، نشان دهنده صحت آن است.
این سامانه مجمعی از ابزارهای رده بند برای استخراج اطلاعات را به کار می‌گیرد و خروجی‌های آن یا مبتنی بر یک ابزار با اطمینان بالا و نتیجه‌ی اجماع چند ابزار با اطمینان پایین است. اگرچه شکل اجرا شده‌ی این سامانه با تعامل مختصر انسان، دقت اطلاعات را بهتر می‌کند[1].
سامانه Snowball:
از روش (DIPRE(Dual Iterative Pattern Expansionشروع می کنیم که به نوعی مبنی کار Snowball است. این روش را میتوان تقریبا بدیهی ترین شکل فرایند خود راه اندازی برای استخراج اطلاعات دانست. گفتیم که در این روش‌ها سامانه با تعداد داده‌ی ورودی آغاز به کار می‌کند، بنابراین DIPRE با جستجوی داده‌های ورودی سعی می‌کند، الگوی وقوع آن‌ها را کشف کند. برای این منظور، هر داده با ویژگی‌های << ترتیب وقوع آرگومان‌ها، آدرس وقوع، متن چپ، متن وسط و متن راست>> توصیف می‌شود. این توصیف امکان استخراج الگوهای مختلف را در آدرس‌های مختلف وب و با انطباق متن‌های اطراف آرگومان ها فراهم می‌کند. همچنین در این روش از یک عبارت با قاعده هم برای توصیف آرگومان‌ها استفاده می‌شود، تا از خطاهای واضح جلوگیری شود. سامانه Snowball هم تقریبا چنین عمکردی دارد و سعی کرده است این روش را بهتر انجام دهد. قواعد استخراج این سامانه با استفاده از تشخیص اسامی موجودیت‌ها تقویت شده‌است. تغییر دیگر افزودن احتمال وقوع به هرکدام از واژه‌های زمینه مربوط به قاعده است و برای محاسبه آن‌ها از تکرارهای مختلف نمونه‌ها استفاده می‌کند. حلقه‌ی تکرار این سامانه نیز مطابق دیگر نمونه‌های خود راه انداز، با جمع آوری داده‌ی مطمئن برای بهتر یادگرفتن الگو عمل می‌کند[6,2].
استخراج اطلاعات با استفاده از یادگیری نیمه نظارتی دوگانه6
یادگیری ماشین برای استخراج نوع‌ها7 و روابط8 از متن های ساخت یافته و غیرساخت یافته مفید و مناسب است. آموزش این روابط و نوع‌ها نیاز به نمونه‌های برچسب دار زیادی دارد که هزینه‌ی بدست ‌آوردن‌ آن‌‌ها زیاد است. در این مقاله برای آموزش از یادگیری نیمه نظارتی استفاده می‌کنیم به صورتی که از تعدادی نمونه‌ی برچسب دار و تعداد زیادی از اسناد بدون برچسب که از وب بدست آمده استفاده می‌کنیم که این ها به عنوان ورودی در الگوریتم هایی که در ادامه معرفی می شوند استفاده شده است . این مقاله چند راه را معرفی می‌کند که در آن‌ها آموزش نیمه نظارتی استخراج کننده نوع9 و استخراج کننده رابطه10 می‌تواند همراه هم استفاده شود[8].
به سه روش می توان آموزش استخراج کننده‌های نوع و رابطه را با هم به کاربرد[8]:
1.روش اول محدودیت روی خروجی ها:
اگر دو تابع fa : X → Ya و fb : X → Yb را داشته باشیم و محدودیت روی ya و yb را به ازای ورودی x بدانیم می توانیم fa و fb را طوری بدست آوریم که این محدودیت ها را ارضا کند.
2.روش دوم محدودیت‌های ترکیبی:
ا گر دو تابع f1 : X1 → Y1 و f2 : X1 × X2 → Y2 را داشته باشیم ممکن است به ازای جفت y1 و y2 به ازای یک X1 و هر X2 ای محدودیتی وجود داشته باشد که با توجه به آن توانیم f1 و f2 را طوری بدست آوریم که این محدودیت ها را ارضا کند.
3.روش سوم Multi-view-agreement constraints:
اگر تابع f : X → Y را داشته باشیم و بتوانیم X را دو قسمت کنیم به نحوی که بتوانیم بنویسیم <X = <X1 ,X2 و فرض کنیم هردوی آن‌ها Y را نتیجه بدهند ما می تواینم f1 : X1 → Y و f2 : X2 → Y را یادبگیریم.
در این مقاله تابع یاد می‌گیرد که نوع ها و روابط را استخراج کند و برای یادگیری از روش‌های زیر استفاده می‌کند[8]:

  • روش اول: انحصار متقابل

  • روش دوم:Relation Argument type Checking

  • روش سوم : Unstructured and Semi-structured Text Features
    در این مقاله برای یادگیری از الگوریتم های زیر استفاده شده است، که در آن‌‌ها فرض شده که مشکل لغات هم معنی و ابهام وجود ندارد:

  • Coupled Pattern Learner

  • Coupled SEAL

آزمایش‌ها

همانطور که می دانیم در مسائل ساختن دسته بند11 که به صورت نیمه ناظر کار می کند دیتا ست از دو سری مجموعه نمونه تشکیل شده است:
1-مجموعه نمونه هایی که کلاس مربوط به آنها نیز مشخص می باشد یعنی در دیتا ست آمده که هر کدام از نمونه های مربوط به این مجموعه مربوط به کدام کلاس می باشد.
2-مجموعه نمونه هایی که کلاس مربوط به آنها مشخص نمی باشد یعنی در دیتا ست موجود کلاس مربوط به هر کدام از نمونه های مربوط به این مجموعه مشخص نیست.
در پیاده سازی با استفاده از نرم افزار متلب، این پروژه می تواند علاوه بر دیتا ست های نیمه ناظر می تواند با استفاده از تابع Make_Dataset از دیتا ست های کاملا با ناظر نیز استفاده کند.این تابع به این صورت عمل می کند که به عنوان ورودی آدرس دیتا ست با ناظر ، نسبت نمونه های تست به نمونه های یادگیری و نسبت نمونه های یادگیری بدون ناظر به نمونه های با ناظر را دریافت نموده و در خروجی به ما سه مجموعه نمونه می دهد: یک مجموعه برای تست و یک مجموعه شامل نمونه های برچسب دار و دیگری هم شامل نمونه های بدون برچسب. که پیاده سازی این تابع در قسمت کدها موجود می‌باشد.
بعد از آماده سازی دیتاست کلاسیفایر ما توسط گام های زیر ساخته خواهد شد:
1-ساخت دسته بند اولیه :

برای ساخت دسته بند اولیه از تابع S3VMاستفاده می‌کنیم. روند ساختن دسته بند Semi-Supervise SVM ما به این صورت است که در ابتدا و با استفاده از مجموعه آموزش که از فراخوانی تابع Make_Dataset بدست آوردیم یا به صورت جداگانه داریم باید دسته بند اولیه SVM را بسازیم.باید توجه داشت که برای آموزش این دسته بند ما از معدود نمونه های با کلاس مشخص استفاده خواهیم کرد نه از کلیه نمونه های موجود در دیتاست اولیه. و چون در فرآیند ساخت دسته بند اولیه فقط تعداد محدودی از نمونه ها شرکت خواهند کرد بنابراین این امکان وجود دارد که دقت دسته بند تولید شده ما بسیار پایین باشد.
بعد از بدست آوردن دسته بند پایه به این صورت عمل می کنیم که در نمونه هایی که برای آموزش داریم اما کلاس آنها مشخص نمی باشد (Unlabled)به دسته بند ساخته شده از مرحله قبل خواهیم داد تا آنها را کلاسبندی کند.

2-بروزرسانی دسته بند و بدست آوردن دسته بند نهایی :
بعد از بدست آودرن برچسب کلاس تمامی نمونه های آموزشی و با استفاده از این برچسب ها به ترکیب دو دیتا ست Training و Unlabled می پردازیم . برای این کار مراحل زیر را انجام می دهیم:
1.دسته بند اولیه را می سازیم
2.برچسب کلاس تمامی نمونه های آموزشی را به استفاده از دسته بند اولیه بدست می آوریم
3.دیتا ست Unlabled را به انتهای Training اضافه می کنیم
4.بردار Unlables رابه انتهای بردار TrainLables اضافه میکنیم.
با استفاده از دیتا ست جدید بدست آمده یک دسته بند جدید می سازیم و با استفاده از آن دوباره برچسب کلاس تمامی نمونه های آموزشی که کلاس نا مشخص دارند را بدست می آوریم. باید در نظر داشت که چون دسته بند ما تغییر کرده لزوما جوابی که برای برچسب کلاس تمامی نمونه های آموزشی با کلاس نامشخص تولید می کند با دسته بند قبلی یکسان نسیت.
باید توجه داشت که ما برای پایان دادن فاز آموزش نیاز به یک آستانه12 داریم که با استفاده از فرمول زیر آن را محاسبه می‌کنیم:

توضیح تصویر
3-تست دسته بند ساخته شده :
در این پروژه دسته بند اولیه دقت 0.5785را داشت ولی دسته بند نهایی به دقت 0.8667 رسیده است.
برای مشاهده کدها می توانید از لینکی که در قسمت پیوندهای مفید است استفاده کنید.

کارهای آینده

مراجع

[1] Carlson, Andrew, et al. "Toward an Architecture for Never-Ending Language Learning." AAAI. Vol. 5. 2010.
[2] Agichtein, Eugene, and Luis Gravano. "Snowball: Extracting relations from large plain-text collections." Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000.
[3] Zhu, Jun, et al. "StatSnowball: a statistical approach to extracting entity relationships." Proceedings of the 18th international conference on World wide web. ACM, 2009.
[4] Xiaojin Zhu and Andrew B. Goldberg. Introduction to Semi-Supervised Learning. Morgan & Claypool, 2009.
[5]Oliver Chapell، Bernhard Schölkopf and Alexander Zien. Semi-Supervised Learning. Massachusetts Institute of Technology2006
[6] Sergey Brin. Extracting Patterns and Relations from the World Wide Web. In WebDB Workshopat 6th International Conference on Extending Database Technology, pages 172–183, 1998.
[7] X. Zhu. Semi-supervised learning literature survey. Technical Report 1530, Department of Computer Sciences, University of Wisconsin, Madison, 2005.
[8] Andrew Carlson, Justin Betteridge, Richard C. Wang, Estevam R. Hruschka Jr, Tom M. Mitchell. Coupled Semi-Supervised Learning for Information Extraction, 2010
[9] J. Hoffart, F. M. Suchanek, K. Berberich, and G. Weikum, “YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia,” Artif. Intell., vol. 194, pp. 28–61, Jan. 2013.
[10]S. Auer, C. Bizer, G. Kobilarov, and J. Lehmann, “Dbpedia: A nucleus for a web of open data,” Semant. Web, 2007.
[11] F. Peng and A. Mccallum, “Accurate Information Extraction from Research Papers using
Conditional Random Fields,” 2003.
[12] D. Zelenko, C. Aone, and A. Richardella, “Kernel methods for relation extraction,” J. Mach. Learn. …, vol. 3, pp. 1083–1106, 2003.
[13] Li Cunhe,Wu Chenggang. “A New Semi-Supervised Support Vector Machine Learning Algorithm Based on Active Learning” 2010 2nd International Conference on Future Computer and Communication V 3 Pages 638-641

پیوندهای مفید


  1. Bootstrapping

  2. Semi-Supervised Learning

  3. The semi supervised smoothness assumption

  4. The Cluster Assumption

  5. The Manifold Assumption

  6. Coupled Semi-Supervised Learning for Information Extraction

  7. Categories

  8. Relations

  9. Categories extractors

  10. Relations extractors

  11. classifi?er

  12. Threshold

ارزیابی آشنایی با مساله 1393/08/17
مجید عسگری بیدهندی

جملات انتهایی پاراگراف اول به نظر علمی نمیرسند یا لااقل منبعی برای تعاریف مزبور ارائه نشده است.
عنوان پروژه شما دارای دو کلمه کلیدی است. استخراج اطلاعات و یادگیری نیمه نظارتی. متاسفانه در مورد کلیدواژه اول توضیحات بسیار کمی داده اید و هیچ جا هم درباره ارتباط دو کلیدواژه ننوشته اید. مثلا مشخص نیست اساسا چگونه استفاده از یادگیری نیمه نظارتی برای استخراج اطلاعات مفید است یا بر طبق نوشته خودتان آیا توزیع نمونه‌ها که در مسأله استخراج اطلاعات به کمک داده‌های بدون برچسب برآورد می‌شود، مناسب مسئله جداسازی هست یا خیر.
بخش بندی مطالب مناسب نیست. احساس من بعد از خواندن تحقیق این بود که نویسنده هنوز نتوانسته است خود بخش یادگیری نیمه نظارتی را بفهمد چون آن چیزی که در مورد آن نوشته شده گنگ است و تمرکز لازم را ندارد.
به نظر من اشکالی ندارد در مرحله اول تحقیق تمام مطالب یک بخش را از مطلب دیگری عینا ترجمه کنید اما آن مطلب را به خوبی نویسنده اصلی بفهمید؛ تا اینکه مطالب دارای چند منبع باشند اما پیوستگی بین آن‌ها برقرار نباشد.
برای سامانه NELL منبعی ذکر نشده.
بخش روش های یارگیری نیمه نظارتی بهتر بود به صورت یک بخش نیاید چون تنها از تعدادی اسم نام برده شده که در ادامه خواننده اصلا نخواهد فهمید چه هستند.
تشخیص اسامی موجودیت‌ها احتمالا ترجمه نادرستی از تشخیص واحدهای اسمی یا تشخیص موجودیت‌های نامدار است.
در جمله‌ی «تغییر دیگر افزودن احتمال وقوع به هرکدام از واژه‌های زمینه مربوط به قاعده است.» واژه‌های زمینه «مربوط به قاعده» به چه معنی است؟ گوگل ترنسلیت؟ :-)

پیشنهاد من به شما برای اولین فاز از تحقیق این است که ابتدا روی یادگیری نیمه نظارتی و ارتباطش با استخراج اطلاعات متمرکز شوید و فعلا روی کارهای مرتبط به سبک و سیاق فعلی تمرکزی نکنید. به طور کلی نوشتن بخش کارهای مرتبط یک کار زمان‌بر و سخت است که نویسنده باید برای انجام آن اطلاعات کافی در مورد مسأله داشته باشد.

ارزیابی مطالعه کارهای مرتبط 1393/09/15
تایید شده

با بررسی ساده متن می توان مشکلات تایپی و به صورت کلی مشکل فرمی آن را مشاهده کرد. البته این مشکلات با ویرایش قابل تصحیح هستند ولی مشکلات دیگری به نظرم رسید که شاید بیان آن‍ها بتواند شما را کمک کند.
اول آنکه حس می شود در بکار بردن پاورقی و ذکر واژه اصلی کم کاری صورت گرفته است. به نظر من در بعضی موارد آوردن واژه اصلی برای معادل در نظر گرفته می تواند فهمیدن مطلب را تسریع کند.
می توانستید بخش مقدمه را کاملتر بنویسید. هدف از بخش مقدمه معرفی مسئله و بررسی برخی از ابعاد اصلی و چالش های آن است. مقدمه شما اطلاعات کاملی در مورد این موارد در اختیار قرار نمی دهد.
بخش مربوط به استخراج اطلاعات به نظرم مناسب آمد. می توانستید با استفاده از شکل یا نمودار آن را کاملتر کنید.
نکته اصلی متن استفاده از ترجمه تحت الفظی است. این موضوع کاملا محسوس است. نتیجه ای که من گرفتم این است که ساختار متن می توانست منسجم تر باشد. احساس می شود نتیجه گیری های خودتان و مطالب شخصی در متن کمتر وارد شده و سعی در خلاصه کردن مقالات داشته اید.

مجید عسگری بیدهندی

اولین چیزی که توجه من را جلب کرد اینست که شما ظاهرا اصلا نقد قبلی را نخوانده‌اید. یا اگر خوانده‌اید موارد نوشته شده در آن را اصلا در نظر نگرفته و تغییری در مطالب قبلی نداده‌اید.
بخش مربوط به NELL به خوبی بررسی شده و از نقاط قوت تحقیق شما محسوب می‌شود.
غلط‌های نگارشی زیاد هستند. فرمول‌ها با دقت کافی تایپ نشده‌اند. برای نمونه جایی Ya و در جای دیگر ya تایپ شده است.
برای تمام اصطلاحات اسم فارسی مناسب انتخاب نشده است.
در مورد الگوریتم‌های انتهایی هیچ توضیح یا تحلیلی ارائه نشده یا لااقل یک بار به فارسی نوشته نشده‌اند. به طور کلی زمان مناسبی را به نگارش مقاله اختصاص نداده‌اید.
از طرفی هم دوست ندارم از این بخش نمره‌ی کمی کسب کنید. امتیاز شما حقیقتا کمتر از چیزی است که به شما در این مرحله داده‌ام اما امیدوارم که در بخش بعد بهتر عمل کنید :-)

ارزیابی گزارش نتایج آزمایش 1393/10/13
علیرضا نوریان

کاش بهتر می‌گفتید که داده ورودی چی بوده؟ رده‌بند شما چی رو یاد گرفته؟
کدهاتون رو هم نگاه کردم و واقعا متوجه نشدم که این کدها چطور اطلاعات استخراج می‌کنن.
کاش می‌تونستید کمک کنید که بتونم کدتون رو اجرا کنم!

مجید عسگری بیدهندی

بخش‌های قبلی شما تغییری نداشته‌اند بنابراین به نظرات قبلی هم ترتیب اثر نداده‌اید.
مشخص نیست یادگیرنده شما دقیقا چه چیزی را و با چه فیچرهایی یاد گرفته است. به هر حال یا توضیحات کامل نیست یا خودتان موضوع را خوب درک نکرده‌اید.
کد شما دیتاستی را از آدرس C:\Users\HamidReza\Desktop\SSLProject\DataSets\dataset.data1 می‌خواند. حداقل دیتاست را هم در گیت‌هاب می‌گذاشتید!

تایید شده

در فاز آزمایشها در مورد روش پیاده سازی شده بخوبی توضیح داده نشده است.و همچنین نتایج آزمایشها تنها حاوی یک مقدار برای دقت است. در حالکیه میشد با آوردن نتایج در قالب نمودارهایی به خواننده برای مطالعه بهتر این بخش کمک کرد.همچنین در قسمت مربوط به کارهای آینده هیج ایده ایی معرفی نشده است.

رد شده

با سلام
پروژه در قسمت های مقدمه و کارهای مرتبط خوب ارائه شده است .بهتر بود از عکس یا شکل هم در توضیح این پروژه استفاده می شد.
در بخش آزمایش بهتر بود خروجی مشاهده می شد.
همچنین بهتر بود کدها هم مقداری توضیح داده می شد.
در بخش کارهای آینده هم بهتر بود پیشنهادی داده می شد .
اما کدها مفید بود معلوم است که روی آن وقت زیادی صرف شده است.
موفق باشید.

تایید شده

بهتر بود کمی بیشتر در مورد آزمایش ها توضیح می دادید و برای کارهای آینده هم ایده های خود را می نوشتید.
توضیحات خیلی خوبی در قسمت کارهای مرتبط داده شده.
چند اشکال نگارشی هم در متن وجود دارد.

تایید شده

بهتر بود در برخی موارد از معادل های فارسی استفاده می کردید.
در مرحله آزمایش روند کلی پیاده سازی توضیح کافی داده شده اما بهتر بود جزئیات بیشتری را وارد می کردید.
در مورد کارهای مرتبط NELL از بقیه موارد توضیح بیشتری داده شده است.
قسمت بهبود مشاهده نشد.

تایید شده

مقدمه ی گزارش بسیار مناسب و قابل درک بود و دید خوبی نسبت به کلیت موضوع و دلیل استفاده از یادگیری نیمه نظارتی به خواننده میدهد.
قسمت «کارهای مرتبط» نیز از کیفیت مطلوبی برخوردار است و سامانه های عنوان شده به خوبی معرفی و توصیف گشته اند. در انتهای گزارش دو الگوریتم در قالب تصویر معرفی شده اند که بهتر بود توضیح مختصری در مورد عملکرد آن ها نیز داده میشد و تحلیل آن ها به خواننده واگذار نمیشد. از آنجاییکه گفته شده از این دو الگوریتم در پیاده سازی استفاده شده است بهتر بود بیشتر مورد بررسی قرار میگرفتند و پشتوانه ی آن ها مطرح میشد.
متاسفانه قسمت «آزمایش ها» به خوبی دو بخش قبل نیست. هرچند مطالبی در مورد ماهیت داده های ورودی و خروجی بیان شده است ولی باید توجه داشت هدف از این فاز، پیاده سازی پروژه بوده و می بایست قسمتی از داده هایی که در عمل برای پیاده سازی استفاده کرده اید، در گزارش می آوردید. همچنین هیچ توضیحی در مورد عملکرد برنامه و نتایج حاصل از اجرای آن داده نشده و کارایی الگوریتم استفاده شده مورد بررسی قرار نگرفته است.
قسمت «بهبود نتایج» هم که کلا انجام نگرفته است. البته شاید بخش «بروز رسانی دسته بند و بدست آوردن دسته بند نهایی» مربوط به همین قسمت باشد ولی در این صورت باز هم ایرادات قسمت «آزمایش ها» به آن وارد خواهد بود و مطالب بیان شده اصلا مستند نیستند.
با توجه به اینکه گزارشی برای فاز «بهبود نتایج» اضافه نشده است من دخالتی در نمره این فاز نمیکنم و آن را به عهده کمک استاد مربوطه میگذارم، امتیازی که برای شما در نظر گرفتم مربوط به مابقی گزارش شماست که به نظرم اگر قسمت «آزمایش ها» کمی بهتر بود مستحق نمره کامل بودید. البته مشخص است موضوع پروژه شما موضوع راحتی نیست و بخصوص در فاز پیاده سازی و بهبود دشواری های خاص خود را دارد. بابت تلاشی که برای انجام آن کرده اید به شما خسته نباشید میگویم و برایتان آرزوی موفقیت میکنم.

رد شده

با سلام
• در قسمت مقدمه و کارهای مرتبط بخش های استخراج اطلاعات و سامانه های NELL و Snowball را به خوبی توضیح داده اید ولی با این حال در قسمت مقدمه بهتر بود ابعاد مسئله را بیشتر باز کنید و همچنین بهتر بود با رسم اشکال و نمودار فهم مسئله را برای خواننده راحت تر کنید.
• در مورد نگارش مقاله هم میتوانستید به جای بعضی از کلمات از واژه ی معادل فارسی آن استفاده کنید که البته خیلی دیده نمی شود.
• در فاز آزمایش روند کلی پیاده سازی را به خوبی را شرح داده اید ولی بهتر بود بیشتر وارد جزئیات شده و برای نتیجه تنها دقت را ذکر نکنید و بیشتر آن را تفسیر میکردید.
در کل به نظرم کار خوبی بود ولی میتوانست بهتر از این هم باشد.
با آرزوی موفقیت شما

مجید عسگری بیدهندی

بخش‌های قبلی شما تغییری نداشته‌اند بنابراین به نظرات قبلی هم ترتیب اثر نداده‌اید.
مشخص نیست یادگیرنده شما دقیقا چه چیزی را و با چه فیچرهایی یاد گرفته است. به هر حال یا توضیحات کامل نیست یا خودتان موضوع را خوب درک نکرده‌اید.
کد شما دیتاستی را از آدرس C:\Users\HamidReza\Desktop\SSLProject\DataSets\dataset.data1 می‌خواند. حداقل دیتاست را هم در گیت‌هاب می‌گذاشتید! برای اینکه کلا اعتقادی به تاثیر مستقیم انجام یک پروژه اجباری روی نمره دانشجو ندارم نمره شما را خیلی کم نمی‌دهم.
انتظارم از شما به عنوان دانشجوی ارشد هم بیشتر از چیزی است که ارائه شده و هم کمتر از آن. بیشتر از این جهت که باید سعی کنید چیزی را که به عنوان کار خودتان تحویل می‌دهید خیلی بهتر عرضه کنید و کمتر از این جهت که حدس می‌زنم به اجبار این پروژه را انتخاب کرده‌اید و نباید برای پروژه‌ی یک درس انتظار خیلی فضایی از دانشجو داشت.