در مدل‌سازی موضوعی، فرض می‌کنیم که مجموعه متون ورودی از روی چند موضوع نامعلوم ساخته شده‌اند و باید این موضوعات را پیدا کنیم. هر موضوع یک توزیع احتمال نامعلوم روی واژه‌ها است و هر متن توزیع احتمالی روی موضوع‌ها.

نمایش رابطه واژه‌ها و موضوعات

  • این پروژه توسط یک بنگاه تجاری تعریف شده است.

۱. ۱. مقدمه

با افزایش حجم اسناد و اطلاعات و از طرفی نمایش آن‌ها به صورت دیجیتال در قالب اخبار، وبلاگ‌ها، مقالات علمی، کتاب‌های الکترونیکی، عکس، صوت و تصویر و شبکه‌های اجتماعی پیدا کردن مطالبی که به دنبال آن هستیم مشکل می‌شود. ازاین‌رو نیاز به ابزار محاسباتی جدیدی برای سازمان‌دهی، جستجو و درک این حجم عظیم اطلاعات هستیم.
تابه‌حال کار ما روی اسناد آنلاین به دو طریق انجام می‌گرفت: یکی جستجو و دیگری پیوندها. کلمه‌ی کلیدی را در یک موتور جستجو وارد و مجموعه‌ای از اسناد مرتبط با آن را مشاهده می‌کردیم. در این اسناد اگر پیوند مفیدی به اسناد دیگر می‌دیدیم با کلیک روی آن به مجموعه اسناد دیگر دسترسی پیدا می‌کردیم. این دو روش‌های قدرتمندی برای کار کردن با آرشیوهای الکترونیکی بودند اما مشکلاتی نیز وجود داشت.
روش جستجویی که در بالا شرح داده شد مبتنی بر ظاهر یک کلمه بود و هنگام انجام عمل جستجو تمامی اسنادی که حاوی آن کلمه‌ی کلیدی هستند به عنوان نتیجه برگردانده می‌شوند. این اسناد اگرچه دربردارنده‌ی آن کلمه هستند ولی ممکن است متعلق به موضوعات مختلفی باشند درحالی‌که ما احتمالاً فقط به دنبال یک موضوع خاص هستیم. برای اینکه جستجوی دقیق‌تری داشته باشیم بایستی ابتدا موضوع مورد علاقه‌ی خود را در بین اسناد جستجو کرده و سپس جستجوی خود را محدود به این اسناد جدید کنیم و می‌توانیم در این اسناد جدید دوباره موضوع خود را محدودتر کنیم و همین‌طور پیش برویم تا جایی که به طور دقیق به اسناد مورد نیاز خود دسترسی پیدا کنیم.
به عنوان مثال فرض کنیم می‌خواهیم در آرشیو یک روزنامه به دنبال یک موضوع باشیم. موضوعات در دسته‌های سیاسی، اقتصادی، فرهنگی، ورزشی و حوادث قرار دارند. مثلاً می‌خواهیم در موضوع سیاسی جستجو کنیم. داخل این موضوع زیرموضوع‌های سیاست داخلی و خارجی وجود دارد که یکی را انتخاب می‌کنیم و همین‌طور پیش می‌رویم تا دقیقاً به اسناد مورد نیازمان دسترسی پیدا کنیم.
البته این‌گونه کار کردن با اسناد به‌سادگی امکان‌پذیر نیست؛ زیرا هر چه حجم اسناد و اطلاعات افزایش می‌یابد دسته‌بندی فوق برای انسان کار مشکل و یا غیرممکنی می‌شود؛ بنابراین نیاز به تکنیک‌های یادگیری ماشین داریم تا بتوانیم از طریق کامپیوتر دسته‌بندی فوق را انجام دهیم. پژوهش‌گران حوزه‌ی یادگیری ماشین برای این کار مجموعه‌ای از الگوریتم‌ها تحت عنوان مدل‌سازی موضوعی آماری را توسعه داده‌اند.
الگوریتم‌های مدل‌سازی موضوعی روش‌های آماری هستند که کلمات داخل یک متن را تحلیل کرده و از این طریق موضوعات داخل متون را استخراج می‌کنند. هم‌چنین ارتباط این موضوعات با یکدیگر و نیز تغییر آن‌ها در طول زمان را مشخص می‌کنند. این الگوریتم‌ها نیازی به هیچ فرض اولیه‌ای در مورد موضوعات متون و یا برچسب‌گذاری متون ندارند. بلکه ورودی آن‌ها متن اصلی است. الگوریتم‌های مدل‌سازی موضوعی به ما این امکان را می‌دهند تا سازمان‌دهی و خلاصه‌سازی آرشیوهای الکترونیکی‌مان را در ابعادی که از عهده‌ی انسان برنمی‌آید انجام دهیم.

در مدل‌سازی موضوعی سه هدف زیر را دنبال می‌کنیم:

  • پیدا کردن موضوعات نامعلوم که در مجموعه اسناد وجود دارند. (شایع هستند)

  • تفسیر کردن اسناد بر اساس موضوعات آن‌ها.

  • استفاده کردن از این تفاسیر برای سازمان‌دهی کردن، خلاصه کردن و جستجو کردن متن‌ها.

۲. ۲. کارهای مرتبط

یکی از کارهای انجام شده در مورد مدل سازی موضوعی ۱۰۰۰۰۰ مقاله سایت ویکی پدیا است. این کار از TMVE برای نمایش آن به صورت گرافیکی استفاده میکند. این کار یک مرورگر است که ویژگی های زیر را دارد:

  • می تواند موضوعات را به ترتیب تکرار بیشتر زیر هم مرتب کند.

  • روی هر موضوعی کلیک می شود کلمات پر تکرار آن موضوع ، موضوعات مرتبط با آن موضوع و همچنین اسناد مربوطه را نشان می دهد و به همین ترتیب اگر روی اسناد کلیک شد متن سند را نشان می دهد.

  • در هر موضوع مشخص است که چه کلماتی با چه درصد هایی وجود دارند.

  • یک صفحه از مرورگر شامل تمام موضوعات با ۵ کلمه پر تکرار آن ها باشد.

  • صفحه ای دیگر شامل همه ی کلمات به ترتیب تکرار آنها است که مشخص شود که به طور کلی هر کلمه ای چند بار تکرار شده است.

مدل‌سازی موضوعی ویکیپدیا

۲.۱. ۲.‌ ۱. مدل LSA 1

روش آنالیز معنایی پنهان یا LSA از جمله روش‌های شناخته‌شده در کاهش بعد به شمار می‌رود. ایده‌ی اصلی پشتوانه‌ی LSA، درست کردن یک ماتریس از وقوع همزمان کلمه/متن و سپس بیان این ماتریس بسیار بزرگ در یک زیرفضای کاهش بعد یافته با استفاده از «تجزیه‌ی مقادیر تکین» یا SVD 2 می‌باشد. با تصویر کردن کلمات و متون در زیرفضای کاهش بعد یافته، می‌توان آن‌ها را به صورت برداری بیان نمود.
این مدل تکنیک دیگری در پردازش زبان‌های طبیعی برای بررسی ارتباط بین یک مجموعه از اسناد و لغاتی که در آن اسناد وجود دارند می‌باشد. این روش مفاهیم پنهان در اسناد را کشف می‌کند. مطابق این الگوریتم برای هر سند مجموعه‌ای از مفاهیم مرتبط با آن مشخص می‌شود. الگوریتم LSA فرض می‌کند کلماتی که معانی نزدیک به هم دارند در یک قطعه از متن قرار می‌گیرند. این الگوریتم گاهی در بازیابی اطلاعات با نام LSI 3 شناخته می‌شود.
قدم اول در این الگوریتم این است که متن را به صورت یک ماتریس نمایش دهیم. در این ماتریس هر سطر نشان‌دهنده‌ی یک کلمه و هر ستون نشان‌دهنده‌ی یک متن می‌باشد. به هر درایه توسط الگوریتم دیگری یک وزن داده می‌شود. یک روش وزن دهی tf-idf است. سپس با الگوریتم SVD سعی در کاهش تعداد سطرهای ماتریس می‌کنیم (کاهش ابعاد). این کار به سه دلیل زیر انجام می‌گیرد:
+ماتریس اولیه بسیار بزرگ است.
+در ماتریس اولیه اصطلاحاً نویز وجود دارد. به عنوان مثال کلماتی که به ندرت مورد استفاده قرار می‌گیرند باید حذف گردند.
+ماتریس اولیه یک ماتریس خلوت است؛ بنابراین کلماتی که به هم نزدیک هستند را در یک سطر قرار می‌دهیم.
کلمات سپس با کسینوس گرفتن از زاویه‌ی بین هر دو بردار که سطرهای ماتریس می‌باشند با هم مقایسه می‌شوند. مقادیر نزدیک به یک بیان‌گر کلماتی هستند که تشابه بیشتری دارند و مقادیر نزدیک به صفر بیان‌گر کلماتی هستند که تشابه کمتری دارند.

۲.۲. ۲. ۲. مدل‌های احتمالی

مدل‌های موضوعی زیرمجموعه‌ای از حوزه‌ی مدل‌های احتمالی هستند. همان‌طور که گفتیم مجموعه‌ی اسناد ما شامل کلمات قابل مشاهده است و موضوعاتی که به دنبال آن می‌گردیم ساختارهای پنهان هستند. به‌طورکلی مدل‌های احتمالی متغیرهای آشکار و متغیرهای پنهان را با هم تلفیق کرده و نتیجه را مشخص می‌کنند.

۲.۲.۱. ۲. ۲. ۱.مدل PLSA4

هافمن تکنیک آماری جدیدی به نام «آنالیز معنایی پنهان احتمالاتی» یا PLSA را ارائه داد و برای نخستین بار از آن در بازیابی اطلاعات استفاده نمود. در سال‌های اخیر این روش در زمینه‌هایی چون فیلتر کردن اطلاعات، کندوکاو در در وب و طبقه‌بندی متون به طور موفقی به کار رفته است. در مقایسه با روش استاندارد تحلیل معنایی زبان یعنی LSA که از جبر خطی ریشه می‌گیرد و منجر به تجزیه‌ی مقادیر تکین از جداول هم‌آیی می‌شود، این روش بر اساس ترکیب احتمالاتی فاکتورهایی است که از یک مدل کلاس پنهان نشأت می‌گیرد و باعث ایجاد شیوه‌های اصولی‌تر در تحلیل زبان و متون گردیده که دارای زیربنای آماری محکمی می‌باشد. روش PLSA نه تنها بیان مناسبی از متون در اختیار ما قرار می‌دهد، بلکه یک روش رده‌بندی بدون‌ناظر نیز به شمار می‌رود. با توجه به تئوری آماری مناسبی که این روش دارد امکان انتخاب و کنترل مدل را فراهم می‌سازد.
مدل PLSA یک تکنیک آماری نوین برای بررسی مدهای دوگانه و داده‌های هم‌رخداد ازلحاظ احتمالاتی می‌باشد که دارای کاربردهای وسیعی در زمینه‌ی بازیابی اطلاعات، یادگیری ماشینی، فیلترینگ، پردازش زبان طبیعی و رشته‌های مربوطه می‌باشد. PLSA یک راه‌حل کاربردی بر مبنای مدل حداکثر احتمال وقوع یا ML ارائه می‌کند و سعی می‌کند که آنتروپی متقابل بین توزیع احتمالاتی تجربی و مدل را به حداقل برساند.
نقطه‌ی شروع مدل PLSA مدل آماری به نام Aspect Model می‌باشد که متغیرهای کلاس پنهان (غیرقابل مشاهده) z \in Z=\{ { z }_{ 1 },{ z }_{ 2 },...,{ z }_{ r }\} را با متغیرهای قابل‌مشاهده که در اینجا متون d \in D=\{ { d }_{ 1 },{ d }_{ 2 },...,{ d }_{ n }\} و کلمات w \in W=\{ { w }_{ 1 },{ w }_{ 2 },...,{ w }_{ m }\} هستند، مرتبط می‌سازد. این مدل یک فرض احتمالاتی شرطی مستقل را معرفی می‌کند. بدین ترتیب که w و d به‌صورت شرطی مستقل از هم می‌باشند. ازآنجایی‌که تعداد متغیرهای پنهان z در مجموعه کلمه/متن کوچک‌تر از تعداد متون و کلمات است، از z به‌عنوان متغیر فرعی در پیش‌بینی کلمات استفاده می‌شود. مدل احتمالاتی مشترک روی کلمات و متون با رابطه‌ی احتمالاتی زیر تعریف می‌شود:

P({ w }_{ i },{ d }_{ j })=P({ d }_{ j })\sum _{ { z }_{ k }\in Z }{P({w}_{i}|{z}_{k})P({z}_{k}|{d}_{j})}

۲.۲.۲. ۲. ۲. ۲. مدل LDA5

این روش ساده‌ترین روش است. ابتدا ایده‌های اساسی که این روش مبتنی بر آن‌هاست را توضیح می‌دهیم. این روش فرض می‌کند که اسناد موضوعات متعددی را نمایش می‌دهند؛ یعنی از کلماتی تشکیل شده است که هر یک متعلق به یک موضوع است و نسبت موضوعات داخل یک متن با هم متفاوت است. با توجه به این نسبت‌ها می‌توانیم آن متن را در یک موضوع خاص دسته‌بندی کنیم.
مجموعه‌ی ثابتی از کلمات را به عنوان واژه‌نامه در نظر می‌گیریم. روش LDA فرض می‌کند که هر موضوع توزیعی روی این مجموعه کلمات است؛ یعنی کلماتی که مربوط به یک موضوع هستند در آن موضوع دارای احتمال بالایی هستند. فرض می‌کنیم این موضوعات از قبل مشخص هستند. حال برای هر سند از مجموعه اسنادی که در اختیار داریم کلمات را در دو مرحله‌ی زیر تولید می‌کنیم:

  • به طور تصادفی توزیع احتمالی را روی موضوعات انتخاب می‌کنیم.

  • برای هر کلمه از سند:

    • به طور تصادفی موضوعی را با استفاده از توزیع احتمال مرحله‌ی قبل مشخص می‌کنیم.

    • به طور تصادفی کلمه‌ای را از واژه‌نامه با توزیع احتمال مشخص‌شده انتخاب می‌کنیم.

در این مدل احتمالی، اینکه هر سند از چندین موضوع تشکیل شده است را منعکس می‌کند. مرحله‌ی اول این قسمت را منعکس می‌کند که موضوعات مختلف در یک متن با نسبت‌های متفاوتی سهیم هستند. قسمت دوم مرحله‌ی دوم هم بیانگر این است که هر کلمه در هر سند از یکی از موضوعات استخراج شده است و قسمت اول مرحله‌ی دوم هم بر این نکته تأکید دارد که این موضوع از توزیع احتمال موضوعات روی اسناد انتخاب شده است. ذکر این نکته لازم است که در این روش همه‌ی اسناد مجموعه‌ی یکسانی از موضوعات را در اختیار دارند ولی هر سند این موضوعات را با نسبت‌های متفاوتی ارائه می‌کند.
حال می‌خواهیم تعریف رسمی‌تری از LDA ارائه دهیم. موضوعات ما {β}_{1:k} هستند که هر {β}_{i} یک توزیع احتمال روی مجموعه‌ی کلمات است. نسبت موضوعات برای اسناد با پارامتر θ مشخص می‌شود. بدین معنی که {θ}_{d,k} بیان‌گر نسبت موضوع k در سند d است. پارامتر z بیان‌گر تخصیص موضوع است. {z}_{d,n} موضوع تخصیص داده شده به کلمه‌ی n-اُم از سند d است. w کلمات مشاهده‌شده است که {w}_{d,n} کلمه‌ی n-اُم از سند d است.
با توجه به تعاریف بالا الگوریتم LDA را می‌توان با فرمول زیر که شامل متغیرهای آشکار و پنهان فوق می‌باشد بیان کرد:

P({ \beta }_{ 1:K },{ \theta }_{ 1:D },{ z }_{ 1:D },{ w }_{ 1:D })=\prod { P({ \beta }_{ i }) } \prod { P({ \theta }_{ d }) } (\prod { P({ z }_{ d,n }|{\theta}_{d})P({w}_{d,n}|{\beta}_{1:K},{z}_{d,n}) } )

از فرمول بالا می‌توان به مجموعه‌ای از وابستگی‌ها پی برد. مثلاً موضوع تخصیص داده شده به هر کلمه در یک سند ({z}_{d,n}) بستگی به نسبت موضوعات برای آن سند ({θ}_{d}) دارد و یا کلمه‌ی مشاهده‌شده در هر سند ({w}_{d,n}) بستگی به موضوع اختصاص داده شده به آن کلمه ({z}_{d,n}) و همه‌ی موضوعات ({β}_{1:k}) دارد؛ یعنی {z}_{d,n} موضوع مربوط به آن کلمه را مشخص می‌کند و بعد احتمال حضور آن کلمه در آن موضوع یعنی {w}_{d,n} مشخص می‌شود.
نمایش LDA به صورت گرافیکی

اکنون می‌خواهیم احتمال موضوعات مشخص‌شده را حساب کنیم؛ یعنی همان‌طور که قبلاً ذکر شد با وجود متغیرهای آشکار با چه احتمالی متغیرهای پنهان حضور دارند. این کار با فرمول زیر محاسبه می‌شود:
P({ \beta }_{ 1:K },{ \theta }_{ 1:D },{ z }_{ 1:D }|{ w }_{ 1:D })=\frac { P({ \beta }_{ 1:K },{ \theta }_{ 1:D },{ z }_{ 1:D },{ w }_{ 1:D }) }{ P({ w }_{ 1:D }) }

صورت کسر با توجه به فرمول قبل محاسبه می‌شود. مخرج کسر هم به‌راحتی از کلمات مشاهده‌شده به دست می‌آید.
تعداد ساختارهای موضوعی پنهان بسیار زیاد است و محاسبه‌ی آن به‌راحتی امکان‌پذیر نیست. این موضوع به علت صورت کسر بالا است. به همین علت برای محاسبه‌ی این عبارت آن را تخمین می‌زنند. الگوریتم‌های مدل‌سازی موضوعی عبارت بالا را این‌گونه تخمین می‌زنند که به جای توزیع بالا از یک توزیع احتمال دیگر که نزدیک به مقدار واقعی باشد استفاده می‌کنند. این الگوریتم‌ها معمولاً به دو دسته تقسیم می‌شوند: دسته‌ی اول الگوریتم‌هایی هستند که بر اساس نمونه‌برداری عمل می‌کنند و دسته‌ی دوم الگوریتم‌های مبتنی بر تغییرات هستند. در الگوریتم‌های دسته‌ی اول با استفاده از نمونه‌برداری از یک توزیع تجربی استفاده می‌شود درحالی‌که در الگوریتم‌های دسته‌ی دوم به‌جای نمونه‌برداری از جایگزین‌های قطعی استفاده می‌شود. در این دسته از الگوریتم‌ها مسئله به یک مسئله‌ی بهینه‌سازی تبدیل می‌شود.

۳. ۳. آزمایش‌ها

۳.۱. ۳. ۱. مجموعه داده

مجموعه آزمایش همشهری یکی از معتبرترین منابع در زبان فارسی است. نسخه ۱ همشهری شامل بیش از ۱۶۰۰۰۰ سند، ۶۵ درخواست و قضاوت‌های مرتبط است که از سال ۱۳۷۵ تا ۱۳۸۱ توسط افراد مختلف با موضوعات مختلف نوشته شده است. نسخه ۲ همشهری نسبت به نسخه قبل بزرگ‌تر و جامع‌تر است که تصاویر مقالات را نیز در بر دارد. مولفان روزنامه همشهری بصورت دستی مقالات خود را به دسته‌های مختلفی تقسیم کردند و آن را در سایت پیکره همشهری قرار دادند. تمام اسناد در این مجموعه به ۸۲ موضوع مختلف بر اساس دسته اخبار موجود در سایت روزنامه دسته‌بندی شده‌اند. بعنوان مثال siasi به معنی سیاسی است در فارسی و political در انگلیسی است. نام‌های انگلیسی و فارسی دسته‌های اصلی (۱۶ دسته مهم از بین ۸۲ دسته موجود که بیشترین اسناد را دارند) پیکره در ‏جدول زیر آمده است.

تگ دسته نام دسته به فارسی نام دسته به انگلیسی
Adabh هنری - ادبی Art-Literature
Akhar اخبار کوتاه Short news
Bankb بورس و بانک Stock market & Banking
Econw اقتصاد جهانی World’s Economy
Ejtem اجتماعی Society
Elmif علمی و فرهنگی Science & Culture
Eqtes اقتصادی Economy
Gards گردشگری Tourism
Gungn گوناگون Miscellaneous
Havad حوادث Social event
Ikaba فناوری اطلاعات Information Technology
Kharj اخبار خارجی Foreign news
Shahr شهر تهران Tehran & Municipal affairs
Shrst شهرستان‌ها Iran cities(except Tehran)
Siasi ‌ سیاسی Politic
Vrzsh ورزشی Sport

از ۸۲ دسته موجود تنها ۱۲ دسته بیش از ۱۰۰۰ سند دارند که ۷۲ درصد مجموعه را شکل می‌دهند.

۳.۲. ۳. ۲. کتابخانه‌های مورد استفاده

برای انجام عمل مدل‌سازی از کتابخانه‌ی gensim در زبان پایتون استفاده خواهد شد.

توضیحات بیشتر در مورد پیاده‌سازی در مرحله بعد داده خواهد شد.

۴. کارهای آینده

۵. مراجع

[1] Blei, David M. "Probabilistic topic models." Communications of the ACM 55.4 (2012): 77-84.
[2] Mark Steyvers, Tom Griffiths. "Probabilistic topic models.".
[3] Blei, D.M., Ng, A. Y., & Jordan, M. I. (2003). LatentDirichlet Allocation. JournalofMachine Learning Research,3,993-1022.
[4] Cohn, D. & Hofmann,T. (2001). The missinglink: A probabilistic model of documentcontentand hypertext connectivity. Neural InformationProcessingSystems 13, 430-436.
[5] Hofmann,T. (1999). Probabilistic LatentSemantic Analysis. In Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence.
[6] Hofmann,T. (2001). Unsupervised Learning byProbabilistic LatentSemantic Analysis. Machine LearningJournal,42(1), 177-196.
[7] Landauer, T. K., & Dumais, S. T. (1997). A solutionto Plato’s problem: the LatentSemantic Analysis theory of acquisition,induction,and representation of knowledge. PsychologicalReview, 104, 211-240.
[8] Steyvers, M., Smyth,P., Rosen-Zvi, M., & Griffiths, T. (2004). Probabilistic Author-Topic Models for Information Discovery. The TenthACM SIGKDDInternationalConference onKnowledgeDiscovery and DataMining. Seattle, Washington.
[9] Asuncion, A., Welling, M., Smyth, P., Teh, Y. on smoothing and inference for topic models. in Uncertainty in Artificial Intelligence(2009).
[10] Blei, D., Griffiths, T., Jordan, M. the nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies. J. ACM 57,2 (2010), 1–30.
[11] Blei, D., Jordan, M. modeling annotated data. in Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(2003 ), acmPress, 127–134.
[12] Yuening Hu, Jordan Boyd-Graber, Brianna Satinoff, Alison Smith,. Interactive topic modeling (2013 ), Kluwer Academic Publishers.
[13] Chyi-Kwei Yau, Alan Porter, Nils Newman, and Arho Suominen. 2014. Clustering scientific documents with topic modeling. Scientometrics 100, 3 (September 2014), 767-786.

۶. پیوندهای مفید


  1. Latent Semantic Analysis

  2. Single Value Decomposition

  3. Latent Semantic Indexing

  4. Probabilistic Latent Semantic Analysis

  5. Latent Dirichlet Allocation

محسن ایمانی

شما در پژوهش‌نامه خود توانسته‌اید هدفی که در این فاز تعریف شده، یعنی تشریح کارهای مرتبط و روش‌های حل مسئله را به خوبی محقق سازید.
همچنین معرفی مجموعه داده‌ای که از آن برای آزمایش‌ها استفاده خواهید نمود نقطه مثبت کار شماست.
اما کار شما چند نقطه ضعف نیز دارد که به بیان آن می‌پردازیم:

  • انتظار می‌رود در هر مرحله ارزیابی‌های مرحله قبلی را مورد توجه قرار داده و اصلاحات احتمالی را اعمال نمایید. شما همچنان ایرادهای بیان شده در فاز قبل، به ویژه عدم ارجاع به مقالات در داخل متن، را در کار خود به همراه دارید. شما مشخص نکرده‌اید که هر روش‌ها از کدام مرجع برداشت کرده‌اید و خواننده با خواندن متن پژوهش شما نمی‌تواند در صورت نیاز به مطالعه بیشتر در مورد هر یک از روش‌های مرتبط، مستقیما به مقاله مربوط به آن رجوع نماید.

  • به نظر می‌رسد مدل LSA را می‌توانستید شرح و بسط بیشتری نیز بدهید تا روش کار آن و تفاوتش با سایر روش‌ها برای خواننده روشن‌تر باشد.

  • متنی که در شرح روش PLSA نوشته‌اید کمی ثقیل بوده و خواننده به راحتی نمی‌تواند آن را درک کند. به نظر می‌توانستید شرح روش را با متنی ساده و روان‌تر که برای خواننده بدون پیش‌زمینه هم بیشتر قابل درک باشد بیان نمایید.

  • خواننده برای درک بهتر نقاط ضف و قوت روش‌ها و کارهای مرتبط نیاز به مقایسه میان روش‌ها و یا حداقل بیان ویژگی‌ها و چالش‌های هر کدام است که جای این مورد در کارهای مرتبط شما خالیست و خواننده با مطالعه آن به این نتیجه نخواهد رسید که استفاده از کدام روش برایش مناسب خواهد بود.

  • به عنوان کارهای آینده بهتر بود اشاره‌ای هم به این که از چه روشی در آزمایشات استفاده خواهید نمود و قصد پیاده‌سازی کدام روش یا روش‌ها را دارید نیز صحبتی می‌کردید.