ایجاد واژهنامه از روی پیکره دوزبانه یکی از گامهای اصلی برای رسیدن به یک سامانه مترجم ماشینی است. ترجمه ماشینی یعنی تبدیل خودکار متن زبان مبدا به متن معادل آن در زبان مقصد. عمده روشهای ترجمه ماشینی بر مبنای مدلهای آماری و یادگیری ماشین بنا شده است که از یک پیکره دوزبانه، مجموعهی عظیمی از متن که به هر دو زبان مبدا و مقصد وجود داشته و در سطح جمله همتراز شدهاند، برای یادگیری معادلها به صورت آماری استفاده میکنند.
پیکره دوزبانه غالبا در سطح جمله همتراز میشود. حال مسئله اصلی این خواهد بود که چطور میشود این جملهها را در سطح کلمه همتراز نموده و واژهنامهای به صورت خودکار از کلمات معادل، از روی پیکره دو زبانه استخراج نمود.
مقدمه
کارهای مرتبط
آزمایشها
کارهای آینده
مراجع
[1] Tiedemann, Jorg. "Bitext alignment." Synthesis Lectures on Human Language Technologies 4.2 (2011): 1-165.
[2] Och, F.J. and Tillmann, C. and Ney, H. and others 1999, Improved alignment models for statistical machine translation, Proc. of the Joint SIGDAT Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora