Как и какой перевод (не) оценивают компьютеры
DOI:
https://doi.org/10.33910/2687-0215-2021-3-2-77-84Ключевые слова:
машинный перевод, метрики оценки машинного перевода, BLEU, n-граммные метрики, неконсистентные логики, непрямые значения, юмор, загадки, поэтические тропы, метафора, метонимияАннотация
В статье рассматриваются современные метрики оценки качества перевода, которые используются при создании и настройке компьютерных переводчиков, при соревнованиях по машинному переводу, а также при оценке работы некоторых других систем обработки естественного языка. Описываются критерии оценки качества перевода и основные методы экспертной оценки. Рассматриваются принципы работы автоматических метрик (BLEU, TER, METEOR, BERTScore, COMET и др.), их особенности, преимущества и недостатки. Авторы подчеркивают важность появления метрик BERTScore и COMET, а также объясняют популярность некоторых традиционных метрик (например, BLEU). Современные метрики оценки качества перевода дают искаженные результаты в тех случаях, когда текст содержит много выражений с непрямыми значениями: поэтические тропы, метафоры, метонимия, юмор, загадки. Общение с помощью непрямых значений предполагает человеческую способность мыслить противоречиями, они являются источником инсайта, с помощью которого Дональд Дэвидсон описывал действие метафоры, но эта область пока еще плохо поддается компьютерной обработке. Именно поэтому оценка профессиональных переводов художественных текстов с помощью метрик показывает такие низкие результаты. Дальнейшее развитие метрик должно использовать компьютерную обработку противоречий, возможно, с помощью неконсистентных логик: паракомплектной, параконсистентной и диалетической.
Библиографические ссылки
Литература
Арутюнова, И. А. (2018) Исследование автоматических метрик оценки перевода на материале профессиональных художественных переводов. Выпускная квалификационная работа. Уровень: магистратура. СПб., Санкт-Петербургский государственный университет, 88 с.
Комиссаров, В. Н. (2002) Современное переводоведение. М.: ЭТС, 424 с.
Лурье, В. М., Митренина, О. В. (2020) Непрямые значения в естественном языке и неконсистентные логики. Логико-философские штудии, т. 18, № 2, с. 71–111. https://doi.org/10.52119/LPHS.2020.66.28.005
Banerjee, S., Lavie, A. (2005) METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: J. Goldstein, A. Lavie, C.-Y. Lin, C. Voss (eds.). Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Ann Arbor: Association for Computational Linguistics Publ., pp. 65–72.
Davidson, D. (1984) What metaphors mean. In: Inquiries into truth and interpretation. Oxford: Clarendon Press, pp. 245–264.
Papineni, K., Roukos, S., Ward, T., Zhu, W.-J. (2002) BLEU: A method for automatic evaluation of machine translation. In: ACL-2002: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia: Association for Computational Linguistics Publ., pp. 311–318. https://doi.org/10.3115/1073083.1073135
Pierce, J., Carroll, J. B. (1966) Languages and machines: Computers in translation and linguistics. Washington: National Academy of Sciences Publ.; National Research Council Publ., 124 p.
Rei, R., Stewart, C., Farinha, A. C., Lavie, A. (2020) COMET: A neural framework for MT evaluation. In: Proceedings of the 2020 Conference on empirical methods in natural language processing (EMNLP). Philadelphia: Association for Computational Linguistics Publ., pp. 2685–2702. http://doi.org/10.18653/v1/2020.emnlp-main.213
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J. (2006) A study of translation edit rate with targeted human annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas. Cambridge: The Association for Machine Translation in the Americas Publ., pp. 223–231.
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., Artzi, Y. (2020) BERTScore: Evaluating text generation with BERT. In: ICLR 2019: International Conference on Learning Representations. 6–9 May, 2019. [Online]. Available at: https://doi.org/10.48550/arXiv.1904.09675 (accessed 23.05.2021).
References
Arutyunova, I. A. (2018) Issledovanie avtomaticheskikh metrik otsenki perevoda na materiale professional’nykh khudozhestvennykh perevodov. Master’s Thesis (Linguistics). Saint Petersburg, Saint Petersburg State University, 88 p. (In Russian)
Banerjee, S., Lavie, A. (2005) METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: J. Goldstein, A. Lavie, C.-Y. Lin, C. Voss (eds.). Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Ann Arbor: Association for Computational Linguistics Publ., pp. 65–72. (In English)
Davidson, D. (1984) What metaphors mean. In: Inquiries into truth and interpretation. Oxford: Clarendon Press, pp. 245–264. (In English)
Komissarov, V. N. (2002) Sovremennoe perevodovedenie. Moscow: EST Publ., 424 p. (In Russian)
Lourié, B. M., Mitrenina, O. V. (2020) Nepryamye znacheniya v estestvennom yazyke i nekonsistentnye logiki [Indirect meanings in natural language and inconsistent logic]. Logiko-filosofskie studii, vol. 18, no. 2, pp. 71–111. https://doi.org/10.52119/LPHS.2020.66.28.005 (In Russian)
Papineni, K., Roukos, S., Ward, T., Zhu, W.-J. (2002) BLEU: A method for automatic evaluation of machine translation. In: ACL-2002: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia: Association for Computational Linguistics Publ., pp. 311–318. https://doi.org/10.3115/1073083.1073135 (In English)
Pierce, J., Carroll, J. B. (1966) Languages and machines: Computers in translation and linguistics. Washington: National Academy of Sciences Publ.; National Research Council Publ., 124 p. (In English)
Rei, R., Stewart, C., Farinha, A. C., Lavie, A. (2020) COMET: A neural framework for MT evaluation. In: Proceedings of the 2020 Conference on empirical methods in natural language processing (EMNLP). Philadelphia: Association for Computational Linguistics Publ., pp. 2685–2702. http://doi.org/10.18653/v1/2020.emnlp-main.213 (In English)
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J. (2006) A study of translation edit rate with targeted human annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas. Cambridge: The Association for Machine Translation in the Americas Publ., pp. 223–231. (In English)
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., Artzi, Y. (2020) BERTScore: Evaluating text generation with BERT. In: ICLR 2019: International Conference on Learning Representations. 6–9 May, 2019. [Online]. Available at: https://doi.org/10.48550/arXiv.1904.09675 (accessed 23.05.2021). (In English)
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
Copyright (c) 2021 Митренина Ольга Владимировна, Мухамбеткалиева Айслу Гиляжевна

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Автор предоставляет материалы на условиях публичной оферты и лицензии CC BY-NC 4.0. Эта лицензия позволяет неограниченному кругу лиц копировать и распространять материал на любом носителе и в любом формате, но с обязательным указанием авторства и только в некоммерческих целях.
Авторы сохраняют авторские права на статью и могут использовать материалы опубликованной статьи при подготовке других публикаций, а также пользоваться печатными или электронными копиями статьи в научных, образовательных и иных целях. Право на номер журнала как составное произведение принадлежит издателю.