Как язык Python помогает лексикографам

Авторы

  • Мария Игоревна Ладушина Национальный исследовательский технологический университет

DOI:

https://doi.org/10.33910/2687-0215-2022-4-2-107-121

Ключевые слова:

компьютерная лингвистика, лексикография, компьютерная лексикография, автоматизированная лексикография, компьютерная терминография, автоматическое извлечение терминологии, обработка текстов на естественном языке, прикладная лингвистика, Python

Аннотация

Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др.

Python — один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание.

В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.

Библиографические ссылки

Источники

Булгаков, М. А. (1980) Мастер и Маргарита. М.: Художественная литература, 368 с.

Машинное зрение повысит качество лабораторных исследований. (2022) МИСИС. Университет науки и технологий, 9 июня. [Электронный ресурс]. URL.: https://misis.ru/university/news/science/2023-06/8562/ (дата обращения 12.02.2022).

Pymorphy2: Документация. (2022) [Электронный ресурс]. URL: https://pymorphy2.readthedocs.io/en/stable/user/ (дата обращения 12.02.2022).

Литература

Любанович, Б. (2021) Простой Python. Современный стиль программирования. 2-е изд. СПб.: Питер, 592 с.

Митренина, О. В. (2019) Python для тех, кто никогда не программировал. Journal of Applied Linguistics and Lexicography, т. 1, № 1, с. 127–135. https://doi.org/10.33910/2687-0215-2019-1-1

Sources

Bulgakov, M. A. (1980) Master i Margarita [The Master and Margarita]. Moscow: Khudozhestvennaya literatura Publ., 386 p. (In Russian)

Mashinnoe zrenie povysit kachestvo laboratornykh issledovanij. (2022) MISIS. Universitet nauki i tekhnologij [MISIS. National University of Science and Technology], 9 June. [Online]. Available at: https://misis.ru/university/news/science/2023-06/8562/ (accessed 12.02.2022). (In Russian)

Pymorphy2: Dokumentatsiya [Pymorphy2: Documentation]. (2022) [Online]. Available at: https://pymorphy2.readthedocs.io/en/stable/user/ (accessed 12.02.2022). (In Russian)

References

Lubanovic, B. (2021) Prostoj Python. Sovremennyj stil’ programmirovaniya [Introducing Python: Modern Computing in Simple Packages]. 2nd ed. Saint Petersburg: Piter Publ., 592 p. (In Russian)

Mitrenina, O. V. (2019) Python dlya tekh, kto nikogda ne programmiroval [Python for non-programmers]. Journal of Applied Linguistics and Lexicography, vol. 1, no. 1, pp. 127–135. https://doi.org/10.33910/2687-0215-2019-1-1 (In Russian)

Загрузки

Опубликован

30.12.2022

Выпуск

Раздел

Просто о сложном