МЕТОДЫ АВТОМАТИЗАЦИИ ТЕКСТОВ В НАЦИОНАЛЬНОМ КОРПУСЕ КАЗАХСКОГО ЯЗЫКА

Авторы

  • Амирбекова А.Б. Институт языкознания имени А.Байтурсынулы
  • Конырова А.Т. КазУМОИМЯ имени Абылай хана
  • Кайырбекова У.С. Университет дружбы народов имени академика А. Куатбекова

DOI:

https://doi.org/10.48371/PHILS.2023.70.3.001

Ключевые слова:

национальный корпус, семантизация, автоматизация, языковая база, перевод, лексический слой, учебный корпус, цифровизация языка

Аннотация

В эпоху глобализации языка, когда лексикографическая база становится полностью доступной в цифровой системе, появляется возможность оптимизировать овладение языком. Национальный корпус казахского языка – оцифрованный вариант казахского слова. Так как корпус казахского языка является системой лингвистических знаний, состоящей  из нескольких подкорпусов, спрос на учебный корпус растет день ото дня. Это связано с тем, что Казахстан является многонациональным государством. Представители других национальностей, потребляющие казахскую культуру, хотят определить перевод-эквивалент. Учебный корпус также является эффективной лингвистической  базой для изучающих язык. 

Цель статьи – семантизация лексикографической базы, входящей в учебный корпус, особенно единиц лексического слоя казахского языка, и адаптация к автоматизации в соответствии с цифровой системой. В статье описано   отличие учебного корпуса от других подкорпусов, представлены классификация семантизации и способы интерпретации (автоматизации) семантических групп. В этом научная значимость статьи.

 При изучении  внедрения в учебный корпус лексической базы применялись методы контент-анализа, обобщения, описания. Научные выводы, представленные в статье, имеют практическое значение, способствуя разработке учебного корпуса, разработке электронных приложений для овладения языком. 

Статья исследована в рамках проекта ВR 18574183 «Автоматическое распознавание казахского текста: разработка лингвистических модулей и IT-решений».

Загрузки

Опубликован

2023-09-29

Выпуск

Раздел

Статьи