РАЗРАБОТКА ЛЕКСИКО-СЕМАНТИЧЕСКОЙ РАЗМЕТКИ ГЛАГОЛОВ В НАЦИОНАЛЬНОМ КОРПУСЕ КАЗАХСКОГО ЯЗЫКА: МИРОВОЙ ОПЫТ, КЛАССИФИКАЦИЯ, РАЗМЕТКА В КОРПУСЕ

Авторы

  • Момынова Б.К. Института языкознания им. А. Байтурсынова
  • Имангазина М.А.
  • Анесова У.Г.

DOI:

https://doi.org/10.48371/PHILS.2022.66.3.010

Ключевые слова:

корпусная лингвистика, разметка, лексико-семантическая классификация, глагол, семантика, смысл, категория, лингвистическая аннотация

Аннотация

В статье рассматривается проблема разработки лексико-семантической разметки, одной из основных разметок в мировой практике построения корпуса. В частности, будет проведен обзор трудов отечественных и зарубежных ученых, касающихся компьютерной лингвистики и лексико-семантической классификации, показаны этапы создания лексико-семантической разметки глаголов в Национальном корпусе Казахского языка, разъяснена практическая основа.

 Ускоренные темпы развития информационных технологий требуют овладения электронными ресурсами и лингвистов. Областью лингвистики, изучающей и реализующей языковое программирование, является корпусная лингвистика. Создание Национального корпуса казахского языка основывается на создании разметок, которые автоматически анализируются по каждому уровню языка. Одним из сложных разметок в лингвистической аннотирование слов является лексико-семантическая разметка. По сравнению с корпусом русского, калмыцкого и др. языков лексико-семантическая разметка в Национальном корпусе казахского языка углубляется в значение слова, т. е. в сему. Поэтому количество малых (индивидуальных) лексико-семантических групп глагола составило 72 группы. Это позволяет пользователю более точно найти нужную ему информацию. Интрефейс применения системы разметки должен быть легок и понятен любому пользователю, как специалисту, так и специалистам других областей,  которые  только учатся пользоваться. Соответственно, лексико-семантические группы даются короткими и конкретными названиями.

В базу корпуса включены 18 200 глаголов, изучаются их смысловые оттенки. В ходе исследования было предложено дать характеристику глаголов по пяти различным признакам в лексико-семантической разметке. Первый: по словообразовательному характеру простой, сложный; основной, производный; второй: на основе лексико-грамматических категорий переходность, непереходность; положительная и отрицательная форма; коннотативный по характеру классифицируется как положительный, отрицательный, нейтральный. Для более глубокого раскрытия значения глаголов в зависимости от общих и отличительных сем внутренне делятся на большие (лексико-семантические) и малые (семантические) группы.

Статья написана в рамках исследовательского проекта BR 11765619 «Разработка Национального корпуса казахского языка как информационно-инновационной базы государственного языка: научно-исследовательский и обучающий интернет-ресурс».

Загрузки

Опубликован

2022-09-30

Выпуск

Раздел

Статьи