ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНДАҒЫ ЕТІСТІКТЕРДІҢ ЛЕКСИКА-СЕМАНТИКАЛЫҚ БЕЛГІЛЕНІМ ӘЗІРЛЕМЕСІ: ӘЛЕМДІК ТӘЖІРИБЕ, КЛАССИФИКАЦИЯЛАУ, КОРПУСТА БЕЛГІЛЕУ

Б.К. Момынова; М.А. Имангазина; У.Г. Анесова

doi:10.48371/PHILS.2022.66.3.010

Авторы

Б.К. Момынова Института языкознания им. А. Байтурсынова
М.А. Имангазина
У.Г. Анесова

DOI:

https://doi.org/10.48371/PHILS.2022.66.3.010

Ключевые слова:

корпусная лингвистика, разметка, лексико-семантическая классификация, глагол, семантика, смысл, категория, лингвистическая аннотация

Аннотация

В статье рассматривается проблема разработки лексико-семантической разметки, одной из основных разметок в мировой практике построения корпуса. В частности, будет проведен обзор трудов отечественных и зарубежных ученых, касающихся компьютерной лингвистики и лексико-семантической классификации, показаны этапы создания лексико-семантической разметки глаголов в Национальном корпусе Казахского языка, разъяснена практическая основа.

Ускоренные темпы развития информационных технологий требуют овладения электронными ресурсами и лингвистов. Областью лингвистики, изучающей и реализующей языковое программирование, является корпусная лингвистика. Создание Национального корпуса казахского языка основывается на создании разметок, которые автоматически анализируются по каждому уровню языка. Одним из сложных разметок в лингвистической аннотирование слов является лексико-семантическая разметка. По сравнению с корпусом русского, калмыцкого и др. языков лексико-семантическая разметка в Национальном корпусе казахского языка углубляется в значение слова, т. е. в сему. Поэтому количество малых (индивидуальных) лексико-семантических групп глагола составило 72 группы. Это позволяет пользователю более точно найти нужную ему информацию. Интрефейс применения системы разметки должен быть легок и понятен любому пользователю, как специалисту, так и специалистам других областей, которые только учатся пользоваться. Соответственно, лексико-семантические группы даются короткими и конкретными названиями.

В базу корпуса включены 18 200 глаголов, изучаются их смысловые оттенки. В ходе исследования было предложено дать характеристику глаголов по пяти различным признакам в лексико-семантической разметке. Первый: по словообразовательному характеру простой, сложный; основной, производный; второй: на основе лексико-грамматических категорий переходность, непереходность; положительная и отрицательная форма; коннотативный по характеру классифицируется как положительный, отрицательный, нейтральный. Для более глубокого раскрытия значения глаголов в зависимости от общих и отличительных сем внутренне делятся на большие (лексико-семантические) и малые (семантические) группы.

Статья написана в рамках исследовательского проекта BR 11765619 «Разработка Национального корпуса казахского языка как информационно-инновационной базы государственного языка: научно-исследовательский и обучающий интернет-ресурс».

РАЗРАБОТКА ЛЕКСИКО-СЕМАНТИЧЕСКОЙ РАЗМЕТКИ ГЛАГОЛОВ В НАЦИОНАЛЬНОМ КОРПУСЕ КАЗАХСКОГО ЯЗЫКА: МИРОВОЙ ОПЫТ, КЛАССИФИКАЦИЯ, РАЗМЕТКА В КОРПУСЕ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Выпуск

Раздел

Язык

Информация