РАЗРАБОТКА ЛЕКСИКО-СЕМАНТИЧЕСКОЙ РАЗМЕТКИ ГЛАГОЛОВ В НАЦИОНАЛЬНОМ КОРПУСЕ КАЗАХСКОГО ЯЗЫКА: МИРОВОЙ ОПЫТ, КЛАССИФИКАЦИЯ, РАЗМЕТКА В КОРПУСЕ
DOI:
https://doi.org/10.48371/PHILS.2022.66.3.010Ключевые слова:
корпусная лингвистика, разметка, лексико-семантическая классификация, глагол, семантика, смысл, категория, лингвистическая аннотацияАннотация
В статье рассматривается проблема разработки лексико-семантической разметки, одной из основных разметок в мировой практике построения корпуса. В частности, будет проведен обзор трудов отечественных и зарубежных ученых, касающихся компьютерной лингвистики и лексико-семантической классификации, показаны этапы создания лексико-семантической разметки глаголов в Национальном корпусе Казахского языка, разъяснена практическая основа.
Ускоренные темпы развития информационных технологий требуют овладения электронными ресурсами и лингвистов. Областью лингвистики, изучающей и реализующей языковое программирование, является корпусная лингвистика. Создание Национального корпуса казахского языка основывается на создании разметок, которые автоматически анализируются по каждому уровню языка. Одним из сложных разметок в лингвистической аннотирование слов является лексико-семантическая разметка. По сравнению с корпусом русского, калмыцкого и др. языков лексико-семантическая разметка в Национальном корпусе казахского языка углубляется в значение слова, т. е. в сему. Поэтому количество малых (индивидуальных) лексико-семантических групп глагола составило 72 группы. Это позволяет пользователю более точно найти нужную ему информацию. Интрефейс применения системы разметки должен быть легок и понятен любому пользователю, как специалисту, так и специалистам других областей, которые только учатся пользоваться. Соответственно, лексико-семантические группы даются короткими и конкретными названиями.
В базу корпуса включены 18 200 глаголов, изучаются их смысловые оттенки. В ходе исследования было предложено дать характеристику глаголов по пяти различным признакам в лексико-семантической разметке. Первый: по словообразовательному характеру простой, сложный; основной, производный; второй: на основе лексико-грамматических категорий переходность, непереходность; положительная и отрицательная форма; коннотативный по характеру классифицируется как положительный, отрицательный, нейтральный. Для более глубокого раскрытия значения глаголов в зависимости от общих и отличительных сем внутренне делятся на большие (лексико-семантические) и малые (семантические) группы.
Статья написана в рамках исследовательского проекта BR 11765619 «Разработка Национального корпуса казахского языка как информационно-инновационной базы государственного языка: научно-исследовательский и обучающий интернет-ресурс».