СЕМАНТИЧЕСКАЯ РАЗМЕТКА КАК ОДИН ИЗ КОМПОНЕНТОВ НАЦИОНАЛЬНОГО ЯЗЫКОВОГО КОРПУСА
DOI:
https://doi.org/10.48371/PHILS.2022.64.1.001Ключевые слова:
семантические теги, семантическая классификация, разметка, лексика, подгруппа, подкорпус, национальный корпусАннотация
Аннотация. В статье описаны принципы семантической разметки в Национальном корпусе казахского языка. Цель статьи - рассмотреть и разработать систему семантических тегов, готовую к использованию в языковом корпусе. Этот подход основан на семантической классификации лексики и является универсальным и применимым к любому языку. Практическое значение разметки словарей и корпусов текстов заключается в повышении качества поиска и расширении возможностей пользователей. Научная значимость статьи определяется тем, что разметка и семантическая классификация должны быть ориентированы на любую парадигму программирования. Мы выбрали функциональную парадигму. Основными результатами статьи являются, во-первых, семантическая маркировка национальных корпусов, значительно повышающая качество поиска и расширяющая возможности пользователя при запросе лингвистической информации; во-вторых, семантическая информация о каждой лексеме, в которой сделана запись, представлена в виде набора семантических разметки или тегов и обычно отражается в семантической классификации словаря языка. Делаются выводы о дальнейших возможностях использования корпусных данных для современных исследований лексико-грамматической семантики. Публикация выполнена в рамках научного проекта на №БР на тему «РАЗВИТИЕ НАЦИОНАЛЬНОГО КОРПУСА КАЗАХСКОГО ЯЗЫКА КАК ИНФОРМАЦИОННО-ИННОВАЦИОННОЙ БАЗЫ ГОСЯЗЫКА: НАУЧНО-УЧЕБНЫЙ ИНТЕРНЕТ-РЕСУРС», поддержанного Министерством образования и Наука Республики Казахстан.