МЕТОДЫ АВТОМАТИЗАЦИИ ТЕКСТОВ В НАЦИОНАЛЬНОМ КОРПУСЕ КАЗАХСКОГО ЯЗЫКА
DOI:
https://doi.org/10.48371/PHILS.2023.70.3.001Ключевые слова:
национальный корпус, семантизация, автоматизация, языковая база, перевод, лексический слой, учебный корпус, цифровизация языкаАннотация
В эпоху глобализации языка, когда лексикографическая база становится полностью доступной в цифровой системе, появляется возможность оптимизировать овладение языком. Национальный корпус казахского языка – оцифрованный вариант казахского слова. Так как корпус казахского языка является системой лингвистических знаний, состоящей из нескольких подкорпусов, спрос на учебный корпус растет день ото дня. Это связано с тем, что Казахстан является многонациональным государством. Представители других национальностей, потребляющие казахскую культуру, хотят определить перевод-эквивалент. Учебный корпус также является эффективной лингвистической базой для изучающих язык.
Цель статьи – семантизация лексикографической базы, входящей в учебный корпус, особенно единиц лексического слоя казахского языка, и адаптация к автоматизации в соответствии с цифровой системой. В статье описано отличие учебного корпуса от других подкорпусов, представлены классификация семантизации и способы интерпретации (автоматизации) семантических групп. В этом научная значимость статьи.
При изучении внедрения в учебный корпус лексической базы применялись методы контент-анализа, обобщения, описания. Научные выводы, представленные в статье, имеют практическое значение, способствуя разработке учебного корпуса, разработке электронных приложений для овладения языком.
Статья исследована в рамках проекта ВR 18574183 «Автоматическое распознавание казахского текста: разработка лингвистических модулей и IT-решений».