ИЗ МИРОВОГО ОПЫТА РАЗРАБОТОК ИСТОРИЧЕСКОГО ПОДКОРПУСА
DOI:
https://doi.org/10.48371/PHILS.2022.66.3.012Ключевые слова:
исторический подкорпус, факсимиле, транскрипция, арабская графика, письменные памятникиАннотация
В эпоху развития информационных технологий подготовка письменных форм в электронном формате стало требованием времени. Во многих странах мира разрабатываются свои собственные национальные корпусы. Такая масштабная исследовательская работа ведется и в казахском языкознании («корпусная лингвистика»). На сегодняшний день Национальный корпус казахского языка собрал внушительную базу текстов. Он непрерывно совершенствуется как инновационно-информационный источник. Понятие национального корпуса является инструментом не только синхронических, но и диахронических исследований. В данной статье рассмотрена необходимость создания «исторического подкорпуса» в рамках Национального корпуса казахского языка. «Исторический подкорпус» представляет собой один из самых востребованных лингвистических инструментов для любого пользователя в онлайн-режиме, в целях поиска им необходимых материалов для изучении языка, истории, культуры, литературы письменного наследия V-XX вв. Цель данной статьи – сбор, оцифровка и внесение в корпус с информационными и языковыми метаобозначениями текстов древнего и средневекового письменного наследия. В области прикладной лингвистики такой исторический подкорпус создается впервые. Есть особые сложности в оцифровке дошедших до нас рукописей, имеющих различную графику. В статье исследуются структура и практическое применение в мировой практике разработки исторического подкорпуса: анализируется процесс разработки исторического подкорпуса мировых языков, в частности исторический подкорпус русского и немецкого языков. С учетом опыта других стран будут определены основные направления по разработке исторического корпуса казахского языка: вопросы выявления и сбора текстов письменных памятников разных эпох; сортировка, классификация, обработка качества и состава собранных материалов, введение и демонстрация текста, определение структур информационных метаобозначений для каждого текста. Также принимается во внимание проблема постановки лингвистических обозначений – это одна из трудностей в разработке исторического подкорпуса. Представленная исследовательская работа может быть использована при разработке исторического подкорпуса любого языка.