ТЕХНОЛОГИЯ РАЗРАБОТКИ ДИАЛЕКТОЛОГИЧЕСКОГО ПОДКОРПУСА В КОРПУСЕ КАЗАХСКОГО ЯЗЫКА
DOI:
https://doi.org/10.48371/PHILS.2022.66.3.006Ключевые слова:
диалект, диалектологических корпус, текстовой редактор, анализатор, субкорпус, метаразметка, Региональный Словарь, метаданныеАннотация
В статье рассматривается мировой опыт создания диалектологического корпуса. Введение диалектного корпуса в национальный корпус русского языка на материалах устной речи, проблемы фонетической транскрипции и их правописания, разработка просодических обозначений и способов автоматического морфологического анализа диалектных употреблений.
Основная цель статьи – описать развитие диалектологического корпуса казахского языка на основе мирового опыта создания диалектного корпуса и путей его совершенствования.
Развитие диалектологического подразделения Национального корпуса казахского языка необходимо исследователям языка для упрощения и ускорения исследований, необходимых для научных статей, монографий, диссертаций.
В статье используются методы обзора, описания, повествования, аналитического анализа, алгоритмического программирования при разработке диалектологического подразделения Национального корпуса казахского языка, изучении прикладных работ в мировой лингвистике в этой области.
В заключение следует отметить, что в корпусе как стандартизированные слова литературного языка, так и слова диалектного характера должны быть разделены в первую очередь на корни и аффиксы. В диалектном корпусе таким же образом создается словарь ключевых слов диалектов, который размещается в базе данных корпуса. Второй этап морфологического анализа – второй части словоформ заключается в разбиении суффиксов на морфемы и маркировке их по грамматической природе. При этом диалектные словоформы в диалектном корпусе также должны подвергаться морфологическому анализу.
В дальнейшем планируется записывать устные языковые материалы из регионов в диалектный корпус и включать их в состав корпуса. В статье даны рекомендации по организации работы в соответствии с этой целью. Это увеличивает ценность работы.