ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНДАҒЫ МӘТІНДЕРДІ АВТОМАТТАНДЫРУ ӘДІСТЕРІ
##plugins.pubIds.doi.readerDisplayName##:
https://doi.org/10.48371/PHILS.2023.70.3.001Кілт сөздер:
ұлттық корпус, семантизация, автоматтандыру, тілтанымдық база, аударма, лексикалық қабат, оқу корпусы, тілдің цифрлануыАннотация
Тілдің жаһандану дәуірінде, яғни сөздік қор толықтай цифрлық жүйеде қолжетімділікке ие болған кезеңде, тіл меңгертуді оңтайландыруға мүмкіндік туады. Қазақ тілінің ұлттық корпусы – қазақ сөзінің цифрландырылған күрделі нұсқасы. Себебі қазақ тілінің корпусы тілтанымдық қызметтермен қамтамасыз ете алады, соның негізінде бірнеше подкорпустардан тұрады. Оның подкорпустарының ішіне оқу корпусына деген сұраныс күннен күнге артып келеді. Оның себебі Қазақстан көпұлтты мемлекет болғандықта. Сондықтан қазақ мәдениетін тұтынушы өзге ұлт өкілдері өз мәдениетінен пара-пар нұсқасын тану үшін аударма-баламасын анықтағысы келеді. Сондай-ақ оқу корпусы тіл үйренушілерге тиімді тілтанымдық база болары да сөзсіз.
Мақаланың мақсаты – оқу корпусына енетін тілтанымдық қорды, әсіресе қазақ тілінің лексикалық қабатындағы сөздерді тақырыптық, мағыналық, мәдени-семантикалық топтарға іріктеп семантизациялау және цифрлық жүйеге сәйкес автоматтандыруға лайықтау әрі икемдеу. Мақалада оқу корпусының басқа подкорпустан айырмашылығы, семантизациялау жіктелімі және мағыналық топтарды кестелеу (автоматтандыруға лайықтау) жолдары ұсынылды. Мақаланың ғылыми маңыздылығы да осында.
Оқу корпусына лайықты тілдік қорды енгізу барысында контент-талдау әдісі, кестелеу, жинақтау, сипаттама әдістері қолданылды. Мақалада ұсынылған ғылыми тұжырымдар оқу корпусын әзірлеуге, тіл меңгертуге арналған электронды қосымшаларды жасауда септігін тигізетін тәжірибелік маңызы бар.
Мақала ВR 18574183 «Қазақ мәтінін автоматты тану: лингвистикалық модульдер мен ІТ -шешімдер әзірлемесі» атты жобаның аясында зерттелді.