ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНДАҒЫ ЕТІСТІКТЕРДІҢ ЛЕКСИКА-СЕМАНТИКАЛЫҚ БЕЛГІЛЕНІМ ӘЗІРЛЕМЕСІ: ӘЛЕМДІК ТӘЖІРИБЕ, КЛАССИФИКАЦИЯЛАУ, КОРПУСТА БЕЛГІЛЕУ

Автор(лар)

  • Момынова Б.К. Института языкознания им. А. Байтурсынова
  • Имангазина М.А.
  • Анесова У.Г.

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.48371/PHILS.2022.66.3.010

Кілт сөздер:

корпустық лингвистика, белгіленім, лексика-семантикалық классификация, етістік, семантика, мағына, категория, лингвистикалық аннотация

Аннотация

Мақалада әлемдік корпус жасау тәжірибесіндегі негізгі белгіленімнің бірі лексика-семантикалық белгіленім әзірлемесін жасау мәселесі қарастырылады. Нақтырақ айтқанда, компьютерлік лингвистикаға және лексика-семантикалық классификацияға қатысты отандық және шетелдік ғалымдар еңбектеріне шолу жасалады, қазақ тілінің Ұлттық Корпусындағы етістіктердің лексика-семантикалық белгіленімін жасау кезеңдері көрсетіледі, практикалық негізі түсіндіріледі.

 Ақпараттық технологиялардың жедел қарқынмен дамуы тіл білімі зерттеушілерінен электронды ресурстарды меңгеруді талап етуде. Тілді бағдарламалауды зерттейтін және жүзеге асыратын тіл білімінің саласы – корпустық лингвистика. Қазақ тілінің Ұлттық корпусын жасау тілдің әр деңгейлері бойынша автоматты түрде талдау жасайтын белгіленімдер жасауға негізделеді. Сөздерді лингвистикалық аннотациялаудағы күрделі белгіленімнің бірі – лексика-семантикалық белгіленім. Орыс, қалмақ және т.б. тілдер корпусымен салыстырғанда Қазақ тілінің Ұлттық корпусындағы лексика-семантикалық белгіленім сөз мағынасына, яғни семаға тереңірек бойлайды. Сол себепті етістіктің кіші (жеке) лексика-семантикалық топтарының саны – 72. Бұл қолданушыға өзіне қажетті ақпаратты нақтырақ табуға мүмкіндік береді. Белгіленім жүйесінің қолдану интрефейсі кез келген қолданушыға, осы істің маманына да, енді үйреніп жатқан басқа саладағы мамандарға да жеңіл, түсінікті болуы көзделеді, лексика-семантикалық топтар қысқа әрі нақты атаулармен беріледі.

Корпус базасына енгізуге 18 200 етістік жинақталып, мағыналық реңктері зерттелуде. Зерттеу барысында етістіктерге лексика-семантикалық белгіленім әзірлеуді бес түрлі сипаттама бойынша беру ұсынылды. Бірінші: сөзжасамдық сипатына қарай дара, күрделі; негізгі, туынды; екінші: лесика-грамматикалық категориялар негізінде салт, сабақты; болымды, болымсыз; коннотативтік сипатына қарай жағымды, жағымсыз, бейтарап деп жіктеледі. Етістіктердің мағынасын тереңірек ашу үшін ортақ және айырушы семаларына байланысты іштей ірі (лексика-семантикалық) және кіші (семантикалық) топтарға бөлінеді.

Мақала BR11765619 «Мемлекеттік тілдің ақпараттық-инновациялық базасы ретіндегі Қазақ тілінің Ұлттық корпусын әзірлеу: ғылыми-зерттеу және оқыту интернет ресурсы» атты зерттеу жобасының аясында жазылды.

Жүктеулер

Жарияланған

2022-09-30

Жоба

Раздел

Статьи