Що таке мовний корпус?

Корпусом у лінгвістиці називають упорядкований електронний масив текстів певною мовою, який є автентичним, репрезентативним, машиночитним і розміченим (анотованим). Лінгвістичні корпуси використовують для дослідження мови, її статистичного аналізу, розпізнавання мови, машинного перекладу, вивчення іноземних мов.

Національний корпус кримськотатарської мови

Національний корпус кримськотатарської мови (НККМ) – винятковий у своєму роді електронний масив кримськотатарських текстів, що охоплюють різні жанри та історичні епохи. НККМ слід розглядати як інструмент для всеосяжних лінгвістичних досліджень, а також створення та розвитку найрізноманітніших автоматизованих систем (розпізнання мови, машинного перекладу, інформаційного пошуку). Створення і розбудова лінгвістичного корпусу є особливо важливим чинником розвитку кримськотатарської мови, яка на сьогодні класифікується ЮНЕСКО як мова, що перебуває під серйозною загрозою зникнення.

Проєкт Національного корпусу кримськотатарської мови було ініційовано Мінреінтеграції у межах реалізації Стратегії розвитку кримськотатарської мови на 2022–2032 роки. Проєкт реалізовує громадська організація QIRI’M Young за підтримки швейцарсько-української Програми EGAP, що виконується Фондом Східна Європа, та Київського національного університету ім. Тараса Шевченка.

Перспективи

Даний проєкт покликаний стати важливим кроком для збереження та розвитку кримськотатарської мови. За допомогою бази даних НККМ можуть створюватися нові електронні словники, а також програми для виправлення та машинного перекладу текстів кримськотатарською мовою. Такі напрацювання сприятимуть популяризації мови як у повсякденному житті, так і у науковій, літературній сферах. Крім того, лінгвістична база НККМ розширить можливості кримськотатарської мови на міжнародних технічних та освітніх майданчиках.