Користувачу | Національний корпус кримськотатарської мови

Для початку роботи з Національним корпусом кримськотатарської мови (НККМ) на платформі Sketch Engine перейдіть за посиланням.

Користувачеві НККМ доступно багато інструментів для роботи з базою текстів корпусу і отримання необхідної аналітики. У цьому розділі ви знайдете інформацію про ключові функції НККМ, можливості, що вони відкривають, та інструкції по роботі на платформі Sketch Engine.

N-грами

N-грами - це частотні списки багатослівних виразів або лексичні набори. За допомогою цієї функції можна дослідити колокації, які зустрічаються у текстах НККМ. Створення списку n-грамів займає одну-дві секунди. Використання додаткових фільтрів може дещо сповільнити процес генерування списку.

Користувачеві Корпусу доступні на вибір два механізми створення N-грам:

базовий,
розширений.

Базовий механізм дозволяє обрати лише один параметр, а саме довжину N-грами - кількість слів у колокаціях. Базовий пошук також автоматично виключає низькочастотні N-грами (тобто такі, що зустрічаються у Корпусі дуже рідко).

Розширений механізм генерації N-грам передбачає більший набір опцій. Так, окрім довжини N-грами, можна обрати атрибут, на якому буде згенерований перелік, при цьому слово та лема (початкова форма слова) є найбільш поширеними. Результат може бути обмежений мінімальною та максимальною частотою використання колокацій у Корпусі. Також доступні додаткові критерії, як «починається на», «закінчується на» та «містить» для фільтрування за символами (буквами), що трапляються в будь-якому місці всередині N-грама.

Конкорданс

Конкорданс є найпотужнішим інструментом Корпусу із різноманітними параметрами пошуку. Ця функція дозволяє знаходити слова, фрази, теґи, документи, типи тексту або структури Корпусу та відображає результати в контексті їх використання у формі конкордансу. Конкорданс можна сортувати, фільтрувати, підраховувати та обробляти далі для отримання бажаного результату. Параметри перегляду дозволяють відображати додаткову інформацію, таку як леми (початкові форми слова), теґи (коди характеристик слів) та інші атрибути.

Для створення конкордансу за допомогою базового механізму, необхідно ввести слово або фразу і натиснути кнопку "Пошук". Далі можна налаштувати один із параметрів перегляду, а саме - режим відображення результатів:

KWIC - виводить конкорданс із пошуковим словом у центрі та деяким контекстом зліва та справа.
Речення - показує цілі речення, що містять шукане слово. Довгі речення не обрізаються, а показуються у кілька рядків.

Для того, щоб створити конкорданс за допомогою розширеного механізму, користувачеві необхідно вибрати вкладку "Розширений", задати необхідні налаштування та натиснути кнопку "Перейти".

У таблиці нижче - можливі налаштування та інструменти роботи з конкордансом.

Іконка	Назва	Опис
	Дані про результати	Додаткові дані щодо отриманих результатів
	Відфільтрувати результати	Функція фільтрації отриманих результатів
	Змінити параметри перегляду	Функція зміни відображення отриманих результатів. Можна увімкнути такі функції як "Нумерувати рядки", "Показати лічильник" тощо.
	Завантажити	Функція завантаження результатів пошуку у конкордансі НККМ. Доступні такі формати для завантаження файлів CSV, XLSX, XML тощо.
	Змінити критерії	Функція зміни критеріїв щодо отриманих результатів (наприклад, зміни пошукового запиту)
	Отримати випадкову вибірку	При роботі з великим конкордансом використовують випадкову вибірку, щоб зменшити кількість рядків конкордансу, водночас зберігаючи репрезентативність вибірки.
	Перемішати рядки	Функція змінює порядок рядків конкордансу на довільний
	Сортування	Функція сортує рядки конкордансу за абеткою за KWIC або за токеном зліва або справа від KWIC
	Частота	Функція складає список різних слів, лем (початкових форм слів), теґів (кодів морфологічних характеристик слів) та інших атрибутів, знайдених на вказаній позиції у конкордансі та обчислює частоту кожного з них.
	Колокації	Функція сканує вказаний діапазон справа та/або зліва від KWIC та обчислює вибір статистичних характеристик, щоб розпізнати колокації.
	Розподіл траплянь у корпусі	Діаграма демонструє частини корпусу, де було знайдено KWIC.
	KWIC / речення	Режим відображення результатів: Виводить конкорданс KWIC із пошуковим словом у центрі та деяким контекстом зліва та справа. Показує цілі речення, що містять шукане слово. Довгі речення не обрізаються, а показуються у кілька рядків.

Хороші словникові приклади

Хороші словникові приклади - це окремий інструмент конкордансу, який дозволяє згенерувати на базі матеріалів Корпусу вибірку з найбільш ілюстративних випадків використання слова.

Ця функція автоматично розпізнає речення, що легкі для розуміння та достатньо ілюстративні, щоб слугувати хорошими прикладами для словника (Good Dictionary EXamples) або реченнями, що підходять для навчання. Іструмент GDEX буде корисним для укладачів тлумачних словників, підручників, інших навчальних матеріалів.

Список слів

За допомогою цієї функції користувачі Корпусу матимуть можливість за лічені хвилини створити списки частот використання слів та їх початкових форм, а також дослідити, які слова використовуються у мові частіше, знайти рідкісні слова тощо.

Список слів працює на рівні токенів (лексем). Параметри за замовчуванням створять список слів, оскільки ті одиниці тексту, що не є словами, виключаються автоматично. Список слів також можна обмежити за частотою їх використання, встановивши мінімальний і максимальний ліміт.

Користувачеві доступні на вибір два механізми створення списку слів:

базовий,
розширений.

Ключові слова

Ключові слова — це окремі лексеми, які частіше зустрічаються у фокусному корпусі, ніж у базовому (референтному) корпусі. Будь-яка лексема може претендувати на ключове слово, якщо вона використовується частіше у фокусному корпусі, ніж в базовому корпусі. Результат включатиме переважно іменники та прикметники, оскільки частоти інших частин мови, як правило, однакові в усіх текстах.

Функція вилучення ключових слів надає користувачам НККМ можливість:

визначення унікальних характеристик корпусу (його частини)

Ця функція полягає в тому, що виявляє, які слова середньої чи навіть високої частоти вживаються частіше, ніж у загальній мові.

порівняння структурних елементів корпусу, окремих текстів

Порівняти два тексти вручну досить важко. Навіть із короткими текстами статистичне порівняння може виявити явища, які залишилися б непоміченими під час порівняння вручну. Ключові слова можна використовувати для порівняння двох корпусів або підкорпусів. Результат покаже, що характерно для фокусного (під)корпусу в порівнянні з референтним (під)корпусом.

Цей інструмент дозволяє працювати з багатьма параметрами для деталізованого дослідження. Наприклад, сфокусуватися на рідкісних або поширених словах, включати слова, що містять цифри, виключити з результатів пошуку певні лексеми тощо.

Користувачеві НККМ доступні на вибір два механізми створення списку ключових слів:

базовий,
розширений.

Аналіз типів тексту

Цей інструмент аналізує метадані і надає користувачам статистику щодо текстів, які входять до НККМ. Наприклад, ви можете побачити кількість документів, токенів або слів у Корпусі в текстах, завантажених з кожного веб сайту, написаних кожним автором або опублікованих кожного року.