Back

ⓘ Генеральний регіонально анотований корпус української мови




                                     

ⓘ Генеральний регіонально анотований корпус української мови

Генеральний регіонально анотований корпус української мови - це корпус української мови обсягом понад 650 млн токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик.

Корпус можна використати для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо. Корпус не є взірцем нормативної української мови, в ньому можуть трапитися слова і сполучення, які не відповідають сучасним нормам літературної мови. Наведені далі статистичні дані стосуються 10 версії корпусу, доступної для пошуку з 20 жовтня 2020 року.

Корпус охоплює період з 1816 по 2021 р. і містить понад 80 тисяч текстів близько 23000 авторів.

                                     

1. Напрями та жанри

35 % корпусу становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії.

З нехудожніх текстів:

  • мемуари, листи та щоденники, зокрема чималий корпус текстів Facebook, в якому представлені блоги людей з усіх областей України та діаспори;
  • промови та інтервю.
  • публіцистичні тексти, зокрема колекції газет 1888 - 1893 рр., 1905 р., 1913 - 1918 рр., 1919 - 1943 рр., сучасні газети різних регіонів, а також тексти з інформаційних сайтів в Інтернеті;
  • наукові та навчальні тексти: монографії, дисертації, наукові статті, підручники; окремо виділено значні за обсягом підкорпуси наукової літератури з історії, етнографії, філософії, права;
  • релігійні тексти, зокрема два українські переклади Біблії;

Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема "Словарь української мови" Б. Грінченка і "Російсько-український словник сталих виразів" І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів.

                                     

2. Датування

Тексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст.

                                     

3. Регіональна розмітка

В основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму.

Один текст може належати до кількох регіональних підкорпусів.

Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори. Це здебільшого тексти емігрантів 1940-х років і, менша частка, - 1917-1920-х рр.

                                     

4. Морфологічна розмітка

ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u.

Програма аналізує текст і для кожної словоформи визначає лему лексему і теги граматичні ознаки.

                                     

5. Дослідження на базі Корпусу

На базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми та частотності літер і їх сполучень для розроблення шрифтів.

                                     

6. Посилання

  • Уседоступність матеріалу для зручної роботи з ним. Марія Шведова про ГРАК української мови та неоране поле досліджень. Розмову вела Наталія КОВАЛЬ // 2020, Українська мова та література. №9-10, С. 12-17.
  • uacorpus.org - Генеральний регіонально анотований корпус української мови
  • - ГРАК на Фейсбуці