Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

Компанія Grammarly анонсувала створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови. Компанія розробляє онлайн-сервіс на основі штучного інтелекту для допомоги в написанні текстів англійською мовою.

Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

GEC — це Grammatical Error Correction, тобто виправлення граматичних помилок, а мовний корпус — сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали. Вони позначили помилки і вказали відповідні виправлення.

Мета і призначенння

Призначення корпусу — наукове та практичне вивчення мови. Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.

GEC-корпус української мови

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону. Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо. Завантажити корпус можна за цим посиланням.

Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску Grammarly у розвиток українського NLP (natural language processing — опрацювання природної мови). Команда розробників продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.

Комп’ютер вчиться української

«Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп’ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити комп’ютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!» — коментує Настасія Осідач, менеджерка команди комп’ютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу.

Корпус також може мати позитивний вплив на створення нових онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів. Також GEC-корпус буде сприяти використанню якісної української мови в онлайні, а також буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн.

«Ми зробили GEC-корпус загальнодоступним, тож беріть його, досліджуйте та розвивайте комп’ютерне опрацювання української мови! Окрім доповнення самого корпусу текстами, команда активно вдосконалюватиме його технічну цінність. Наші лінгвісти підготують додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю, що суттєво збільшує можливості його використання та значення», — каже Олексій Сивоконь, інженер-дослідник Grammarly.

Дізнатися більше і підтримати проєкт GEC-корпусу української мови можна за цим посиланням.

Джерело


Читайте також:

#Читай_досягай: Український інститут книги та МКІП запустили акцію з популяризації читання.

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Business Culture HubBusiness Culture Hub

Український культурний фонд запрошує до участі в Business Culture Hub

Український культурний фонд об’єднує круті культурні проєкти та бізнес, який розвиває КСВ! Саме тому УКФ запрошує усіх на другу онлайн-зустріч Business ...

З 1 до 5 березня 2021 року на LIONS Live розпочнеться чергова онлайн-сесія креативного розвитку

З 1 до 5 березня 2021 року на черговій онлайн-сесії LIONS Live організатори Міжнародного фестивалю креативності Cannes Lions представлять новий ...

Media Maker – нове спеціалізоване агентство в складі dentsu Ukraine

Агентство Media Press, яке існує на ринку з 2003 року, стає Media Maker. Серед сервісів агентства: PR, інтегровані рекламні кампанії ...

Target, Walmart і CVS шукають високотехнологічну альтернативу пластиковим пакетам

Заснована цими трьома ритейлерами інвестиційна фірма Closed Loop Partners має на меті пошук, тестування та впровадження інноваційних альтернатив.

Бренд морозива Magnum зняв короткометражні аніме про природу насолоди

Два короткометражних аніме для бренда Magnum поєднує та ідея, що пошуки насолоди – дуже людська риса, а розуміння насолоди у кожного своє.

Держкіно презентує онлайн-довідник національних фільмів

Онлайн-довідник «База національних фільмів України» – найповніша база даних за національними фільмами, професіоналами кіновиробництва та компаніями-виробниками України. Держкіно має на меті ...