• Про проєкт
  • Контакти
  • Логін
CreativityUA - Official CIAU Media
  • Ідеї
  • Інсайти
  • Ремесло
  • Бізнес
  • Люди
  • М’язи
  • Тренди
  • Натхнення
  • Більше
    • Всі новини
    • Відео
    • Спецпроєкти
      • LIONS Live
      • Креативний дайджест
      • Cannes Lions 365
      • Філософський Сад
      • Комунікації для культурних менеджерів
      • Знакові проєкти України
Немає результатів
Переглянути всі результати
Creativity Ukraine
  • Ідеї
  • Інсайти
  • Ремесло
  • Бізнес
  • Люди
  • М’язи
  • Тренди
  • Натхнення
  • Більше
    • Всі новини
    • Відео
    • Спецпроєкти
      • LIONS Live
      • Креативний дайджест
      • Cannes Lions 365
      • Філософський Сад
      • Комунікації для культурних менеджерів
      • Знакові проєкти України
Немає результатів
Переглянути всі результати
Creativity Ukraine
Головна Бізнес та Інновації

Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

22 Січня, 2021
Час прочитання: 2 хв.
A A
Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ
Share on FacebookShare on Twitter

Компанія Grammarly анонсувала створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови. Компанія розробляє онлайн-сервіс на основі штучного інтелекту для допомоги в написанні текстів англійською мовою.

Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

GEC — це Grammatical Error Correction, тобто виправлення граматичних помилок, а мовний корпус — сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали. Вони позначили помилки і вказали відповідні виправлення.

Мета і призначенння

Призначення корпусу — наукове та практичне вивчення мови. Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.

GEC-корпус української мови

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону. Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо. Завантажити корпус можна за цим посиланням.

Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску Grammarly у розвиток українського NLP (natural language processing — опрацювання природної мови). Команда розробників продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.

Комп’ютер вчиться української

«Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп’ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити комп’ютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!» — коментує Настасія Осідач, менеджерка команди комп’ютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу.

Корпус також може мати позитивний вплив на створення нових онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів. Також GEC-корпус буде сприяти використанню якісної української мови в онлайні, а також буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн.

«Ми зробили GEC-корпус загальнодоступним, тож беріть його, досліджуйте та розвивайте комп’ютерне опрацювання української мови! Окрім доповнення самого корпусу текстами, команда активно вдосконалюватиме його технічну цінність. Наші лінгвісти підготують додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю, що суттєво збільшує можливості його використання та значення», — каже Олексій Сивоконь, інженер-дослідник Grammarly.

Дізнатися більше і підтримати проєкт GEC-корпусу української мови можна за цим посиланням.

Джерело


Читайте також:

#Читай_досягай: Український інститут книги та МКІП запустили акцію з популяризації читання.

Теги: культурасуспільство та державатехнології

СХОЖІ ПУБЛІКАЦІЇ

“Зароблені” комунікації проти “оплачених”: як знайти гармонію для бренду
Аналітика

“Зароблені” комунікації проти “оплачених”: як знайти гармонію для бренду

27 Травня, 2025

Український ринок комунікацій балансує між традиційними підходами та новими викликами. З одного боку, ми спостерігаємо зростання Digital ринку – за даними Всеукраїнської рекламної коаліції, у 2024 році він збільшився на...

Читати даліDetails

MasterZoo представив рекламну кампанію про сни пухнастих особистостей

У центрі культури й сенсів: що обговорювали на 18-му Українському маркетинг-форумі

РЕКОМЕНДОВАНО

Маркетинг і Комунікації

Оголошено переможців Київського Міжнародного Фестивалю Реклами 2025

2 Червня, 2025
Інсайти

Ілля Неправда: як креативний бізнес в Україні знаходить сили розвиватися навіть у найскладніші часи

28 Травня, 2025

БІЛЬШЕ МАТЕРІАЛІВ

Премія Effie Awards Europe 2025 відкрила прийом заявок: нові категорії та спеціальні умови для українських учасників
Інсайти

Премія Effie Awards Europe 2025 відкрила прийом заявок: нові категорії та спеціальні умови для українських учасників

5 Червня, 2025
Ти не ти, коли голодний: нова рекламна кампанія Snickers з Жозе Моурінью
Відео

Ти не ти, коли голодний: нова рекламна кампанія Snickers з Жозе Моурінью

3 Червня, 2025

Про медіа

CreativityUA – ми пишемо про креатив, що трансформує бізнес, змінює людину та розвиває суспільство. Надаємо можливість брендам та особистостям ділитись досвідом та цікавою інформацією. Тримаємо в курсі важливих новин креативних індустрій і надаємо майданчик для поширення свіжих думок.

Тематичні напрями

  • Творчість і дизайн
  • Бізнес та Інновації
  • Маркетинг і Комунікації
  • Культура і Життя
  • Наука і Технології
  • Розвиток і Ефективність
  • Суспільство та Держава
  • Фестивалі та можливості
  • Відповідальність

Контакти

Відділ реклами

Імейл редакції

+380 44 221 6131

Новини Каннських Левів в Україні

Cannes LIONS 365  |  LIONS Live

Подкаст Creative Digest

Soundcloud  |  Apple Podcasts |  Google Podcasts

Ми у соцмережах

© 2021 CreativityUA | Офіційне медіа Асоціації Креативних Індустрій України | CIAU

Політика конфіденційності

З поверненням!

Увійдіть з логіном Facebook
Увійдіть з логіном Google
OR

Увійти в обліковий запис

Забули пароль?

Відновіть свій пароль

Будь ласка, введіть своє ім'я користувача або адресу електронної пошти, щоб скинути пароль.

Увійти
Немає результатів
Переглянути всі результати
  • РУБРИКИ
    • Ідеї
    • Інсайти
    • Ремесло
    • Бізнес
    • Люди
    • М’язи
    • Тренди
    • Натхнення
  • ТЕМАТИКА
    • Маркетинг і Комунікації
    • Бізнес та Інновації
    • Творчість і дизайн
    • Культура і Життя
    • Розвиток і Ефективність
    • Наука і Технології
    • Суспільство та Держава
    • Фестивалі та можливості
  • СПЕЦПРОЄКТИ
    • Cannes Lions 365
    • LIONS Live
    • Креативний дайджест
    • Філософський Сад
    • Комунікації для культурних менеджерів
    • Знакові проєкти України
  • ТИП МАТЕРІАЛУ
    • Новини
    • Добірки
    • Історії
    • Точка зору
    • Інтерв’ю
    • Аналітика
    • Відео
    • Події

© 2021 CreativityUA | Офіційне медіа Асоціації Креативних Індустрій України | CIAU

Цей вебсайт використовує файли cookie. Продовжуючи користуватися цим вебсайтом, ви даєте згоду на використання файлів cookie. Відвідайте сторінку Політика конфіденційності.