Операция выполнена!
Закрыть

Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых.

Сгенерировано нейросетью Midjourney

 

Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов. 

В Яндексе рассказали:

Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил. 

Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.

Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение.

Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%. 

Читайте также
СТАТЬ АВТОРОМ
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro