«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

26.11.2025 18:39:00 | iXBT.com

Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых.

Сгенерировано нейросетью Midjourney

Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.

В Яндексе рассказали:

Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.

Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.

Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение.

Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.

Подробнее

Читайте также

Сервис ИИ-генерации Suno заключил соглашение с Warner Music Group, и теперь сильно изменит работу и правила сервиса
26.11.2025 18:35:00 | iXBT.com

Опубликованы фото будущего флагманского смартфона Xiaomi 17 Ultra
26.11.2025 18:33:00 | iXBT.com

Лента рекомендаций YouTube станет лучше? Google тестирует функцию, позволяющую пользователям в текстовом режиме написать, что они хотят видеть в ленте
26.11.2025 18:20:00 | iXBT.com

Всего 7,9 млн рублей за большой кроссовер с 720 л.с., топовым оснащением, пневмоподвеской и 2 годами гарантии. Lynk & Co 900 появился у крупных дилеров
26.11.2025 18:09:00 | iXBT.com

Впервые почти за 15 лет Apple может возглавить рынок смартфонов. Таков прогноз Counterpoint Research
26.11.2025 18:04:00 | iXBT.com

Snapdragon 8 Elite Gen 5, 7000 мАч, 120 Вт, топовая камера. Honor BKQ-AN20 сертифицирован в Китае, известный инсайдер уверяет, что под этим обозначением скрывается Honor Magic8 Ultra
26.11.2025 17:42:00 | iXBT.com

Российская сборка и скидки от государства: стартовал приём заказов на гибридный кроссовер Voyah Free Sport+
26.11.2025 17:34:00 | iXBT.com

«Убийца премиума» из Китая в России: в РФ привезли партию люксовых кроссоверов Zeekr 9X, цены — от 13,5 млн рублей
26.11.2025 17:02:00 | iXBT.com

На фоне кризиса на рынке оперативной памяти крупные ритейлеры США перестали показывать ценники на ОЗУ в розничных магазинах
26.11.2025 16:23:00 | iXBT.com

Министерство обороны Британии запускает первый в мире киберспортивный турнир для военных
26.11.2025 15:49:25 | TechCult.ru

Совершенно новый Zeekr 8X засветился на фото: это будет 544-сильный конкурент Li Auto L8 и Aito M8 с запасом хода более 1200 км
26.11.2025 15:44:00 | iXBT.com

Россия строит три гигафабрики по производству литий-ионных аккумуляторов
26.11.2025 15:44:00 | iXBT.com

Новый Realme похож не на iPhone, а на Galaxy. Смартфон Realme P4x получит аккумулятор ёмкостью 7000 мАч
26.11.2025 14:38:00 | iXBT.com

У Seagate уже есть прототип пластины, чтобы создать HDD объёмом 55 ТБ. Пластина с HAMR имеет ёмкость 6,9 ТБ
26.11.2025 14:32:00 | iXBT.com

Первый коммерческий сервис роботакси за пределами США запустили в ОАЭ. Это сделали WeRide и Uber
26.11.2025 14:13:00 | iXBT.com

Intel заполучила себе бывшего старшего вице-президента TSMC, и TSMC сразу же подала на этого специалиста в суд
26.11.2025 14:06:00 | iXBT.com

Intel теряет рынок процессоров, но зато может заработать на новом направлении. Технология корпусировки EMIB будет использоваться в TPU Google
26.11.2025 13:50:00 | iXBT.com

Военная версия аэротакси Joby Aviation S4 совершила свой первый полет
26.11.2025 13:46:51 | TechCult.ru

У этой GeForce RTX 5090 оплавленный коннектор питания вообще застрял в разъёме. Пострадала карта MSI
26.11.2025 13:38:00 | iXBT.com

Это полноценный игровой ПК, но на китайском процессоре. Thunderobot представила модель Black Warrior Hunter Blade Pro
26.11.2025 13:31:00 | iXBT.com

Модуль ОЗУ объёмом 1 ТБ. Представлен новый открытый стандарт памяти TDIMM, но к компании Tachyum есть много вопросов
26.11.2025 13:21:00 | iXBT.com

Нужно ещё больше чипов. TSMC построит три новых фабрики для выпуска чипов по нормам 2 нм
26.11.2025 13:12:00 | iXBT.com

Из-за Европы урезали аккумуляторы, но это всё те же полноценные флагманы. Представлены глобальные смартфоны Poco F8 Pro и F8 Ultra
26.11.2025 12:57:00 | iXBT.com

Конец эпохи: BMW Z4 снимают с производства, анонсирована BMW Z4 Final Edition
26.11.2025 12:55:00 | iXBT.com

Все мы — немного китайцы. В Поднебесной обожают большие телевизоры: средняя диагональ превысила 62 дюйма, что намного больше, чем в других странах
26.11.2025 12:45:00 | iXBT.com

Илон Маск показал всему миру, как надо: Южная Корея строит свою многоразовую ракету
26.11.2025 12:37:00 | iXBT.com

Die Welt: Дуров – новый Илон Маск
26.11.2025 12:36:10 | Ведомости

Большой экран 3К 144 Гц и аккумулятор 8850 мАч — всего 350 долларов. Представлен Poco Pad X1
26.11.2025 12:35:00 | iXBT.com

Mercedes-Benz G63 за 365 000 долларов продали перекрашенным. Покупательница требует компенсацию, дилер попытался расторгнуть договор
26.11.2025 12:24:00 | iXBT.com

Конкурент Toyota Camry от самого Volkswagen. В КНР представлен Volkswagen Magotan 2026: 220 л.с., автопилот и улучшенная медиасистема — от 180 тыс. юаней (2 млн рублей)
26.11.2025 12:17:00 | iXBT.com

Компактный мини-ПК с настольной Nvidia GeForce RTX 5060 и БП на 350 Вт в корпусе игровой консоли. На мировой рынок выпустили Minisforum Atomic Warrior G1 Pro
26.11.2025 12:14:00 | iXBT.com

OpenAI прогнозирует 220 млн пользователей ChatGPT с подпиской к 2030 году
26.11.2025 12:05:42 | Ведомости

7000 мАч, 100 Вт, тройная 50-мегапиксельная камера и 100-кратный зум, экран Samsung 2K, IP69 и 7 лет обновлений — 820 долларов. Представлен глобальный iQOO 15
26.11.2025 11:55:00 | iXBT.com

«Аватар: Огонь и пепел» станет первым фильмом, созданным под Cinity LED
26.11.2025 11:50:00 | iXBT.com

Компания Xpeng вскрыла своего робота Iron прямо на сцене, чтобы показать его начинку
26.11.2025 11:48:52 | TechCult.ru

Все новости

ЛЕНТА

В Новосибирске создали неинвазивный глюкометр на графеновых сенсорах
05.03.2026 23:44:58 | ferra.ru

Российские физики впервые измерили свойства «муарового» графена
05.03.2026 23:14:47 | ferra.ru

В МАИ придумали, как сделать беспилотники легче без потери прочности
05.03.2026 22:57:36 | ferra.ru

В Новосибирске разработали ИИ-сервис для создания аудиокниг из научных текстов
05.03.2026 22:56:38 | ferra.ru

Эра тотальной русификации, предпочтения хакеров, и китайская экспансия
05.03.2026 22:52:25 | it-world

Российские биологи разгадали структуру белка при болезнях Альцгеймера
05.03.2026 22:38:32 | ferra.ru

Путин призвал внедрять ИИ в образование без упрощения обучения
05.03.2026 22:12:40 | ferra.ru

В Сибири создали установку для безопасной утилизации ядерных отходов
05.03.2026 21:38:30 | ferra.ru

В Тольятти модернизировал линию контроля двигателей для Lada Niva
05.03.2026 21:05:24 | ferra.ru

WhatsApp* работает над запуском подписки с опциями кастомизации приложения — WABetaInfo
05.03.2026 20:26:34 | vc.ru

Судьба или заслуга??
05.03.2026 20:15:32 | Хабр

Exadata на Postgres, или старые архитектурные проблемы и их решение
05.03.2026 19:55:35 | Хабр

Self-Aware MCP Server: инструменты контекста реального мира для AI-агента
05.03.2026 19:53:07 | Хабр

Тачмак
05.03.2026 19:46:45 | ПОВАРЁНОК.РУ

Алсу изящно уколола Решетову, которая выходит замуж
05.03.2026 19:45:00 | Woman.ru

Пойти ли в облако? Ожидания и реальность
05.03.2026 19:25:07 | Хабр

Границы моего языка — это границы моего мира, или почему AGI недостижим с помощью LLM
05.03.2026 19:15:27 | Хабр

Обучаем нейросеть онлайн
05.03.2026 19:14:25 | Хабр

Обещания Apple и новый MacBook Neo
05.03.2026 18:52:24 | it-world

Шесть предметов, которые в СССР считались роскошью, а сейчас даром никому не нужны
05.03.2026 18:45:00 | Woman.ru

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5
05.03.2026 18:36:04 | Хабр

Инсайдеры уточнили дату выхода Xiaomi 17 Max с аккумулятором на 8000 мА·ч
05.03.2026 18:30:42 | ferra.ru

Китайцы захватывают российский e-commerce
05.03.2026 18:29:54 | it-world

Единый реестр банковских карт россиян будет создан в 2027 году
05.03.2026 18:29:25 | ferra.ru

Гармония нейроэтики
05.03.2026 18:27:25 | Хабр

В Пензе создали «мозговой центр» для беспилотников, определяющий метеоусловия
05.03.2026 18:23:37 | ferra.ru

Роскосмос начал сборку спутника «Ямал» по заказу «Газпрома»
05.03.2026 18:19:12 | ferra.ru

Как вернуть нормальную скорость интернета: большой гайд по борьбе с замедлением
05.03.2026 18:16:45 | Хабр

Что значит «отвечать за качество»?
05.03.2026 18:16:22 | Хабр

В Санкт-Петербурге создадут аварийные дизель-генераторы для ледокола «Лидер»
05.03.2026 18:10:26 | ferra.ru

В Max отвергли информацию, что отслеживают использование VPN
05.03.2026 18:06:08 | vc.ru

Семь игр на «ведроид», которые не захочется удалять
05.03.2026 18:05:19 | Хабр

Финтех-сервис Revolut подал заявку на банковскую лицензию в США
05.03.2026 18:05:03 | vc.ru

В России создали инструмент для удешевления вычислений при разработке ИИ
05.03.2026 18:02:27 | ferra.ru

delegatecall в Solidity
05.03.2026 18:01:18 | Хабр

Смотреть все

ВСЯ ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro