На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

05.12.2024 07:00:08 | Хабр

Хабы: Блог компании Яндекс, Машинное обучение, Искусственный интеллект, Natural Language Processing, Алгоритмы

В сервисе Яндекс Переводчик мы поддерживаем перевод между 102 языками. Наша цель — обеспечивать качественный перевод для самых разных типов данных: текстов, документов, HTML, изображений и видео. Сегодня обсудим ключевой компонент для обучения моделей машинного перевода — данные для обучения.

Современные нейросетевые подходы очень требовательны как к объёму данных в обучении, так и к их качеству. Для получения хорошей переводной модели требуются сотни миллионов, а в идеале миллиарды параллельных предложений (пар из предложения и его перевода). Возникает вопрос: откуда их взять и что это за данные?

В этой статье я расскажу о том, как из текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё коротко подсвечу, какое место в этом процессе занимает наша YandexGPT и что это за зверь такой — YandexGPT‑MT.

Читать далее

Подробнее

Читайте также

Стоимость биткоина впервые в истории превысила $103 тысячи
05.12.2024 06:58:52 | vc.ru

Пользователи Windows 11 устроили демарш против этой ОС из-за навязчивой рекламы
05.12.2024 06:45:00 | ferra.ru

Цифровая модель угроз: упрощаем и автоматизируем процесс создания
05.12.2024 06:30:17 | Хабр

Голосовой ассистент на python
05.12.2024 06:18:10 | Хабр

В чём секрет сдачи экзаменов на 100/100? Оцениваем результаты эксперимента с помощью статистики на неполных данных
05.12.2024 06:17:13 | Хабр

[Перевод] Машинное обучение для начинающих: Введение в нейронные сети
05.12.2024 06:16:10 | Хабр

Разбираемся со сканерами в Linux: Практики использования SANE
05.12.2024 06:11:24 | Хабр

Перечислены категории людей, которым нужно получать витамина D больше, чем остальным
05.12.2024 06:00:00 | ferra.ru

Чужие ошибки, ваши последствия: взгляд изнутри на несправедливость в IT
05.12.2024 05:16:03 | Хабр

Банковские приложения начнут регулярно проверять безопасность Android
05.12.2024 05:15:00 | ferra.ru

Базы данных для системного аналитика. Краткий обзор на практике
05.12.2024 05:00:59 | Хабр

Врач предупредил об опасности грелок для кожи
05.12.2024 04:30:00 | ferra.ru

[Перевод] ASIC'и на границе
05.12.2024 04:17:06 | Хабр

Выявляем атаки на DHCP с помощью Wireshark
05.12.2024 04:08:52 | Хабр

Раскрыто, чем так полезна овсянка для сердца и похудения
05.12.2024 03:45:00 | ferra.ru

Учёные сделали из бактерий самых маленьких «танцоров»
05.12.2024 03:31:20 | ferra.ru

Закладки, к которым ты никогда не вернёшься
05.12.2024 03:00:41 | Хабр

11 скриптов автоматизации для автоматизации конфигурации Prometheus
05.12.2024 02:25:36 | Хабр

Названы состояния, при которых может помочь приём магния
05.12.2024 02:15:00 | ferra.ru

Боже, храни документацию
05.12.2024 01:33:41 | Хабр

Эксперты объяснили, что происходит с нашими зубами при слишком частом отбеливании
05.12.2024 01:30:00 | ferra.ru

Перечислены самые полезные для здоровья способы приготовления попкорна
05.12.2024 00:45:00 | ferra.ru

Эндокринолог рассказала о пользе брокколи в профилактике слабоумия
05.12.2024 00:39:34 | ferra.ru

Слабоумие и отвага: как найти ликвидные облигации с доходностью до 40% и ежемесячными фиксированными выплатами
05.12.2024 00:25:23 | Хабр

Врач объяснила, чем отличаются ОРВИ и грипп
05.12.2024 00:22:53 | ferra.ru

Академик Онищенко рассказал о применении ИИ в российской медицине
05.12.2024 00:16:50 | ferra.ru

«Вредные советы» или еще несколько приемов работы с XWiki
05.12.2024 00:16:24 | Хабр

Apple предрекли потерю китайского рынка из-за ИИ. Компании стоит поднажать
05.12.2024 00:00:16 | ferra.ru

Раскрыто, чем опасна для здоровья диета йо-йо
05.12.2024 00:00:00 | ferra.ru

Orange и OpenAI переводят большие языковые модели на местные африканские языки
04.12.2024 23:42:30 | it-world

«Грустные и одинокие» бананы привлекли больше людей
04.12.2024 23:15:15 | ferra.ru

Игры вместо обучения, чиновники под Astra Linux, и ставки по микрокредитам
04.12.2024 23:15:02 | it-world

Новый оптоволоконный датчик поможет мониторить состояние мозга после травм
04.12.2024 23:07:58 | ferra.ru

Ученые обнаружили, что сердце имеет собственную нервную систему
04.12.2024 22:41:54 | ferra.ru

Арктике спрогнозировали исчезновение льда к 2027 году
04.12.2024 22:41:30 | ferra.ru

Смотреть все

НОВОСТИ

Фонд «Русский крест» помогает Дагестану в борьбе со стихией
10.04.2026 12:33:51 | Life.ru

Сотрудника администрации Мариуполя задержали за передачу данных о ВС РФ
10.04.2026 12:32:43 | Коммерсантъ

Замруководителя компании в Приангарье задержан за незаконный майнинг
10.04.2026 12:32:19 | Коммерсантъ

В Саратове рухнул подъезд пятиэтажного дома
10.04.2026 12:28:40 | Life.ru

Зеленский размечтался о базах США на Украине
10.04.2026 12:28:14 | Life.ru

Трамп предпринял необычный шаг в отношении Китая
10.04.2026 12:27:00 | Lenta.ru

Публикация материалов в интернете обошлась россиянину в копеечку
10.04.2026 12:26:58 | Lenta.ru

Российские военные освободили Миропольское и село Диброва
10.04.2026 12:26:42 | Life.ru

Зеленский предсказал раскол Украины
10.04.2026 12:26:40 | Lenta.ru

Экс-вице-губернатора Кубани уличили в рейдерском захвате предприятия АПК
10.04.2026 12:25:21 | ТАСС

"Автостат": ввоз подержанных легковушек из Японии в РФ в I квартале вырос на 32%
10.04.2026 12:25:06 | ТАСС

Китай начал тратить свои запасы нефти
10.04.2026 12:24:55 | Lenta.ru

TotalEnergies сообщила о повреждении одного из крупнейших НПЗ в мире
10.04.2026 12:24:00 | Российская Газета

Лукашенко выразил сожаление о том, что право сильного стало доминировать в мире
10.04.2026 12:24:00 | Российская Газета

Минобороны сообщило о взятии под контроль населенного пункта в Сумской области
10.04.2026 12:22:59 | Lenta.ru

Силы ПВО сбили за неделю 2 411 беспилотников ВСУ
10.04.2026 12:22:38 | ТАСС

Дагестан и еще несколько регионов России предупредили об опасности
10.04.2026 12:22:31 | Lenta.ru

ВС РФ уничтожили за неделю четыре боевые машины ВСУ РСЗО "Град"
10.04.2026 12:21:19 | ТАСС

Двое мужчин разбились насмерть на стройке на востоке Москвы
10.04.2026 12:21:13 | Life.ru

ФСБ раскрыла троих бывших боевиков Басаева и Хаттаба
10.04.2026 12:21:10 | Lenta.ru

The Sun: болельщик "Ноттингема" умер после матча команды с "Порту"
10.04.2026 12:21:06 | ТАСС

Найдено натуральное средство для снижения артериального давления
10.04.2026 12:20:58 | Lenta.ru

675-килограммовая деталь насмерть придавила работницу российского завода
10.04.2026 12:20:37 | Lenta.ru

«Выключить лишние мысли»: Названы напитки, которые гарантируют крепкий сон
10.04.2026 12:20:14 | Life.ru

Мурашко: регионы должны быть готовы к паводкам независимо от расположения
10.04.2026 12:20:03 | ТАСС

В Белоруссии запустили производство обновленного кроссовера Belgee X50+
10.04.2026 12:19:47 | ТАСС

Силы Черноморского флота уничтожили за неделю четыре безэкипажных катера ВСУ
10.04.2026 12:19:29 | ТАСС

ВСУ за неделю потеряли до 365 военных в зоне группировки "Днепр"
10.04.2026 12:19:16 | ТАСС

Недельные потери ВСУ в зоне группировки войск "Восток" составили более 2 020 солдат
10.04.2026 12:19:06 | ТАСС

ВС РФ нанесли пять групповых ударов за неделю
10.04.2026 12:18:55 | ТАСС

ВСУ за неделю потеряли свыше 2 420 военных в зоне группировки войск "Центр"
10.04.2026 12:18:38 | ТАСС

ВСУ за неделю потеряли более 1 280 военных в зоне группировки "Север"
10.04.2026 12:18:26 | ТАСС

ВСУ за неделю потеряли свыше 1 310 военных в зоне "Запада"
10.04.2026 12:18:12 | ТАСС

Пентагон не исполнил решение суда о восстановлении доступа для журналистов
10.04.2026 12:18:03 | ТАСС

ВСУ за неделю потеряли свыше 1 045 военных в зоне группировки войск "Южная"
10.04.2026 12:17:41 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro