Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой исчезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

●       Как собирали и размечали обучающие данные;

●       Какие модели и подходы тестировали;

●       Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro