RuModernBERT и USER2: эволюция русскоязычных энкодеров

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

RuModernBERT и USER2: эволюция русскоязычных энкодеров

24.07.2025 09:05:44 | Хабр

Хабы: Блог компании VK, Машинное обучение, Искусственный интеллект, Natural Language Processing

Привет, Хабр!

В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы:

•Pre‑train‑модели (BERT, RoBERTa, DeBERTa).
Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу.

•Энкодеры текстов (SBERT).
Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами.

В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

Читать далее

Подробнее

Читайте также

Dreamcast VMU vs современные геймерские аксессуары: эволюция «вторых экранов»
24.07.2025 09:01:43 | Хабр

Яндекс Станция Мини 3 Про — компактная модульная «Алиса» с мощным звуком
24.07.2025 09:00:46 | ferra.ru

Развитие инженеров от Senior до Principal с точки зрения руководителя
24.07.2025 09:00:41 | Хабр

Что меняется в IV части ГК: почему бизнесу придется не сладко?
24.07.2025 08:55:53 | Хабр

Как мы систематизировали риски тестирования и релизов — и что из этого вышло
24.07.2025 08:38:49 | Хабр

Как мы успешно прошли тест на 30 000 одновременных пользователей в 1C:ERP (и что мы подкрутили в PostgreSQL)
24.07.2025 08:36:47 | Хабр

Сравнительный обзор: Shodan, ZoomEye, Netlas, Censys, FOFA и Criminal IP. Часть 3
24.07.2025 08:35:23 | Хабр

Харды против софтов: как я попала в IT, не зная всего на свете
24.07.2025 08:30:37 | Хабр

Поколение ChatGPT идет в офисы. Готовы ли вы к революции в корпоративной связи?
24.07.2025 08:28:28 | Хабр

[Перевод] Не научилась писать код, но стала пентестером. Интервью с этичным хакером
24.07.2025 08:28:11 | Хабр

Книга: «.NET 8: приложения и сервисы. Практика создания проектов с использованием Blazor, .NET MAUI, gRPC, GraphQL.»
24.07.2025 08:20:59 | Хабр

Cypress: кастомные команды от А до Я
24.07.2025 08:20:41 | Хабр

Apple избежит ежедневных штрафов ЕС, изменив правила App Store
24.07.2025 08:15:15 | ferra.ru

Бывший эксклюзив Xbox — Forza Horizon 5 — возглавил чарт продаж PS5 за полгода
24.07.2025 08:04:15 | ferra.ru

Как выглядел интернет нулевых и почему мы по нему скучаем
24.07.2025 08:00:31 | Хабр

Обнови JDK — живи спокойно. И Libercat тоже
24.07.2025 08:00:30 | Хабр

«Нужно переосмыслить подходы к работе»: тренды и практики из новой книги «Rethinking Work» Ришада Тобакковала
24.07.2025 08:00:28 | Хабр

Погружение в разработку плагинов для Android Studio
24.07.2025 08:00:05 | Хабр

Немного мыслей о проблеме монополий
24.07.2025 07:58:56 | Хабр

Товарищи ученые, вам труба: компактная аэродинамическая труба Flowtech
24.07.2025 07:58:25 | Хабр

Исследование Panasonic: компании хотят перейти на Windows 11, но боятся расходов и сбоев в работе
24.07.2025 07:57:15 | ferra.ru

Как импортировать проект Vitis
24.07.2025 07:50:49 | Хабр

Switch 2 установил рекорд продаж на родине, в Японии — более 1,5 млн консолей за 5 недель
24.07.2025 07:50:14 | ferra.ru

От хаоса к контролю: практика управления масштабным IT-проектом в Magnit Tech
24.07.2025 07:50:03 | Хабр

Как определить, какой длины должна быть ваша игра, если вы инди?
24.07.2025 07:45:24 | Хабр

Представлен ноутбук на Raspberry Pi — Argon ONE UP с IPS-экраном и сменным CM5
24.07.2025 07:43:23 | ferra.ru

Xiaomi представила набор из клавиатуры и бесшумной мыши всего за $20
24.07.2025 07:36:13 | ferra.ru

Киоск-терминатор: как работать с цифровыми системами, не отходя от доменной печи
24.07.2025 07:30:21 | Хабр

NVIDIA выпустит RTX 5090 D V2 в Китае уже 12 августа — урезанная шина и 24 ГБ памяти
24.07.2025 07:29:13 | ferra.ru

DDR6 выйдет уже в 2027 году: до 17 600 MT/s, 4 канала и новый слот против сигналов помех
24.07.2025 07:22:13 | ferra.ru

HUAWEI открыла предзаказ Pura 80 — фотофлагман с Kirin 9010S, LTPO OLED и быстрой зарядкой на 66 Вт
24.07.2025 07:15:12 | ferra.ru

В Китае запустили тестовую 6G-сеть — 50 ГБ передаются за 1,4 секунды
24.07.2025 07:08:12 | ferra.ru

Lenovo показала умные часы Watch Pro: 1,43" AMOLED, 70 видов тренировок и до 20 дней автономности
24.07.2025 07:01:11 | ferra.ru

Каким будет следующее поколение 3D-графики и консолей
24.07.2025 07:00:08 | Хабр

Как мы разработали гибкий пайплайн для прогноза временных рядов любых метрик
24.07.2025 07:00:05 | Хабр

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

Очереди перед Крымским мостом сократились до 570 машин со стороны Керчи
25.07.2025 21:17:18 | ТАСС

Настоятели монастырей годами спали с одной женщиной и отдали ей сотни миллионов. Как она соблазнила высшее духовенство?
25.07.2025 21:12:46 | Lenta.ru

В США рассказали о страхе украинских депутатов из-за закона о НАБУ
25.07.2025 21:12:31 | Lenta.ru

«Дочь принцессы Дианы» расправилась с соседом и его котом
25.07.2025 21:12:20 | Lenta.ru

Российская авиация нанесла удары по пунктам дислокации ВСУ на одном направлении
25.07.2025 21:12:18 | Lenta.ru

Песни Пугачевой потребовали убрать из патриотических мероприятий
25.07.2025 21:12:17 | Lenta.ru

Представитель Китая в ООН обвинил США в разжигании конфликта на Украине
25.07.2025 21:06:22 | РЕН ТВ

Суд отправил в СИЗО экс-губернатора Тамбовской области Егорова по делу о взятке
25.07.2025 21:06:07 | Life.ru

"Крылья Советов" обыграли "Пари НН", забив два гола в добавленное ко второму тайму время
25.07.2025 21:05:27 | ТАСС

Траурный день объявили 26 июля в Саратове в связи со взрывом в многоквартирном доме
25.07.2025 21:03:33 | ТАСС

Полянский: В Киеве сейчас уничтожают бумаги, уличающие в растрате западных денег
25.07.2025 21:03:00 | Российская Газета

Умер певец Томми МакЛэйн
25.07.2025 21:02:02 | ТАСС

Сыгравший дядю Али в «Клоне» 93-летний актер захотел увеличить пенис
25.07.2025 21:01:03 | Lenta.ru

Фартук перекочевал из кухни в политику. Как женщины используют его в борьбе с мужчинами?
25.07.2025 21:00:53 | Lenta.ru

В Белграде заявили, что поддержат санкции против РФ при гарантиях членства в ЕС
25.07.2025 21:00:33 | ТАСС

По делу бывшего главы Тамбовской области арестовали посредников в даче взятки
25.07.2025 21:00:24 | ТАСС

Известный тиктокер ходил в школу пьяным
25.07.2025 20:59:57 | Lenta.ru

Разрушительный пожар на Кипре попал на видео
25.07.2025 20:59:22 | Lenta.ru

Мэр Энергодара: ВСУ активизировали удары по вышкам сотовой связи в городе
25.07.2025 20:58:32 | ТАСС

При крушении Ан-24 погибли два иностранца
25.07.2025 20:58:13 | РБК

В Харькове произошли взрывы во время митингов против Зеленского
25.07.2025 20:57:41 | Lenta.ru

Суд арестовал тамбовского экс-губернатора
25.07.2025 20:55:36 | РБК

Побит державшийся 39 лет рекорд России в беге на 100 метров
25.07.2025 20:54:20 | Lenta.ru

Европарламент собрался ускорить процесс отказа ЕС от российского газа
25.07.2025 20:54:00 | Lenta.ru

ТАСС: на сумском направлении уничтожили командира группы полка ССО
25.07.2025 20:53:27 | ТАСС

Создатель Call of Duty засудит читеров
25.07.2025 20:52:55 | Lenta.ru

Создатели Jurassic World Evolution 3 раскрыли подробности своего главного нововведения - системы размножения
25.07.2025 20:52:43 | PlayGround.ru

ТАСС: мобилизованных ВСУ заселяют в полузаброшенные здания
25.07.2025 20:52:07 | ТАСС

«Барьер для покупателей»: эксперт сравнил размер ключевой ставки в США, КНР и РФ
25.07.2025 20:50:46 | За рулем

Британский министр объяснил, почему в налоге на богатство нет волшебства
25.07.2025 20:49:20 | РБК

Самолет "Уральских авиалиний" совершил вынужденную посадку для проверки системы
25.07.2025 20:49:18 | ТАСС

От беседы до расчленения эмбриона: Психолог раскрыла, что будут включать в себя пртивоабортные курсы
25.07.2025 20:49:12 | Life.ru

На борту разбившегося в Приамурье Ан-24 были два иностранца
25.07.2025 20:48:40 | Life.ru

Reuters узнал о планах ЕС ускорить отказ от российского газа
25.07.2025 20:47:06 | РБК

Семья одного из погибших при взрыве в Саратове находилась в другом городе
25.07.2025 20:45:58 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro