GigaChat-3.1: Большое обновление больших моделей

info@vsetut.pro

Стать автором

Вернуться

24.03.2026 10:47:05 | Хабр

Хабы: Блог компании Сбер, Open source, Машинное обучение, Искусственный интеллект

В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.

Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.

Подробнее

Читайте также

Возможости современных моделей в разработке кода: кейс автоматического решения сложной проблемы
24.03.2026 10:46:50 | Хабр

Claude Code: маршрут обучения и полезные ресурсы vol.2 (2026)
24.03.2026 10:46:35 | Хабр

Скрытая съёмка в жанре POV: как мэнфлюенсеры зарабатывают на «умных» очках от Meta*
24.03.2026 10:41:11 | vc.ru

Обзор «Аметум ESB»
24.03.2026 10:24:39 | Хабр

Linux + видеокарты AMD в играх оказались лучше Windows 11. Как такое вообще возможно
24.03.2026 10:19:22 | Хабр

Производственный календарь в контексте разработки ПО
24.03.2026 10:16:06 | Хабр

Как в Авито построили систему мониторинга BGP
24.03.2026 10:13:03 | Хабр

FT2 — новый сверхскоростной формат QSO
24.03.2026 10:05:01 | Хабр

До 32 ГБ ОЗУ, Core Ultra 7: в М.Видео стартовали продажи HUAWEI MateBook GT 14
24.03.2026 10:00:08 | ferra.ru

От шутки к популярному продукту: история создания ИИ-фоторедактора и кейс победителя VK Dev Grants 2025
24.03.2026 09:53:50 | Хабр

Stable Diffusion XL: так ли сложно использовать локальную модель?
24.03.2026 09:48:16 | Хабр

Каждый чайник — личность. Заметки об интеграциях в Умном доме Сбер
24.03.2026 09:40:56 | Хабр

Минюст предложил ввести уголовную ответственность за незаконный майнинг криптовалют — «Ведомости»
24.03.2026 09:39:48 | vc.ru

Хаос в объектах: испытания Garage и SeaweedFS
24.03.2026 09:39:00 | Хабр

SOAR в действии: лучшие практики и реальные кейсы внедрения
24.03.2026 09:26:41 | Хабр

Если вы работаете с людьми и недосыпаете – пейте кофе
24.03.2026 09:20:56 | Хабр

3D-печать органов человека: патенты на изобретения
24.03.2026 09:19:05 | Хабр

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?
24.03.2026 09:18:18 | Хабр

В каждом JPEG зашита модель вашей сетчатки. Буквально
24.03.2026 09:17:13 | Хабр

СМИ: ИИ-смартфон Amazon «провалился», не добравшись до релиза
24.03.2026 09:16:34 | ferra.ru

Как адаптироваться на новой работе
24.03.2026 09:15:53 | Хабр

Делаем админку из подручных средств
24.03.2026 09:01:08 | Хабр

Россияне скупают по полмиллиона новых смартфонов каждую неделю
24.03.2026 09:00:57 | ferra.ru

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
24.03.2026 09:00:49 | Хабр

В России стартовали продажи realme 16 Pro и 16 Pro+ с 200 МП-камерой
24.03.2026 09:00:26 | ferra.ru

Бот для отправки графиков из Redash в Mattermost
24.03.2026 09:00:10 | Хабр

Почему Роспатент откажет: ошибка, из-за которой вы не запатентуете свою разработку
24.03.2026 08:55:51 | Хабр

Как навести порядок в Active Directory и защитить бизнес — инструкция для собственника
24.03.2026 08:45:56 | Хабр

День 1490: большинство малых и средних компаний в начале 2026 года столкнулись со снижением выручки и ростом налоговой нагрузки
24.03.2026 08:39:45 | vc.ru

Кассовый разрыв из‑за НДС на упрощенке
24.03.2026 08:34:21 | Хабр

Яндекс, ну почему так?
24.03.2026 08:27:52 | Хабр

Полный технический анализ MITM в клиенте Telega
24.03.2026 08:16:42 | Хабр

Почему JTBD, Octalysis и теория потребностей не работают по отдельности: системная оценка продукта
24.03.2026 08:14:13 | Хабр

Debug‑web: консольный отладчик для прода
24.03.2026 08:13:55 | Хабр

Заменить нельзя оставить: как DataLens мигрировал с Highcharts
24.03.2026 08:00:39 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

В челябинской школе дети встали на колени перед учителем с автоматом
24.03.2026 15:22:57 | Life.ru

В Подмосковье с 16-летней девочки потребовали 100-миллионный долг ее погибшего на СВО отца
24.03.2026 15:21:35 | Lenta.ru

Сын Игоря Золотовицкого рассказал о боли утраты спустя 40 дней после смерти отца
24.03.2026 15:20:48 | Life.ru

Появились кадры из взорвавшегося многоэтажного дома в Севастополе
24.03.2026 15:20:13 | Lenta.ru

Раскрыта судьба подавшего сигнал бедствия бомбардировщика США
24.03.2026 15:18:13 | Lenta.ru

Иран объявил имя нового секретаря Высшего совета национальной безопасности
24.03.2026 15:18:00 | Российская Газета

В Москве наступил «мапрель»
24.03.2026 15:16:23 | Lenta.ru

Какие страны-импортеры нефти больше всего затронул кризис на Ближнем Востоке
24.03.2026 15:16:00 | Российская Газета

Арабы подделали паспорта ради поездки мечты и были пойманы на посадке в самолет
24.03.2026 15:15:19 | Lenta.ru

Рыси атаковали российские регионы и попали на видео
24.03.2026 15:14:57 | Lenta.ru

Ливан объявил посла Ирана персоной нон грата и отозвал своего посла из Тегерана
24.03.2026 15:14:00 | Российская Газета

Phileleftheros: Кипр добивается постепенного вывода с острова британских баз
24.03.2026 15:13:22 | ТАСС

Посольство Ирана: таиландское судно прошло через Ормузский пролив
24.03.2026 15:13:18 | ТАСС

The Express Tribune: Пакистан намерен стать посредником в установлении мира
24.03.2026 15:12:36 | ТАСС

Зеленский допустил продолжение конфликта ещё на три года
24.03.2026 15:12:21 | Life.ru

Наушники с ИИ от "Яндекса" находятся на этапе финального тестирования
24.03.2026 15:12:11 | ТАСС

"Яндекс go" введет фотоконтроль против аренды самокатов несовершеннолетними
24.03.2026 15:11:02 | ТАСС

Жителя Архангельска осудили за шпионаж и госизмену
24.03.2026 15:10:16 | ТАСС

В Москве задерживаются трамваи четырех маршрутов
24.03.2026 15:09:35 | ТАСС

Туск раскритиковал Навроцкого за поездку в Будапешт
24.03.2026 15:09:18 | ТАСС

Раскрыта стоимость позолоченной трости Аллы Пугачевой
24.03.2026 15:09:00 | Lenta.ru

Захарова назвала Зеленского прибежищем демонов и бесов
24.03.2026 15:08:57 | Lenta.ru

Ростехнадзор выявил 290 нарушений на объектах компании "Кузбассэнерго"
24.03.2026 15:08:50 | ТАСС

"Ведомости": профессия оператор дронов может стать одной из самых востребованных
24.03.2026 15:08:46 | ТАСС

Путин примет участие в церемонии вручения премий для молодых деятелей культуры
24.03.2026 15:08:26 | ТАСС

Российские войска поразили завод по производству систем наведения для ракет и БПЛА ВСУ
24.03.2026 15:08:00 | Lenta.ru

Уровень безопасности полетов "Аэрофлота" вырос до 99,982% в 2025 году
24.03.2026 15:07:33 | ТАСС

Nikoliers: на рынок РФ в 2026 году могут выйти около 25 новых брендов
24.03.2026 15:07:22 | ТАСС

В Нижнем Новгороде потушили крупный пожар в здании автосервиса
24.03.2026 15:07:07 | ТАСС

Постпредство Ирана при ООН заявило об экоциде после ударов по нефтехранилищам
24.03.2026 15:06:35 | ТАСС

Матвиенко призвала театры не гнаться за «хайпом» и сохранять традиции
24.03.2026 15:05:59 | Life.ru

Матвиенко призвала театры не гнаться за «дешёвым хайпом» и сохранять традиции
24.03.2026 15:05:59 | Life.ru

Литовский боец ММА вышел на поединок под гимн СССР
24.03.2026 15:05:52 | Lenta.ru

Стало известно о решительных планах Трампа на Иран
24.03.2026 15:05:27 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro