ruGPT3XL идёт в качалку / поднимаем контекст до 8k

info@vsetut.pro

Стать автором

Вернуться

02.04.2026 10:24:53 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Python, Занимательные задачки, История IT

Это продолжение предыдущей публикации про реставрацию ruGPT3XL. Для тех кто не читал, кратенько, я конвертировал древний Megatron-LM чекпоинт в HuggingFace-формат, залил веса на HF, накатил поддержку GGUF в llama.cpp и подумал, что всё. Но нет.

По ходу тестов, проведённых разными людьми удалось выявить ряд недоработок, которые я по мере обнаружения правил, ну а после того, как удалось получить стабильную и рабочую версию мне захотелось решить одну старую проблему, которая меня в ruGPT3 моделях очень беспокоила, это проблема маленького контекста в смешные 2k токенов.

Решил поднять контекст до 8k.

Подробнее

Читайте также

Книга: «Интервью по машинному обучению. 151 вопрос от FAANG»
02.04.2026 10:23:24 | Хабр

День 1499: за первые два месяца 2026-го ВВП России сократился на 1,8% год к году
02.04.2026 10:01:39 | vc.ru

Kawai-Focus 2.5: сборка и упаковка Tauri-приложения (Windows + Arch Linux, AUR)
02.04.2026 09:59:49 | Хабр

Тимлид в эпоху ИИ: кто он и почему одного крутого кода недостаточно
02.04.2026 09:57:04 | Хабр

1500 откликов за 30 дней — эксперимент. День 1
02.04.2026 09:55:14 | Хабр

[Перевод] Не всё трафику одинаково: QoS в OpenStack Neutron
02.04.2026 09:53:02 | Хабр

IT бизнес по-русски
02.04.2026 09:52:21 | Хабр

Стейкхолдер-менеджмент — это аналитический навык. Мне просто никто об этом не сказал
02.04.2026 09:51:17 | Хабр

Well-being в IT: почему корпоративная йога не спасёт, если процессы сломаны
02.04.2026 09:48:10 | Хабр

Flutter-дайджест: март 2026
02.04.2026 09:45:41 | Хабр

Как мы интегрировали «Автосборку» с Maven-репозиторием
02.04.2026 09:43:16 | Хабр

Часы с наушниками внутри Huawei Watch Buds 2 выйдут уже в этом месяце
02.04.2026 09:35:55 | ferra.ru

[Перевод] «Птичьи мозги»
02.04.2026 09:26:59 | Хабр

Как металлообрабатывающий завод ускорил выполнение задач в 3 раза с помощью Кайтена и ChatGPT
02.04.2026 09:00:57 | Хабр

AI пишет код быстрее, а архитектура не успевает: три направления работы Go-команд сегодня
02.04.2026 09:00:45 | Хабр

Полный анализ целевой аудитории через нейросети за 2 часа
02.04.2026 09:00:37 | Хабр

4 новые нормы в карьере: как меняется рынок труда и что делать?
02.04.2026 08:57:57 | Хабр

Компонент-обработчик ограничения скорости обработки запросов в ASP.NET Core
02.04.2026 08:53:02 | Хабр

Статья, в которой я рассуждаю о разных видах code review
02.04.2026 08:47:03 | Хабр

PageIndex: замена векторному поиску в RAG?
02.04.2026 08:42:51 | Хабр

Как мы пережили цветовой кризис в RuStore и нашли путь к тёмной стороне темы
02.04.2026 08:38:34 | Хабр

От CUDA до Token Factory и Vera Rubin: самое главное с NVIDIA GTC 2026
02.04.2026 08:31:39 | Хабр

NASA успешно запустило миссию «Артемида-2» — первый пилотируемый полёт к Луне с 1972 года
02.04.2026 08:27:44 | vc.ru

ИИ-ассистент для крупного бизнеса. Как собрать обучающие курсы из вашей базы знаний
02.04.2026 08:27:37 | Хабр

Микросервис потоковой конвертации видео (Python, FFmpeg)
02.04.2026 08:00:03 | Хабр

Оптимизация Flutter-приложения: списки, build() и утечки памяти
02.04.2026 07:59:16 | Хабр

Wildberries купил «Ситимобил», «Таксовичкоф» и «Грузовичкоф» — сумму сделки не раскрыли
02.04.2026 07:56:25 | vc.ru

Типичные ошибки новичков в FPGA: от выбора платы до неинтуитивных кнопок
02.04.2026 07:46:41 | Хабр

[Перевод] Как связаны между собой красное смещение, температура, расстояние и время?
02.04.2026 07:40:50 | Хабр

[Перевод] Ускоряем игру «Жизнь» с помощью CUDA / Triton
02.04.2026 07:39:43 | Хабр

Razer выпустила раздельную клавиатуру с отдельной кнопкой под ИИ
02.04.2026 07:35:54 | ferra.ru

Шумовое загрязнение: когда звук становится опаснее выхлопных газов
02.04.2026 07:31:38 | Хабр

Каминг аут маркетолога: последние 25 лет маркетинга: как мы потерялись?
02.04.2026 07:27:32 | Хабр

Голубь нажимает кнопку. Мы обновляем почту. Разница меньше, чем кажется
02.04.2026 07:22:18 | Хабр

Даёшь самоуправление! Управляем конфигурацией HashiСorp Vault изнутри, опираясь на Git и кворум подписей
02.04.2026 07:17:53 | Хабр

Смотреть все

НОВОСТИ

Экс-глава Курской области Смирнов объяснил причину взяточничества
02.04.2026 15:23:51 | ТАСС

В Поморье попросили водителей отсмотреть записи регистраторов для поиска девочки
02.04.2026 15:23:32 | ТАСС

В Тверской области объем отгрузки промышленной продукции вырос на 13,5% за год
02.04.2026 15:23:13 | ТАСС

Сотрудник российского производства заработал три тысячи рублей и уголовное дело
02.04.2026 15:22:47 | Lenta.ru

Крупный нефтеэкспортер нашел альтернативу Ормузскому проливу
02.04.2026 15:22:36 | Lenta.ru

Девочка хотела поймать на видео лепрекона и сняла медведицу с детенышами
02.04.2026 15:22:27 | Lenta.ru

Правительство Японии хочет в мае отправить в Россию экономическую делегацию
02.04.2026 15:22:17 | ТАСС

Украина пожаловалась МОК на российских спортсменов
02.04.2026 15:22:07 | Lenta.ru

«Я умираю от желания!»: Появилось видео с возможным местом казни террористов в Израиле
02.04.2026 15:21:53 | Life.ru

Стало известно о недовольстве Трампа главой Нацразведки США из-за Ирана
02.04.2026 15:21:12 | Lenta.ru

Цивилева посетила в сквере ТАСС выставку, посвященную работе фонда "Защитники Отечества"
02.04.2026 15:20:39 | ТАСС

"Домклик": квартиры в российских домах с лифтами в среднем на 47% дороже
02.04.2026 15:20:34 | ТАСС

Пушилин прибыл в Абхазию для участия в экономическом форуме
02.04.2026 15:20:02 | ТАСС

Экономист Цао: кризис в Ормузском проливе подрывает фундамент нефтедоллара
02.04.2026 15:19:48 | ТАСС

«Россия не потерпит!»: Зеленский выставил требование, которые разрушает шансы на мир
02.04.2026 15:19:32 | Life.ru

«Россия не потерпит!» Зеленский выставил требование, которое разрушает шансы на мир
02.04.2026 15:19:32 | Life.ru

Пятерых подростков в Москве заподозрили в поджогах и покушениях по указке мошенников
02.04.2026 15:19:20 | Коммерсантъ

В Иране заявили, что 7 млн граждан готовы защищать свою страну с оружием в руках
02.04.2026 15:19:09 | ТАСС

Экс-губернатор Курской области заявил, что брал взятки из-за контузии
02.04.2026 15:19:06 | Life.ru

На полярной станции "Прогресс" появилось самое северное в мире граффити
02.04.2026 15:19:02 | ТАСС

В ВРП Мурманской области доля туризма выросла в два раза за 10 лет
02.04.2026 15:18:29 | ТАСС

МЭР прогнозирует рост числа авиарейсов между РФ и КНР более чем в три раза к 2030 году
02.04.2026 15:18:20 | ТАСС

В "Императорский маршрут" планируют войти еще четыре региона
02.04.2026 15:17:34 | ТАСС

«Идёт процесс гниения»: Россиянам объяснили, почему важно смотреть рыбе в глаза
02.04.2026 15:17:02 | Life.ru

В Калуге два человека получили ранения при падении обломков БПЛА
02.04.2026 15:16:40 | Коммерсантъ

В хранящей замороженные российские активы стране признались в отсутствии денег
02.04.2026 15:16:36 | Lenta.ru

Раскрыта судьба платившего зарплату отцу «золотого полковника» Захарченко банкира
02.04.2026 15:16:19 | Lenta.ru

Пострадавшие от последствий ЧС в Дагестане получат выплаты в ближайшие дни
02.04.2026 15:16:18 | ТАСС

Стоимость билетов на Матч года составит от 1 290 до 13 990 рублей
02.04.2026 15:16:08 | ТАСС

Жильцы дома в Уфе рассказали, что в квартире в эпицентре взрыва никого не было
02.04.2026 15:15:35 | ТАСС

Ростех создал аэростат мобильной связи
02.04.2026 15:15:34 | ТАСС

В Ростовской области могут создать около 12 тыс. рабочих мест для ветеранов СВО
02.04.2026 15:15:22 | ТАСС

Минниханов: в Татарстане необходимо построить 1,5 ГВт генерирующих мощностей
02.04.2026 15:15:17 | ТАСС

Правящая в Сербии партия предложит Вучичу стать кандидатом в премьеры на выборах
02.04.2026 15:15:10 | ТАСС

ТАСС: уничтоженного на Сумщине солдата ВСУ записали в "пропавших без вести"
02.04.2026 15:14:59 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro