[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

28.07.2025 11:00:01 | Хабр

Хабы: Data Mining, Искусственный интеллект, Машинное обучение, Big Data, Data Engineering

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.

Читать далее

Подробнее

Читайте также

[Перевод] [Перевод] Поиск способов закрепления в Linux (Часть 3). Systemd, таймеры и Cron
28.07.2025 10:58:01 | Хабр

Книга: «ChatGPT сделай мне сайт»
28.07.2025 10:38:07 | Хабр

«Ростелеком» запустил витрину с играми и возможностью пополнения Steam
28.07.2025 10:36:41 | it-world

Астронавт приготовил "космический жареный рис кимчи" на орбите
28.07.2025 10:30:30 | ferra.ru

«Инвестпривлекательность отрасли не самая высокая»: глава «Роскосмоса» — о сотрудничестве с частным бизнесом, конкуренции с Китаем и США и перспективах полёта на Марс
28.07.2025 10:16:03 | vc.ru

Немного о культуре монтажа СКС: как отличить грамотный монтаж СКС от «халтуры»
28.07.2025 10:12:18 | Хабр

Топ-5 проблем цифровизации
28.07.2025 10:09:40 | Хабр

Быстрый путь в Маркет Битрикс24. Размещаем приложение без серверов
28.07.2025 10:00:48 | Хабр

О сущности сознания
28.07.2025 09:57:55 | Хабр

Как @empty в Angular упрощает работу с пустыми коллекциями
28.07.2025 09:56:45 | Хабр

Появились рендеры бюджетного Xiaomi Redmi 15
28.07.2025 09:45:28 | ferra.ru

«Глонасс» выводит на рынок первый российский сим-чип для транспорта и дронов
28.07.2025 09:44:02 | it-world

Глава ComEd призывает к регулированию ИИ, чтобы предотвратить рост счетов за электроэнергию
28.07.2025 09:38:11 | it-world

Как не дать фундаменту треснуть: защита данных в 1С
28.07.2025 09:24:25 | Хабр

Роскосмос создаст возвращаемую ступень ракеты за два года
28.07.2025 09:15:45 | ferra.ru

Прозрачность QA для заказчика: как TMS помогает в аутсорсе
28.07.2025 09:03:36 | Хабр

AGI математически невозможен, но хайп уже не остановить
28.07.2025 09:01:35 | Хабр

Как меняется рынок и зачем нужны конференции по Ai
28.07.2025 09:00:32 | Хабр

Смартфон Oppo Reno14 FS утёк в сеть: характеристики, фото и цена до анонса
28.07.2025 09:00:25 | ferra.ru

Лиса Алиса и Кот Базилио на стартап-охоте. Как масштабировать B2B продажи?
28.07.2025 08:53:53 | Хабр

Haier представила человекоподобного робота-домработника HIVA
28.07.2025 08:39:19 | ferra.ru

Инсайдер раскрыл внешний вид Galaxy S26 Ultra с совершенно новым дизайном камеры
28.07.2025 08:32:18 | ferra.ru

Redmi 15 (4G) получит 108-Мп камеру, аккумулятор с автономностью в неделю и ценник всего в €185
28.07.2025 08:25:17 | ferra.ru

Недельный геймдев: #236 — 27 июля, 2025
28.07.2025 08:22:49 | Хабр

Читатели GSMArena назвали OnePlus Nord CE5 «худшим смартфоном лета»
28.07.2025 08:18:17 | ferra.ru

Activision назвала создателей читов для Call of Duty «паразитами» и подала в суд
28.07.2025 08:15:23 | ferra.ru

У «Аэрофлота» сбой в работе информсистем — компания предупредила о корректировках в расписании
28.07.2025 08:11:44 | vc.ru

Президент Xiaomi объявил флагманский Xiaomi 16 Ultra «королем мобильной фотографии»
28.07.2025 08:11:16 | ferra.ru

Роботизация складов: анатомия провала за 25 миллионов рублей
28.07.2025 08:07:34 | Хабр

LuaJIT: что делает его таким производительным и почему вам стоит его попробовать
28.07.2025 08:04:46 | Хабр

Окно в терминальной стадии
28.07.2025 08:04:28 | Хабр

Расширение jsquery для PostgreSQL — точные и быстрые выборки из JSONB
28.07.2025 08:00:24 | Хабр

Spring Tips: Аннотация @Lazy
28.07.2025 08:00:22 | Хабр

Китайский ответ AMD EPYC: компания Zhaoxin показала серверный CPU KH-5000 с 96 ядрами, PCIe 5.0 и DDR5
28.07.2025 07:57:15 | ferra.ru

День 1251: в Пхеньяне приземлился первый прямой авиарейс из Москвы; численность российских быстрорастущих компаний сохранила положительную динамику в 2024 году
28.07.2025 07:56:21 | vc.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Доходы фронтмена «Мумий Тролля» в России выросли до почти 40 млн рублей после отъезда
09.03.2026 09:07:46 | Life.ru

Водителей предупредили о штрафе до 15 тысяч из-за незаметной пометки в правах
09.03.2026 09:00:26 | Life.ru

BNA: на объекте близ столицы Бахрейна из-за иранского удара произошел пожар
09.03.2026 09:00:00 | ТАСС

"Благодаря ему я влюбилась в космос": молодежь из разных стран — о Юрии Гагарине
09.03.2026 09:00:00 | ТАСС

Анестезист о службе на СВО: женщина в полевом госпитале — прежде всего медик
09.03.2026 09:00:00 | ТАСС

Птичье потенье 9 марта: какие приметы помогут привлечь счастье и богатство в дом
09.03.2026 09:00:00 | Life.ru

Назван самый популярный вид вклада у россиян
09.03.2026 08:59:14 | Lenta.ru

В Японии выступили с тревожным для США прогнозом
09.03.2026 08:59:00 | Lenta.ru

Трамп прокомментировал избрание нового верховного лидера Ирана
09.03.2026 08:58:43 | РБК

Над Курской областью сбили более 20 беспилотников ВСУ за сутки
09.03.2026 08:58:39 | ТАСС

G7 экстренно обсудит возможное использование запасов нефти
09.03.2026 08:57:16 | РБК

В Минске оценили возможность организации перелетов в США
09.03.2026 08:57:00 | Российская Газета

Лыжница Ордина: Россия развивается и расцветает, а Швеция в упадке
09.03.2026 08:57:00 | Российская Газета

Армия Израиля заявила об ударах по месту производства ракетных двигателей в Иране
09.03.2026 08:56:40 | ТАСС

Российским отелям советуют не селить китайцев на «несчастный» четвёртый этаж
09.03.2026 08:54:57 | Life.ru

США приказали госслужащим покинуть Саудовскую Аравию
09.03.2026 08:54:00 | Российская Газета

Пугачеву могут лишить товарного знака в России
09.03.2026 08:53:15 | Lenta.ru

Кучерова признали третьей звездой игрового дня в НХЛ
09.03.2026 08:52:57 | ТАСС

Пусковая установка MLRS и расчёт солдат ВСУ уничтожены двумя ракетами под Харьковом
09.03.2026 08:52:48 | Life.ru

Скандала не будет. В титрах Marathon указана художница, работы которой использовали без разрешения
09.03.2026 08:52:37 | PlayGround.ru

Российские дипломаты в Мьянме помгли пассажирам рейса Azur Air Тюмень - Нячанг
09.03.2026 08:49:41 | ТАСС

В Калужской области наложили арест на имущество должностных лиц
09.03.2026 08:49:19 | ТАСС

Девять детей отправились в больницу после посещения бассейна в российском городе
09.03.2026 08:49:00 | Lenta.ru

"По сути, это ПК": по слухам, Xbox Project Helix будет только "эмулировать" работу консоли
09.03.2026 08:48:18 | PlayGround.ru

Руководитель Microsoft заверяет игроков, что компания продолжит поддерживать и развивать Xbox
09.03.2026 08:42:52 | PlayGround.ru

Новый российский дрон-перехватчик «Ёлка» неуязвим для РЭБ
09.03.2026 08:42:47 | Life.ru

FT: главы Минфинов G7 обсудят возможное совместное использование запасов нефти
09.03.2026 08:41:33 | ТАСС

FT: главы Минфинов G7 экстренно обсудят возможное использование запасов нефти
09.03.2026 08:41:33 | ТАСС

Сотрудники ТЦК остановили депутата Рады, парламентарию озвучили сумму взятки
09.03.2026 08:41:00 | Российская Газета

Претендент на звание лучшего камерофона 2026 года. Инсайдер раскрыл все характеристики камеры Vivo X300 Ultra
09.03.2026 08:41:00 | iXBT.com

«РИА Новости»: самые высокие средние зарплаты в России получают управляющие фондами
09.03.2026 08:40:54 | Коммерсантъ

В аэропортах Красноярска, Омска и Новосибирска задерживаются рейсы
09.03.2026 08:39:41 | ТАСС

Звезда "Фуриосы" и "Дюны" Аня Тейлор-Джой может сыграть главную женскую роль в новом фильме "Властелин колец"
09.03.2026 08:38:55 | PlayGround.ru

В Demon Slayer: Kimetsu no Yaiba - The Hinokami Chronicles 2 добавят Гию Томиоку из "Бесконечного замка"
09.03.2026 08:38:27 | PlayGround.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro