Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

10.03.2026 13:46:06 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Python

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку.

Вскрыть Трансформер

Подробнее

Читайте также

Как я начал создавать медицинские изделия, ч.4
10.03.2026 13:44:58 | Хабр

Александр Алексеев: Искусственный интеллект в инвестициях ВТБ — это не будущее, а уже настоящее
10.03.2026 13:38:01 | it-world

Как за 22 часа я собрала полноценный UI-прототип корпоративной системы с помощью ИИ
10.03.2026 13:30:00 | Хабр

РКН отказался комментировать ограничения мобильного интернета в Москве, в Кремле связали их с «обеспечением безопасности»
10.03.2026 13:28:49 | vc.ru

Создание библиотеки на C++: Теги, признаки и концепции. Часть II
10.03.2026 13:19:40 | Хабр

Подходы к разработке в пост-ИИ эпоху
10.03.2026 13:16:02 | Хабр

Как аналитику 1С почувствовать себя Сеньором
10.03.2026 13:16:00 | Хабр

Запускаем Tetris на домашнем роутерe
10.03.2026 13:01:58 | Хабр

Почему мы запретили нашему агенту работать 24/7
10.03.2026 13:01:16 | Хабр

Гайд по быстрому мониторингу Linux-хостов в Grafana без Zabbix
10.03.2026 13:00:58 | Хабр

Кейс разработки: интеграционная платформа BRAIN ERM
10.03.2026 13:00:22 | Хабр

Генератор на угольном микрофоне
10.03.2026 12:45:55 | Хабр

Удалёнка — не проблема: н̶е̶любовь к компании на расстоянии
10.03.2026 12:29:17 | Хабр

Выбираем таск-менеджер: топ-11 личных и командных сервисов 2026 года
10.03.2026 12:18:30 | Хабр

[Перевод] В 1985 году компания Maxell создала множество роботов в натуральную величину для своей неудачной рекламы дискет
10.03.2026 12:17:51 | Хабр

От OCR до ADE: как машины научились не просто читать, а понимать документы
10.03.2026 12:15:49 | Хабр

Как реализовать WebSocket на Android и не сойти с ума
10.03.2026 12:06:55 | Хабр

Как оформить юридически предоставление платной подписки на Telegram-канал?
10.03.2026 12:03:27 | Хабр

Узбекистанский ИТ-холдинг Uzum привлёк $131,5 млн при оценке в $2,3 млрд
10.03.2026 12:01:50 | vc.ru

Оркестрация ИИ-агентов в 2026: как 3 агента заменили отдел из 5 человек (кейс российской компании)
10.03.2026 12:01:31 | Хабр

Advisory locks в PostgreSQL: распределённая блокировка без Redis, которая у вас уже есть
10.03.2026 11:59:27 | Хабр

Школьная математика против цифрового бессмертия сайдлоадинга
10.03.2026 11:40:11 | Хабр

Ресурсное планирование: как я пытался разобраться, почему сдвигаются сроки по проектам
10.03.2026 11:38:26 | Хабр

Как мы вывели междисциплинарные инструменты из тени. Опыт ПИК Digital
10.03.2026 11:37:33 | Хабр

Дыра в бизнесе (churn), которую почти никто не видит
10.03.2026 11:35:49 | Хабр

Платформа для 50000 приложений: как собрать инфраструктуру и выжить
10.03.2026 11:30:45 | Хабр

Что такое OpenUSD, или Как подружить Blender и Git
10.03.2026 11:30:44 | Хабр

AI-продакт и результат: как рождаются продукты, которые приносят деньги
10.03.2026 11:28:37 | Хабр

Околоенотная грамота, или Как я создавал генератор паролей
10.03.2026 11:14:47 | Хабр

Россиянам не обязательно разговаривать с ИИ
10.03.2026 11:14:28 | it-world

Поиск и удаление дублей файлов на компьютере при помощи 1С
10.03.2026 11:11:22 | Хабр

Кабмин готовит новые правила оплаты электроэнергии для дата-центров и майнинга
10.03.2026 10:56:40 | it-world

Методика определения ложноположительных алертов через обратный «утиный тест» (reverse «duck test»)
10.03.2026 10:53:08 | Хабр

Как я заменил таск-трекер на Obsidian + Claude Code и перестал вести доски руками
10.03.2026 10:45:40 | Хабр

В фокусе RVD: трендовые уязвимости февраля
10.03.2026 10:40:38 | Хабр

Смотреть все

НОВОСТИ

Ynet: Армия Израиля приведена в готовность на случай продолжения конфликта с Ираном
12.04.2026 17:07:47 | ТАСС

ЮАР до конца года не будет участвовать в работе G20
12.04.2026 17:04:29 | ТАСС

Дмитриев: топливные протесты в ЕС и Британии только начинаются
12.04.2026 17:03:16 | ТАСС

Брат главы Башкирии погиб в ДТП
12.04.2026 17:02:42 | ТАСС

«Наступает новая эра». В Венгрии зафиксировали рекордную явку на выборах. Ставки на поражение Орбана растут
12.04.2026 17:01:00 | Lenta.ru

Мирра Андреева выиграла турнир WTA в Линце
12.04.2026 17:00:32 | ТАСС

Белоруска, которая лечила наложниц в гареме султана: история первого врача Речи Посполитой
12.04.2026 17:00:00 | Life.ru

Москалькова рассказала о помощи эвакуированным украинцам
12.04.2026 16:59:03 | РБК

Трамп обвинил Иран в нарушении обещания
12.04.2026 16:57:49 | Lenta.ru

Песков считает, что страны ЕС будут создавать собственный оборонный альянс
12.04.2026 16:56:38 | ТАСС

От Калининграда до Сахалина: как в России встретили Пасху. Фоторепортаж
12.04.2026 16:55:24 | РБК

В ЮАО Москвы по программе реновации в новые дома переехали более 5,7 тыс. семей
12.04.2026 16:55:03 | ТАСС

В Петропавловской крепости показали передовые космические разработки
12.04.2026 16:55:00 | ТАСС

Песков призвал Британию привыкнуть к росту счетов «из-за Путина и Трампа»
12.04.2026 16:54:36 | РБК

В Венгрии опубликовали план оппозиции по организации "майдана" в Будапеште
12.04.2026 16:53:00 | Российская Газета

В Подмосковье администрация не даёт семье выкупить участок под своим домом
12.04.2026 16:52:40 | Life.ru

Челестини надеется, что Акинфеев сыграет за ЦСКА в следующем матче
12.04.2026 16:51:25 | ТАСС

Cumhuriyet: сыгравшую в "Зимородке" актрису Бозок задержали по делу о наркотиках
12.04.2026 16:51:02 | ТАСС

Тренер ЦСКА Челестини отметил желание Мойзеса помогать команде
12.04.2026 16:50:06 | ТАСС

ЦСКА дома уступил «Сочи» в матче 24-го тура РПЛ
12.04.2026 16:49:57 | Life.ru

«Росатом» изучит увеличение мощности будущей АЭС на Луне
12.04.2026 16:49:50 | РБК

ЦСКА выиграл внутрисезонный турнир Единой лиги ВТБ
12.04.2026 16:49:18 | Lenta.ru

Сын президента Уганды потребовал у Эрдогана миллиард долларов и жену-красавицу
12.04.2026 16:48:00 | Российская Газета

"Геоскан" начнет разрабатывать сверхлегкую ракету в 2026 году
12.04.2026 16:47:53 | ТАСС

Алексанлр Большунов выиграл лыжный марафон классическим стилем на ЧР
12.04.2026 16:47:23 | Life.ru

Александр Большунов выиграл лыжный марафон классическим стилем на ЧР
12.04.2026 16:47:23 | Life.ru

Мать пропавшего Героя России Асылханова рассказала подробности о сыне
12.04.2026 16:47:12 | Lenta.ru

Reuters узнал о планах США бороться с «родильным туризмом»
12.04.2026 16:47:03 | РБК

Золотой запал // Чистые вложения в золото за неделю составили $3,5 млрд
12.04.2026 16:45:33 | Коммерсантъ

МИД Чехии дистанцировался от высказываний президента страны в адрес Трампа
12.04.2026 16:44:41 | ТАСС

Белорусы лидировали в синхронных прыжках на батуте в Португалии
12.04.2026 16:43:00 | Российская Газета

Тянуло на место преступления: Что делал экс-премьер Британии Джонсон на Украине
12.04.2026 16:42:00 | Российская Газета

Явка на выборах в Венгрии достигла нового рекорда
12.04.2026 16:41:49 | РБК

«Это принуждение»: В США резко высказались о переговорах в Исламабаде
12.04.2026 16:39:45 | Life.ru

Буданов анонсировал некое триггерное для Украины событие
12.04.2026 16:37:47 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro