[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

12.01.2026 11:35:22 | Хабр

Хабы: Блог компании OTUS, Машинное обучение, Искусственный интеллект, Высоконагруженные системы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву.

Как это устроено

Подробнее

Читайте также

Юнит-экономика простыми словами — остановитесь посчитать
12.01.2026 11:32:24 | Хабр

[Перевод] Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд
12.01.2026 11:30:52 | Хабр

Копирование формул из Википедии в Word
12.01.2026 11:21:51 | Хабр

Подходы к state management в React
12.01.2026 11:16:12 | Хабр

[Перевод] Как банк использовал события компенсации в Camunda
12.01.2026 11:00:46 | Хабр

Косметика с кислотой: тонкая грань между «работает» и «сжигаем нафиг кожу»
12.01.2026 11:00:46 | Хабр

Xiaomi впервые попала в ТОПы рынка Android-процессоров в Китае
12.01.2026 10:54:45 | ferra.ru

Маркировка рекламы: теория, случаи из практики и штрафы
12.01.2026 10:36:50 | Хабр

Mock API для QA: Mockoon + ngrok
12.01.2026 10:20:42 | Хабр

Мне страшно возвращаться на работу
12.01.2026 10:09:50 | Хабр

Go: сборщик мусора там, где его не ждут
12.01.2026 10:07:39 | Хабр

Топ-10 инструментов для управления лог-файлами в 2026 году
12.01.2026 10:01:35 | Хабр

ФАС возбудила дело против VK из-за распространения мошеннической рекламы
12.01.2026 10:01:13 | vc.ru

В Индии предложили обязать производителей смартфонов раскрывать их исходный код
12.01.2026 09:45:33 | vc.ru

Тестирую Nano Banana на реальной UX-задаче → создать workspace и пригласить коллегу (B2B SaaS)
12.01.2026 09:18:42 | Хабр

Шерлок Холмс и квантовая запутанность: Ролевое моделирование с «неэкспертными» экспертами
12.01.2026 09:17:13 | Хабр

Практика по исправлению рекурсивных импортов во фронтенд приложении
12.01.2026 09:03:14 | Хабр

Будущее дронов: встроенный ИИ
12.01.2026 09:01:25 | Хабр

Как я победил «дрейф контрактов» между бэкендом и тремя клиентами: OpenAPI → SDK → Zod
12.01.2026 09:00:24 | Хабр

О совершенной реализации
12.01.2026 09:00:24 | Хабр

Как фракталы преобразили подходы в математике и других науках
12.01.2026 08:58:12 | Хабр

Перестань вайбкодить: почему «разработка на расслабоне» убьет твою карьеру
12.01.2026 08:53:11 | Хабр

Как протестировать собственный контроллер памяти SDRAM на FPGA
12.01.2026 08:50:20 | Хабр

Как российские инженеры создали для космоса машину, которая печатает идеальные кристаллы, и почему на Земле так не получится
12.01.2026 08:45:00 | ferra.ru

Зелёный свет для IoT: как умные устройства управляют дорогами
12.01.2026 08:27:46 | ferra.ru

День 1419: правительство продлило упрощённый порядок ввоза электроники в Россию до конца 2026 года
12.01.2026 08:18:44 | vc.ru

Lunnen Outer 16: Яндекс выпустил неожиданно добротный 16″ ноутбук среднего уровня для работы
12.01.2026 08:18:20 | ferra.ru

System.gc() и Великий Фильтр: термодинамика российского IT. Конец эпохи Туристов
12.01.2026 08:18:17 | Хабр

Как запустить 4 независимые нейросети на одном GPU (16 ГБ) под FastAPI
12.01.2026 08:11:52 | Хабр

Основы производственной этики для IT-специалистов
12.01.2026 08:11:15 | Хабр

Недельный геймдев: #260 — 11 января, 2026
12.01.2026 08:10:03 | Хабр

Грохот, который узнают за десятки километров: легенда Ан-22
12.01.2026 08:01:14 | Хабр

[Перевод] Как создавать AI-агентов на практике: полное руководство по Claude Agent SDK
12.01.2026 07:31:04 | Хабр

Строковые ресурсы для больших систем
12.01.2026 07:17:59 | Хабр

Инновации в индустрии гостеприимства: как архитектура незаметно формирует опыт гостя
12.01.2026 07:05:57 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

NYT: В ходе операции в Эквадоре военные США действуют в качестве советников
04.03.2026 15:22:00 | Российская Газета

Не хочет оставаться пассивной: Польша заявила о планах получения ядерного оружия
04.03.2026 15:20:00 | Российская Газета

Осуждённый на 11 лет блогер Наки* стал фигурантом нового уголовного дела
04.03.2026 15:18:38 | Life.ru

SHOT: Владельцам японских машин в России грозит нехватка запчастей из ОАЭ
04.03.2026 15:18:00 | Российская Газета

Белоусов поздравил военных РФ, освободивших Веселянку в Запорожье
04.03.2026 15:17:40 | ТАСС

Эксперт Васюкова: каждый десятый первоклассник в России имеет ожирение
04.03.2026 15:17:39 | ТАСС

С начала цифрового контроля через границу РФ не пропустили более 50 тыс. мигрантов
04.03.2026 15:17:11 | ТАСС

Разработчик назвал преимущество антидроновой «Елки»
04.03.2026 15:16:41 | Lenta.ru

МВД: совершивших криминальные деяния могут обязать трудоустраиваться
04.03.2026 15:15:58 | ТАСС

Глава Адыгеи считает обновление домов культуры частью работы по развитию села
04.03.2026 15:15:56 | ТАСС

Писарев: Россия не отдаст белого медведя японскому зоопарку в обмен на капибар
04.03.2026 15:15:51 | Life.ru

На блогера Майкла Наки завели дело за публичные призывы к действиям против РФ
04.03.2026 15:15:50 | ТАСС

Мединский предложил создать любительский шахматный турнир имени Говорухина
04.03.2026 15:15:48 | ТАСС

Колокольцев: в РФ повысилась эффективность раскрытия киберпреступлений
04.03.2026 15:15:27 | ТАСС

Захарова: йеменские хуситы готовы к боевым действиям против Израиля в защиту Ирана
04.03.2026 15:14:49 | ТАСС

В РФ в 2025 году заблокировали 550 сайтов со способами изготовления оружия
04.03.2026 15:14:43 | ТАСС

В Нальчике во Дворце творческой молодежи появится филиал центра "Россия"
04.03.2026 15:14:22 | ТАСС

МВД выявило более 60 финансовых пирамид в 2025 году
04.03.2026 15:14:19 | ТАСС

Церемонию прощания с Хаменеи пришлось отложить
04.03.2026 15:14:16 | Life.ru

Захарова: удары Ирана по танкерам уже привели к экологическим проблемам
04.03.2026 15:14:04 | ТАСС

В состав жюри фестиваля "Дух огня" вошли Ярмольник, Радонович, Урсуляк, Маргулис и Слащева
04.03.2026 15:13:50 | ТАСС

Малышева поспорила с соведущими «Жить здорово!» о пользе подсолнечного и оливкового масел
04.03.2026 15:13:01 | Lenta.ru

NBC: США могут нарастить производство боеприпасов из-за конфликта с Ираном
04.03.2026 15:12:55 | ТАСС

Россияне с детьми застряли в Африке на четыре дня без еды и жилья
04.03.2026 15:12:27 | Lenta.ru

Россиянин Филиппов выиграл чемпионат Европы по ски-альпинизму в спринте
04.03.2026 15:12:09 | Life.ru

ТАСС: Фидан в разговоре с Арагчи передал реакцию Турции на инцидент со сбитой ракетой
04.03.2026 15:11:44 | ТАСС

Сийярто: Венгрия хочет получить от России гарантии поставок нефти и газа
04.03.2026 15:11:31 | ТАСС

«Перешёл на гуталин»: Захарову насмешили обещания Зеленского сбивать дроны над ОАЭ
04.03.2026 15:11:25 | Life.ru

Шаляпин призвал не запрещать Пугачевой въезд в Россию
04.03.2026 15:11:19 | Lenta.ru

Политолог объяснил, почему Испания не уйдёт из НАТО, но и не подчинится давлению США
04.03.2026 15:11:10 | Life.ru

Захарова: Россия готова быть посредником в урегулировании кризиса вокруг Ирана
04.03.2026 15:10:51 | ТАСС

Власти Москвы оптимизируют на 10% расходы по финансированию инвестпрограммы
04.03.2026 15:10:36 | ТАСС

Захарова: РФ и КНР продолжат тесную координацию по ситуации вокруг Ирана
04.03.2026 15:10:23 | ТАСС

На Мосбирже в феврале инвестиции частных инвесторов выросли в 1,8 раза
04.03.2026 15:10:17 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro