Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

04.05.2026 07:00:26 | Хабр

Хабы: Блог компании МТС, Искусственный интеллект, Машинное обучение, Natural Language Processing, Сжатие данных

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели.

В основе этой проблемы лежит KV-cache. Пример: у LLaMA 2 7B веса занимают около 14 ГБ но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ.

Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

Читать далее

Подробнее

Читайте также

Remoded: разбираем демо-эффекты (часть 1)
04.05.2026 06:51:52 | Хабр

Чем интересен компьютер-планшет Ninkear S13? Тест ноутбука-трансформера с сенсорным экраном и стилусом
04.05.2026 06:50:54 | Хабр

QA в 2026 году: почему лёгкого входа в IT больше нет
04.05.2026 06:47:24 | Хабр

AGI: это правда закат человечества? Обзор технологии, которой нас запугали
04.05.2026 06:47:17 | Хабр

Какие бывают аналитики данных и как правильно выбирать вакансии, чтобы попасть в требования работодателя
04.05.2026 06:42:21 | Хабр

Планировщик задач в ODI: как это устроено у нас
04.05.2026 06:40:07 | Хабр

CraftHub для VS Code: редактируй JSON как таблицу прямо в редакторе
04.05.2026 06:33:14 | Хабр

Аудит Zabbix: на что нужно обратить внимание
04.05.2026 06:30:18 | Хабр

От Flux CLI к Flux Operator и Status Page
04.05.2026 05:49:38 | Хабр

Как сайты собирают цифровой отпечаток пользователя — почему VPN больше не спасает (О Fingerprinting)
04.05.2026 05:30:04 | Хабр

Юзабилити‑тестирование без иллюзий, или почему технических тестов недостаточно?
04.05.2026 05:18:55 | Хабр

[Перевод] FastCGI исполнилось 30 лет, и он до сих пор лучше HTTP для прокси-к-бэкенду
04.05.2026 05:07:53 | Хабр

Налоговая слежка за переводами на карту, а также начало суда Маска против Альтмана
04.05.2026 04:58:13 | Хабр

Про 11 типичных ошибок при проектировании интеграции с помощью Kafka на примерах
04.05.2026 04:57:51 | Хабр

Сепаратор для логов. Сжимаем логи для контекста LLM без потери читаемости
04.05.2026 04:13:46 | Хабр

Мощность модели — не главное. Что на самом деле делает AI-агента умным
04.05.2026 04:11:54 | Хабр

BI-движок на остатках Cursor токенов за месяц
04.05.2026 04:00:45 | Хабр

Рефакторинг. Что нужно понять в первую очередь
04.05.2026 03:17:34 | Хабр

Редактор строк в BASIC на ПЭВМ Корвет
04.05.2026 02:43:43 | Хабр

MarkMello: быстрый Markdown viewer для тех, кто каждый день живёт в .md
04.05.2026 01:37:03 | Хабр

Российские ученые создадут систему интуитивного обучени роботов
03.05.2026 23:39:04 | ferra.ru

Cursor всё сломал, но виноват не Cursor: как сжатие контекста превращает AI-агентов в бюро несчастливых случаев
03.05.2026 22:54:02 | Хабр

Direct 2D #9 О текстурах
03.05.2026 22:28:07 | Хабр

Buffer Pool и Clock-sweep: как мы боремся с cache pollution и p99 latency
03.05.2026 22:10:14 | Хабр

Что такое однобитные и тернарные нейросети
03.05.2026 22:08:34 | Хабр

День 1530: Ространснадзор проследит за ситуацией с задержками багажа в аэропорту Шереметьево — там усилили контроль при прилёте
03.05.2026 21:40:41 | vc.ru

Россиянам назвали три главные схемы телефонных мошенников
03.05.2026 21:16:30 | ferra.ru

Я добавил на заблокированный экран macOS красивую обложку текущего трека с адаптивным задним фоном как на iPhone
03.05.2026 20:36:52 | Хабр

IT-Weekly: требования к разработчикам ИИ смягчили; параллельный импорт сократили; OpenAI готовит свой ИИ-смартфон
03.05.2026 20:29:58 | it-world

Я устал от Duolingo и написал себе AI-репетитора. Go, Clean Architecture, 4 LLM-модели — и вот что из этого вышло
03.05.2026 19:56:59 | Хабр

Конфигурационный аудит веб-сайта с Termux на android за 15 минут. curl, ssl, dig — без взлома и без root
03.05.2026 19:45:55 | Хабр

Cursor как общая среда для заказчика и разработчика
03.05.2026 19:33:42 | Хабр

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 — Внешний вид, установка и настройка
03.05.2026 19:16:51 | Хабр

«Эстафета хвоста» — о ветвлении и извлечении веток для форумного движка «сервера-слоя»
03.05.2026 19:06:44 | Хабр

Sony выплатит $7,8 млн пользователям PlayStation по иску
03.05.2026 19:01:22 | ferra.ru

Смотреть все

НОВОСТИ

Раскрыты подробности драки с ножом десятерых россиян в историческом центре Петербурга
04.05.2026 11:03:50 | Lenta.ru

Фон дер Ляйен забыла про Украину
04.05.2026 11:02:05 | Lenta.ru

В Литве начались учения с участием стран НАТО
04.05.2026 11:01:52 | Lenta.ru

На подлете к Москве сбит БПЛА
04.05.2026 11:01:42 | Коммерсантъ

Собянин: система ПВО сбила летевший на Москву беспилотник
04.05.2026 11:01:09 | ТАСС

Российские бойцы использовали «вагнеровский телепорт» для продвижения в зоне СВО
04.05.2026 11:01:02 | Lenta.ru

В Германии захотели убрать российские ракеты из Калининграда
04.05.2026 11:00:26 | Lenta.ru

Россиянка попала в больницу с гепатитом после лечения в частной стоматологии
04.05.2026 10:59:56 | Lenta.ru

В Израиле отменили слушания по делам Нетаньяху из-за его плотного графика
04.05.2026 10:58:52 | ТАСС

В Германии искали российский след в диверсиях и пришли к неожиданному выводу
04.05.2026 10:58:29 | Lenta.ru

Оксана Фандера вернулась в Россию и показала семейные фото
04.05.2026 10:58:12 | Life.ru

Мурашко прибыл на Шри-Ланку для обсуждения двустороннего сотрудничества
04.05.2026 10:58:08 | ТАСС

Дагестан стал лидером среди регионов РФ по числу молодых матерей
04.05.2026 10:57:07 | ТАСС

Аэропорт Дубая заявил о наращивании количества рейсов после возобновления полетов
04.05.2026 10:56:58 | ТАСС

Еврокомиссар Кубилюс: оборонные компании ЕС отстают от США в сфере технологий ИИ
04.05.2026 10:56:19 | ТАСС

Известная 55-летняя телеведущая тайно вышла замуж за 27-летнего мужчину
04.05.2026 10:56:11 | Lenta.ru

Дзюдоист Чопанов рассказал, что травмы не смогли повлиять на его карьеру
04.05.2026 10:55:59 | ТАСС

Ynet: обвинение по делам Нетаньяху приняло приглашение Герцога к переговорам по сделке
04.05.2026 10:54:33 | ТАСС

В Москве установят мемориальные доски пяти героям Советского Союза
04.05.2026 10:54:22 | ТАСС

«Детям мешает слава родителей»: Почему дочь Газманова избегает съёмок и сцены
04.05.2026 10:54:09 | Life.ru

Умер председатель парламента Башкирии Константин Толкачёв
04.05.2026 10:53:50 | Life.ru

Москвичам пообещали летнюю погоду до пятницы
04.05.2026 10:53:31 | РБК

Российские компании стали чаще жаловаться на западные санкции
04.05.2026 10:53:28 | Lenta.ru

В Калининграде нашли пропавшего мальчика
04.05.2026 10:53:23 | ТАСС

В Турции 400 овец погибли после нападения роя пчел
04.05.2026 10:53:00 | Российская Газета

В ДНР заявили, что ВС РФ заходят в тыл ореховской группировки ВСУ для радиоконтроля
04.05.2026 10:52:49 | ТАСС

Мишустин: оздоровительные организации за 2025 год приняли более 5,5 млн детей
04.05.2026 10:52:13 | ТАСС

Почетный президент РФС оценил решение ЦСКА уволить Челестини
04.05.2026 10:52:12 | Lenta.ru

В Беларуси начинается выплата материальной помощи ко Дню Победы
04.05.2026 10:52:00 | Российская Газета

Прокуратура требует вернуть Тамбовскому пороховому заводу 6,4 млрд рублей
04.05.2026 10:51:46 | Коммерсантъ

Опубликована деловая программа ПМЭФ-2026
04.05.2026 10:51:22 | ТАСС

Суворов: рекорд Неделина не довлел над Никитиным при подготовке к марафону
04.05.2026 10:51:08 | ТАСС

На Камчатке планируют расширить категорию получателей бесплатных земельных участков
04.05.2026 10:51:00 | ТАСС

Х5 купил дистрибутора продуктов питания «ВКТ»
04.05.2026 10:50:43 | Ведомости

В России представили новую марку машин
04.05.2026 10:50:43 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro