Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

23.10.2025 15:30:36 | Хабр

Хабы: Блог компании Cloud.ru, IT-инфраструктура, Машинное обучение, Искусственный интеллект, Облачные сервисы

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно. И, вполне вероятно, столкнулись с одной из типичных проблем:

«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».

«Платим за A100, а реально используем лишь 30% ее мощности».

Привет, я Павел, ML-инженер в Cloud.ru. И я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

Сегодня на примере настройки фреймворка VLLM покажу, как запускать крупные языковые модели без переплат за GPU. Мы разберемся, как VLLM распределяет vRAM, какие его параметры действительно влияют на потребление памяти и производительность, и как с их помощью гибко управлять балансом между затратами, скоростью и качеством модели.

Читать далее

Подробнее

Читайте также

Делаем увлажнитель чуть умнее с ESP8266
23.10.2025 15:15:33 | Хабр

Как гейм-дизайнеру и программисту вместе построить то, что невозможно в одиночку?
23.10.2025 15:15:15 | Хабр

Kafka для начинающих: работа с брокером сообщений на практике
23.10.2025 15:04:21 | Хабр

Netflix расширит «интерактивные функции», вплоть до голосований в реальном времени
23.10.2025 15:00:34 | ferra.ru

МТС и Т2 начнут открывать совместные салоны связи, чтобы сэкономить на открытии торговых точек с нуля
23.10.2025 14:59:57 | vc.ru

Kia в Финляндии будет дарить покупателям электромобиля EV4 ароматизатор с запахом бензина, чтобы помочь людям «адаптироваться к новой эре вождения»
23.10.2025 14:59:51 | vc.ru

Джун глазами синьора: 5 ошибок в резюме, которые снижают ваши шансы попасть в ML
23.10.2025 14:45:30 | Хабр

От рекрутера к бизнес-аналитику. Мой опыт смены роли внутри одной компании
23.10.2025 14:45:30 | Хабр

BI в цепочке создания ценности: где аналитика даёт максимальный эффект?
23.10.2025 14:44:39 | Хабр

Переплачиваете за хостинг Cron Jobs? Тогда мы идём к вам
23.10.2025 14:36:21 | Хабр

Как устроены фонды денежного рынка?
23.10.2025 14:33:31 | Хабр

Полнотекстовый поиск на Rust с помощью библиотеки Tantivy
23.10.2025 14:32:57 | Хабр

Hisense представила «не уступающий кинотеатрам» домашний лазерный проектор
23.10.2025 14:15:36 | ferra.ru

Не только Лабубу: как Pop Mart построил бизнес-империю на игрушках
23.10.2025 14:14:44 | Хабр

MSI PRO DP80 MP: офисный десктоп с уклоном в управляемость и безопасность
23.10.2025 14:14:00 | it-world

Dumper: единый инструмент для резервного копирования баз данных
23.10.2025 14:13:30 | Хабр

Анатолий Лихтин: «Ранняя концентрация усилий дает невероятный результат»
23.10.2025 14:12:46 | it-world

Почему я перестала гнаться за лучшей версией себя
23.10.2025 14:10:09 | Хабр

Как пробить баннерную слепоту? Иногда хватит двух полосок
23.10.2025 14:05:26 | Хабр

Рендеринг трёхмерных фрактальных множеств: от оболочки Мандельброта до гибридов, часть 3
23.10.2025 13:58:42 | Хабр

Почему нас уже тошнит от ИИ-текстов?
23.10.2025 13:56:35 | Хабр

Как поддерживать вовлеченность в сообществе тестировщиков
23.10.2025 13:56:21 | Хабр

«Яндекс» собрался запустить доставку роботами в Санкт-Петербурге, Казани и других городах и представил новую модель ровера
23.10.2025 13:52:53 | vc.ru

Как автоматизировать учет рабочего времени?
23.10.2025 13:46:21 | Хабр

Серия realme 15 поступила в продажу в России
23.10.2025 13:42:51 | it-world

Учёные попытались опровергнуть теорию уничтожения людьми мегафауны Австралии
23.10.2025 13:30:44 | ferra.ru

HTTP и HTTPS: Разница
23.10.2025 13:21:12 | Хабр

Визуализация запросов в 1С
23.10.2025 13:18:28 | Хабр

Как мы профукали базу клиента и научились безопасности
23.10.2025 13:15:16 | Хабр

Вышки сотовой связи как облучающие станции РЛС
23.10.2025 13:08:35 | Хабр

Разбираем «Telega» по винтикам: «бесплатный» сыр только в мышеловке
23.10.2025 13:05:15 | Хабр

Архитектура маркетинга: от предсказаний к осознанным решениям
23.10.2025 13:03:52 | Хабр

Как Bybit заблокировал мой аккаунт из-за транзакции двухлетней давности
23.10.2025 12:57:29 | Хабр

5 ключевых улучшений нового поколения однофазных ИБП Systeme Electric
23.10.2025 12:55:46 | Хабр

Почему я думаю, что инженеры прошлого писали более человечный код
23.10.2025 12:51:49 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Kan: армия Израиля нарастила численность войск на юге Ливана
09.03.2026 13:22:42 | ТАСС

Певцов назвал варварством иностранные псевдонимы у российских артистов
09.03.2026 13:22:29 | Life.ru

Страны НАТО начали учения в Арктике с участием 25 тысяч военных
09.03.2026 13:21:00 | Российская Газета

Украинский пилот-самоучка сбежал на самолёте от мобилизации в Румынию
09.03.2026 13:19:59 | Life.ru

Бразильские футболисты устроили массовую драку и получили 23 красные карточки
09.03.2026 13:18:49 | Lenta.ru

Al Mayadeen: парламент Ливана продлит срок своих полномочий на два года
09.03.2026 13:16:49 | ТАСС

Исчезнувших шесть тысяч лет назад животных нашли живыми в одной стране
09.03.2026 13:16:19 | Lenta.ru

Безос скупил участки по соседству с Цукербергом в «бункере миллиардеров»
09.03.2026 13:15:02 | Life.ru

Журова: недоброжелатели должны привыкать к гимну РФ на Паралимпиаде
09.03.2026 13:14:57 | ТАСС

Kan: в Израиле один человек убит из-за обстрела из Ирана
09.03.2026 13:14:52 | ТАСС

В ЕК пообещали добиться кредита для Украины
09.03.2026 13:13:58 | Lenta.ru

Журова отреагировала на первое золото Паралимпиады у России
09.03.2026 13:12:29 | Lenta.ru

«А как вы проводите наш день?» Бузова отметила 8 Марта одна «колбасой и огурчиком»
09.03.2026 13:10:32 | Life.ru

В Молдавии пригрозили лишать учителей дипломов за "российскую пропаганду"
09.03.2026 13:10:31 | ТАСС

В нескольких районах Украины задержали торговцев оружием и боеприпасами
09.03.2026 13:08:38 | ТАСС

17-летняя дочь МакSим поразила фанатов красотой и сходством с матерью
09.03.2026 13:08:37 | Life.ru

Долина наняла больше телохранителей из-за угроз убийством
09.03.2026 13:08:05 | Life.ru

В Томской области спасли зацепившегося при приземлении за дерево парашютиста
09.03.2026 13:07:45 | ТАСС

Премьер Бельгии выразил солидарность с еврейской общиной после взрыва в Льеже
09.03.2026 13:06:33 | ТАСС

В Петербурге два семиклассника случайно подожгли квартиру пенсионерки
09.03.2026 13:05:45 | ТАСС

Фон дер Ляйен заявила, что ЕС больше не может полагаться на "мир правил"
09.03.2026 13:05:00 | Российская Газета

В Израиле при обстреле из Ирана пострадали три человека
09.03.2026 13:04:37 | ТАСС

Human Rights Watch обвинила Израиль в применении белого фосфора в Ливане
09.03.2026 13:04:00 | Российская Газета

Путин поздравил нового верховного лидера Ирана с избранием
09.03.2026 13:03:00 | Lenta.ru

Лукашенко заявил о долге белорусов перед Узбекистаном
09.03.2026 13:02:34 | Lenta.ru

В Москве начали демонтаж световых декоративных конструкций
09.03.2026 13:02:11 | ТАСС

Турция разместила шесть истребителей F-16 на Кипре для защиты от атак Ирана
09.03.2026 13:02:07 | Life.ru

Фон дер Ляйен призвала Европу решительно демонстрировать свою силу
09.03.2026 13:01:24 | ТАСС

Свищев раскритиковал страны, бойкотировавшие церемонию открытия Паралимпиады
09.03.2026 13:00:33 | ТАСС

Британский авианосец привели в состояние повышенной боеготовности
09.03.2026 13:00:00 | Lenta.ru

Ким Чен Ын с женой и дочерью посетил концерт в честь праздника 8 марта
09.03.2026 12:59:00 | Российская Газета

Daily Express: Кремль заговорил о конце света из-за войны в Иране
09.03.2026 12:58:31 | Life.ru

Слух: Следующий кроссовер может быть про Человека-паука и Росомаху
09.03.2026 12:57:34 | PlayGround.ru

Визит Уиткоффа и Кушнера в Израиль отменен
09.03.2026 12:57:00 | Российская Газета

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro