Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

03.10.2025 14:00:12 | Хабр

Хабы: Блог компании Cloud.ru, IT-инфраструктура, Облачные сервисы, Искусственный интеллект, Машинное обучение

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ.

ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в закладки, чтобы возвращаться и списывать нужные конфиги. Наливайте бочку чая или чего покрепче, постарался изложить все сугубо по делу, много кода спрятал в «раскрывашки», так что не пугайтесь обозначенного выше времени чтения.

Читать далее

Подробнее

Читайте также

Что такое MDM: сделай сам и подключи Knox за 60 минут
03.10.2025 13:45:03 | Хабр

Учёные впервые обнаружили в мозге белки, которые вызывают болезнь Паркинсона
03.10.2025 13:30:14 | ferra.ru

[Перевод] Пожилой зумер о том, как ИИ сломал карьерный путь разработчика
03.10.2025 13:30:07 | Хабр

Short Sleeper Syndrome: как я узнал, что высыпаюсь за 5 часов
03.10.2025 13:16:06 | Хабр

Рецепт vLLM с мистралем. Часть 1
03.10.2025 13:13:03 | Хабр

Пандемия «порченой крови»: виртуальная катастрофа с реальным продолжением
03.10.2025 13:07:03 | Хабр

Не флагман, но с амбициями: тестируем камеру HUAWEI nova 14 Pro в реальных условиях
03.10.2025 13:03:58 | Хабр

Видеоаналитика в реальном времени: что делать, если нет GPU
03.10.2025 13:01:02 | Хабр

Три пути к 4K: выбираем свой инструмент для нейросетевой реставрации видео
03.10.2025 13:01:01 | Хабр

Сервис для бегунов и велосипедистов Strava подал в суд на производителя «умных» часов Garmin, обвинив в нарушении патентных прав
03.10.2025 13:00:36 | vc.ru

Как написать нейросеть для бизнеса на Python
03.10.2025 12:49:36 | Хабр

Rules File Backdoor. Как атакуют GitHub Copilot и Cursor и почему «это ваша проблема»
03.10.2025 12:48:59 | Хабр

Samsung незаметно изменила расчёт качества сна на часах Galaxy Watch
03.10.2025 12:45:00 | ferra.ru

В Google Gemini нашли сразу три серьёзные уязвимости, позволявшие красть данные
03.10.2025 12:42:33 | ferra.ru

Издательство Питер. Колонка редактора, октябрь 25 г
03.10.2025 12:42:19 | Хабр

В Galaxy S26 Ultra появится защита от подглядывания за экраном
03.10.2025 12:34:34 | ferra.ru

Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение
03.10.2025 12:33:35 | Хабр

Электромобиль Xiaomi SU7 в Китае самостоятельно уехал от владельца
03.10.2025 12:33:21 | vc.ru

Квартальные продажи электромобилей китайской BYD на 17% превысили показатели Tesla, несмотря на «рекордные» продажи американской компании
03.10.2025 12:31:00 | vc.ru

Как я писал свою звонилку для видеозвонков
03.10.2025 12:27:16 | Хабр

Продажи электрокаров Tesla резко выросли накануне отмены налоговых льгот
03.10.2025 12:25:20 | ferra.ru

Борьба с дисбалансом классов. Стандартные методы
03.10.2025 12:19:27 | Хабр

Архитектура NGFW: опыт использования VPP и DPDK, частые ошибки разработчиков
03.10.2025 12:18:50 | Хабр

Чтение на выходные: «Всё под контролем. Моя эпичная история в геймдеве» Клиффа Блезински
03.10.2025 12:16:45 | Хабр

Минфин предложил ввести налог на заказы зарубежных товаров через маркетплейсы
03.10.2025 12:11:22 | vc.ru

[Перевод] У JavaScript не будет прекрасного будущего
03.10.2025 12:00:55 | Хабр

В Telegram прокомментировали одобрение в США удалённого взлома мессенджера
03.10.2025 12:00:00 | ferra.ru

PCIe умер, да здравствует CXL
03.10.2025 11:53:58 | Хабр

Едем в поле с железным ящиком: как тестируют телеком
03.10.2025 11:50:42 | Хабр

В App Store появилось приложение CashHunter с функциями «Газпромбанка»
03.10.2025 11:41:08 | vc.ru

Как мы решились автоматизировать поиск работы в рунете и какие препятствия были у нас на пути…
03.10.2025 11:38:04 | Хабр

[Перевод] Рекомендательные системы в современном мире
03.10.2025 11:36:51 | Хабр

Как попасть в ответы ChatGPT, Perplexity и Google AI: практическое руководство по GEO
03.10.2025 11:23:47 | Хабр

Amplicode – идеальное дополнение к IntelliJ IDEA Ultimate. Огромный гайд для Spring-разработчика
03.10.2025 11:15:48 | Хабр

EntityFrameworkCore в C#
03.10.2025 11:15:46 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Юг России увеличил посевы озимого ячменя под урожай 2026 года
09.03.2026 08:20:01 | ТАСС

В Волгоградской области установлен рекорд по количеству снега за 10 лет
09.03.2026 08:17:23 | ТАСС

Минобороны России раскрыло подробности о перехваченных за ночь БПЛА ВСУ
09.03.2026 08:17:00 | Lenta.ru

Мема рассказал о худшем решении в истории Финляндии, речь идет о членстве в НАТО
09.03.2026 08:16:00 | Российская Газета

МО РФ: в Харьковской области ракетным ударом уничтожили РСЗО ВСУ
09.03.2026 08:15:27 | ТАСС

От "Королевства кривых зеркал" до "Морозко". Фильмы Александра Роу
09.03.2026 08:15:00 | ТАСС

В России назвали сферу с самыми высокими зарплатами — почти ₽900 тысяч
09.03.2026 08:14:21 | Life.ru

Нефть Brent взлетела выше $119 впервые за почти четыре года
09.03.2026 08:14:18 | Life.ru

В ДОМ.РФ объяснили феномен популярности жилья в Мурманской области
09.03.2026 08:12:09 | ТАСС

Картаполов: беспилотники будут активно применяться в космосе
09.03.2026 08:11:00 | ТАСС

Эксперт Футорян: предприятия Донбасса и Новороссии создадут "кабинеты здоровья"
09.03.2026 08:09:39 | ТАСС

Тысячи американцев призвали мобилизовать Бэррона Трампа в Иран
09.03.2026 08:09:10 | Life.ru

Марочко: участки фронта на Сумщине и в ДНР стали самыми успешными у ВС РФ на неделе
09.03.2026 08:08:36 | ТАСС

Саундтрек Atomic Heart выйдет на виниле с Близняшкой на обложке - уже открыты предзаказы
09.03.2026 08:07:30 | PlayGround.ru

Во Франции Зеленского назвали политическим трупом из-за Ближнего Востока
09.03.2026 08:06:48 | Life.ru

Очевидцы опубликовали видео пожара на НПЗ Bapco Energies в Бахрейне
09.03.2026 08:06:17 | ТАСС

Марочко: ВСУ за неделю в зоне СВО потеряли почти 9 тыс. человек
09.03.2026 08:03:01 | ТАСС

Новый ГОСТ на энергетики введут в России в 2027 году
09.03.2026 08:02:35 | Life.ru

Врач развеяла популярные мифы об отбеливании зубов
09.03.2026 08:00:38 | Lenta.ru

Сенатор Грэм призвал Израиль не уничтожать нефтяную инфраструктуру Ирана
09.03.2026 07:59:52 | РБК

Калинская не смогла выйти в четвертый круг турнира в Индиан-Уэллсе
09.03.2026 07:58:00 | ТАСС

Система ПВО России перехватила более 160 украинских дронов за ночь
09.03.2026 07:57:20 | Life.ru

Профессор объяснила порядок использования слова «краш» в ЕГЭ
09.03.2026 07:56:00 | Lenta.ru

CBS: США могли ударить по школе в Иране из-за устаревших разведданных
09.03.2026 07:55:58 | ТАСС

ТАСС: экс-замдиректора «Калашникова» обвинили в мошенничестве
09.03.2026 07:55:06 | Коммерсантъ

Военкомы остановили украинского депутата и по ошибке озвучили ему цену за свободу
09.03.2026 07:54:47 | Lenta.ru

В Хабаровском крае остаются еще свыше 900 обманутых дольщиков
09.03.2026 07:52:50 | ТАСС

Пользователи МТС столкнулись с 95 млн звонков от мошенников на 8 Марта
09.03.2026 07:48:49 | ТАСС

«Лучший сверхширокоугольный объектив» как для фото, так и для видео. Vivo X300 Ultra оснащен самым большим в отрасли модулем
09.03.2026 07:47:00 | iXBT.com

Силы ПВО уничтожили 163 дрона над Россией за ночь
09.03.2026 07:46:09 | РБК

Мелони неудачно пыталась оправдать удар США по Ирану
09.03.2026 07:46:00 | Life.ru

Опасность северокорейских хакеров для России оценили
09.03.2026 07:45:23 | Lenta.ru

Мелони опозорилась, пытаясь оправдать операцию США и Израиля в Иране
09.03.2026 07:45:00 | Российская Газета

Вступление Финляндии в НАТО назвали худшим решением в истории страны
09.03.2026 07:45:00 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro