Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes

info@vsetut.pro

Стать автором

Вернуться

01.11.2025 11:20:32 | Хабр

Хабы: Блог компании KTS, DevOps, Kubernetes

Привет! Я Алиса, DevOps-инженер в KTS.

В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере.

Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте.

Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты автоматизации, а также объясню, как мы решали проблему конфликта GPU Operator с предустановленными драйверами.

Подробнее

Читайте также

Scala Digest. Выпуск 34
01.11.2025 11:19:01 | Хабр

[Перевод] Где искать пропавшие планеты Вселенной?
01.11.2025 11:12:46 | Хабр

Вам нужна RAM, а не VRAM. Параметр -cmoe для запуска больших и огромных моделей LLM локально. Ускоряем GPT-OSS-120B
01.11.2025 10:58:12 | Хабр

Психосоматика: до чего можно “доработаться” в IT
01.11.2025 10:47:50 | Хабр

Психосоматика: до чего можно «доработаться» в IT
01.11.2025 10:47:50 | Хабр

Больше деталей, но есть риск галлюцинаций: чем Grokipedia, онлайн-энциклопедия от Илона Маска, отличается от «Википедии»
01.11.2025 10:47:18 | vc.ru

Компилер-пассы и тегированные локаторы: делаем плагинную архитектуру на DI
01.11.2025 10:20:42 | Хабр

Front & Back End инновационного процесса
01.11.2025 10:16:43 | Хабр

Сервис хранения вещей Qeepl начал использовать пункты выдачи СДЭК
01.11.2025 10:15:43 | vc.ru

«Разработка алгоритма программного управления пространственной ориентацией КА»
01.11.2025 10:15:41 | Хабр

Как мы в Авито обучили ML-модель находить «договорённости» без данных о сделках
01.11.2025 10:13:38 | Хабр

Учёные проверили, насколько нейросети пригодны для создания новых лекарств
01.11.2025 10:00:00 | ferra.ru

Чечевица и не только: эти продукты с клетчаткой помогут при запорах
01.11.2025 09:45:04 | ferra.ru

IT-отдел не пит-стоп, а болид F1
01.11.2025 09:41:32 | Хабр

systemd-nspawn: запускаем FidoIP на Arch Linux
01.11.2025 09:34:59 | Хабр

Эволюция и применение диффузионных моделей
01.11.2025 09:34:37 | Хабр

Изучаем Python: модуль Pytest для начинающих с домашним заданием
01.11.2025 09:01:31 | Хабр

«Машина останавливается»: как утонувшие в соцсетях хикки на самоизоляции появились в антиутопии 1909 года?
01.11.2025 09:01:28 | Хабр

Собеседование QA-инженера: 5 вещей, к которым нужно быть готовым
01.11.2025 09:00:27 | Хабр

Картофель и другие самые полезные для здоровья крахмалистые продукты
01.11.2025 09:00:22 | ferra.ru

В М.Видео стартует продажа «умных» часов для дайвинга HUAWEI WATCH Ultimate 2
01.11.2025 09:00:00 | ferra.ru

В М.Видео 5 ноября стартует продажа «умных» часов для дайвинга HUAWEI WATCH Ultimate 2
01.11.2025 09:00:00 | ferra.ru

[Перевод] «Бессмысленный» запрет сингулярности
01.11.2025 08:59:52 | Хабр

Подключаем нейронки в n8n без иностранной карты
01.11.2025 08:46:01 | Хабр

[Перевод] Что может запомнить клетка?
01.11.2025 08:36:25 | Хабр

Когда фантастика 1939 года становится реальностью 2025-го
01.11.2025 08:29:52 | Хабр

Хабр против ИИ: эпоха неолуддитов или как не потерять работу, когда в вашу компанию пришел ИИ
01.11.2025 08:24:21 | Хабр

Доказано: в бедных районах у людей выше риск возникновения инсульта
01.11.2025 08:15:46 | ferra.ru

Голосование на премии RuCode
01.11.2025 08:05:48 | Хабр

История через интерактив. База работы с игровым нарративом с помощью ответов на вопросы игрока
01.11.2025 08:01:16 | Хабр

Домашний сервер в корпусе роутера: Asus выпустила девайс с ИИ, 4 ГБ ОЗУ и 32 ГБ памяти
01.11.2025 08:00:15 | Хабр

Outbox pattern для System Design Интервью
01.11.2025 07:36:40 | Хабр

Автоматическая регрессия по git-diff. Как мы связали код, фичи и тесты, открыв путь к Continuous Delivery (Full)
01.11.2025 07:13:47 | Хабр

Гибкие печатные платы на полиимиде или на FR-4 толщиной 0.1 — 02 мм? Что выбрать?
01.11.2025 07:10:12 | Хабр

Компактный runtime-DI для Java: JSR-330, Class-File API и миграция за 2 дня
01.11.2025 07:06:43 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Линию «Ферросплавная-1» снова подключили к ЗАЭС
05.03.2026 19:55:29 | Life.ru

Нацбанк Украины опустил гривну на исторический минимум
05.03.2026 19:53:45 | Life.ru

Fitch считает, что Ормузский пролив будет закрыт менее месяца
05.03.2026 19:53:11 | ТАСС

Главу района в Саратовской области подозревают в злоупотреблении полномочиями
05.03.2026 19:51:08 | ТАСС

Адвокаты высказались о грозящем бывшему первому замминистра обороны России наказании
05.03.2026 19:50:03 | Lenta.ru

В Бахрейне НПЗ Bapco Energies работает в штатном режиме после атаки Ирана
05.03.2026 19:49:30 | ТАСС

Зеленский заявил, что нефтепровод «Дружба» может заработать лишь через полтора месяца
05.03.2026 19:49:07 | Life.ru

Росфинмониторинг поддержал ужесточение ответственности для нелегальных кредиторов
05.03.2026 19:48:32 | ТАСС

Трамп считает, что должен лично участвовать в выборе лидера Ирана
05.03.2026 19:47:06 | ТАСС

В Москве к 8 Марта провели открытую встречу "Она - герой"
05.03.2026 19:45:55 | ТАСС

Мишустин объявил благодарность Трутневу
05.03.2026 19:45:12 | ТАСС

В сети оценили кастомные свадебные туфли российской художницы с фразой «пойдут на развод»
05.03.2026 19:44:39 | Lenta.ru

Голый по пояс мужчина пришел в больницу с укусившей его змеей в руках
05.03.2026 19:42:15 | Lenta.ru

В ЦСКА заявили, что обвинения "Краснодара" в расизме не имеют фактической основы
05.03.2026 19:41:49 | ТАСС

МАГАТЭ: линия электропередачи "Ферросплавная-1" снова подключена к ЗАЭС
05.03.2026 19:41:31 | ТАСС

Иран заявил о гибели более 100 моряков после атаки на фрегат IRIS Dena
05.03.2026 19:40:39 | Life.ru

Иран заявил о гибели более 100 моряков после атаки на фрегат IRIS Dena у берегов Индии
05.03.2026 19:40:39 | Life.ru

Трамп счёл неприемлемой кандидатуру сына Хаменеи на пост верховного лидера Ирана
05.03.2026 19:39:52 | Life.ru

Трамп захотел выбрать нового лидера Ирана
05.03.2026 19:39:31 | Lenta.ru

Рост цен на нефть резко усилился
05.03.2026 19:39:00 | Lenta.ru

Топ-менеджер российской компании сел после продажи иномарки за один рубль
05.03.2026 19:38:00 | Lenta.ru

Здание национального музея Карелии загорелось в Петрозаводске
05.03.2026 19:37:36 | Коммерсантъ

Число жертв с атакованного США иранского фрегата увеличилось
05.03.2026 19:36:52 | Lenta.ru

Северная железная дорога в марте добавит дополнительные вагоны к 11 поездам
05.03.2026 19:36:36 | ТАСС

Россиянка купила семь билетов ради выезда из ОАЭ
05.03.2026 19:35:14 | Lenta.ru

ТАСС: дело бывшего первого замглавы МО Цаликова связано со строительством
05.03.2026 19:35:05 | ТАСС

ТАСС: дело Цаликова связано со строительством объектов для МО РФ
05.03.2026 19:35:05 | ТАСС

Азербайджан закрыл границу для грузовиков после атаки иранского дрона
05.03.2026 19:34:37 | Life.ru

VK Fest пройдет в Казани
05.03.2026 19:34:25 | ТАСС

Путин подарил цветы участницам встречи в Кремле по случаю 8 Марта
05.03.2026 19:33:45 | ТАСС

Россиянка раскрыла отношение к соотечественникам в Дубае
05.03.2026 19:33:21 | Lenta.ru

Россиян призвали добавить в весенний рацион пять специй
05.03.2026 19:33:07 | Lenta.ru

Звезда Comedy Woman раскрыла подробности знакомства с мужем-итальянцем
05.03.2026 19:32:48 | Lenta.ru

ISNA: на востоке Тегерана произошли взрывы
05.03.2026 19:32:43 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro