Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение, Open source, Программирование, Высоконагруженные системы

В первой части я вывел одно правило и предложил жить по нему: стабильное в начало, изменчивое в хвост, один символ в системном промпте обнуляет весь кэш. Правило рабочее, я сам собираю агента вокруг него. Но жить по закону, которого не понимаешь, неуютно.

vLLM и paged attention я руками не писал, зато исходники открыты, и я полез в них за байтовой причиной. Что физически лежит на GPU в момент попадания в кэш, как движок управляет этой памятью и почему хватает одного символа, чтобы всё посыпалось.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro