Ускорение генерации токена LLM в два раза для больших контекстов

25.07.2024 20:30:48 | Хабр

Хабы: GPGPU, Высокая производительность, Искусственный интеллект, Программирование
Помимо ChatGPT и многочисленных конкурентов в облаке с веб-мордами и/или API, существует огромная экосистема для запуска LLM на собственном железе. На Huggingface на любой бюджет найдется модель для скачивания, которая влезет в видеопамять (или в RAM, можно и на CPU запускать, если пользователь терпеливый). Вчера здесь на Хабре была очень неплохая обзорная статья.

Самые популярные open source тулы для локального запуска LLM — llama.cpp и vllm (и их многочисленные обертки). У них немного разные ниши, и дальше я буду писать о llama.cpp. Она поддерживает все возможные комбинации железа и ОС — Linux, MacOS, Windows; x86 CPU, Arm, Apple Silicon CPU & GPU, Nvidia, AMD,… Но автор и мейнтейнер — Георгий Герганов использует для разработки Mac Studio. Почему такой выбор железа?

Производительность генерации каждого токена LLM в одном потоке ограничена вычислительной мощностью в процессе построения KV-кэша (анализ промпта до генерации первого токена), и пропускной способностью памяти при генерации последующих токенов. При этом в обоих случаях очень полезно уметь быстро загружать веса из видеопамяти в ALU видеокарты (или CPU).
Читать дальше →

Подробнее

Читайте также

Приглашаем на летне-осенние лекции по игровой индустрии и IT в ВШБ
25.07.2024 20:28:33 | Хабр

Эксперт назвал способ защиты смартфона от вирусов
25.07.2024 20:20:28 | ferra.ru

На RTX 4070 запустили игры в разрешении 16K
25.07.2024 20:15:00 | ferra.ru

Россиянам рассказали о новых методах борьбы с мошенниками
25.07.2024 20:11:50 | ferra.ru

Автоматизируем тестирование с помощью Lettuce
25.07.2024 20:05:23 | Хабр

Российские владельцы Telegram-каналов потеряли доступ к монетизации
25.07.2024 19:53:16 | ferra.ru

[Перевод] OpenAI анонсировала SearchGPT: поиск в интернете на базе ChatGPT4
25.07.2024 19:53:07 | Хабр

Визуализация эмоций в диалогах людей и чат-ботов
25.07.2024 19:49:35 | Хабр

В России запретят продавать более 20 сим-карт в одни руки
25.07.2024 19:44:32 | ferra.ru

Ученые обнаружили изменение белка p16, способное улучшить диагностику рака
25.07.2024 19:40:09 | ferra.ru

Канадцы шпионили за тренировками «олимпийцев» Новой Зеландии с дронов
25.07.2024 19:37:59 | ferra.ru

В Южной Африке обнаружили молодого жирафа с «чрезвычайно деформированной шеей»
25.07.2024 19:30:00 | ferra.ru

Простые приёмы, которые сделают ваш код нагляднее
25.07.2024 19:22:21 | Хабр

В России разработали цифровую систему оценки состояния водителя
25.07.2024 19:20:58 | ferra.ru

ИИ может стать жертвой собственных данных, показало исследование
25.07.2024 19:19:07 | ferra.ru

Учёные научились прогнозировать появление осадка в нефтяных скважинах
25.07.2024 19:13:07 | ferra.ru

Ученые выяснили, как старение нейронов влияет на развитие заболеваний
25.07.2024 19:12:58 | ferra.ru

Как я стал Сисадмином
25.07.2024 19:10:15 | Хабр

Wildberries начал тестировать сервис для «примерки» одежды на виртуальных моделях
25.07.2024 19:02:44 | vc.ru

TikTok оштрафован в Великобритании за предоставление неверных данных
25.07.2024 18:59:56 | ferra.ru

Работа с геометрией в JPA и Spring Boot 3
25.07.2024 18:59:56 | Хабр

Депутат Госдумы Александр Хинштейн заявил, что в России специально начали «замедлять» YouTube
25.07.2024 18:45:08 | vc.ru

Раскрыто, как бактерии в кишечнике помогают добиться лучших спортивных результатов
25.07.2024 18:45:00 | ferra.ru

За китовой акулой следили рекордные четыре года
25.07.2024 18:37:57 | ferra.ru

Цифровой двойник ускорит беспроводной интернет
25.07.2024 18:37:28 | ferra.ru

Российский электропоезд «Финист» станет беспилотным
25.07.2024 18:36:18 | ferra.ru

Использование алгоритма Бойера-Мура-Хорспула в Java с примером решения задачи с LeetCode
25.07.2024 18:23:58 | Хабр

В России запустили производство уникального протеза кисти
25.07.2024 18:08:05 | ferra.ru

### justCTF 2024 [teaser] — blockchain
25.07.2024 18:00:32 | Хабр

В WhatsApp появится поиск пользователей по никнеймам
25.07.2024 18:00:00 | ferra.ru

Владелец Okko получил 100% оператора спортивных трансляций «Телеспорт Груп» Петра Макаренко
25.07.2024 17:58:58 | vc.ru

Камчатский университет создаст цифровой гербарий редких растений
25.07.2024 17:39:46 | ferra.ru

Северокорейский хакер проник в американскую компанию по кибербезопасности
25.07.2024 17:37:55 | ferra.ru

Названы лучшие низкокалорийные продукты с большим количеством белка
25.07.2024 17:15:00 | ferra.ru

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом
25.07.2024 17:13:21 | Хабр

Смотреть все

НОВОСТИ

The Times: уроженца Британии впервые лишили гражданства за связи с РФ
12.04.2026 18:32:58 | ТАСС

Синнер обыграл Алькараса в финале "Мастерса" и станет первой ракеткой мира
12.04.2026 18:32:43 | ТАСС

В Башкирии запустят «поезда здоровья»
12.04.2026 18:28:59 | Lenta.ru

В Москве сакура Саржента "Аптекарского огорода" раскрыла первые цветки
12.04.2026 18:27:38 | ТАСС

"Локомотив" не смог дома обыграть махачкалинское "Динамо" в матче РПЛ
12.04.2026 18:27:31 | ТАСС

«Локомотив» вырвал ничью у махачкалинского «Динамо» в матче РПЛ
12.04.2026 18:27:30 | Lenta.ru

Баканов: 1 359 работников ракетно-космической отрасли стали бойцами СВО
12.04.2026 18:27:16 | ТАСС

Трамп пригрозил Китаю пошлинами в случае помощи Ирану
12.04.2026 18:27:03 | Lenta.ru

Трамп посетовал на то, что НАТО, Япония и Южная Корея не помогают США
12.04.2026 18:27:00 | Российская Газета

Путин заявил о работе космического потенциала России на суверенитет и безопасность
12.04.2026 18:26:30 | Lenta.ru

Каллас училась в плохой советской школе, заявил Песков
12.04.2026 18:26:17 | Life.ru

Швеция разрешила задержанному на юге страны судну покинуть воды королевства
12.04.2026 18:25:03 | ТАСС

Венгерские выборы имеют экзистенциальное значение для Европы
12.04.2026 18:24:00 | Российская Газета

В МИД России заявили, что США обязаны сами оплатить долг перед ВОЗ
12.04.2026 18:23:59 | Life.ru

Баканов: в 2025 году Россия запустила порядка 100 космических аппаратов с трех космодромов
12.04.2026 18:21:51 | ТАСС

Трамп: США могут ввести для КНР тарифы в 50% в случае военной помощи Ирану
12.04.2026 18:21:46 | ТАСС

Трамп: США пересмотрят подходы к НАТО
12.04.2026 18:21:29 | ТАСС

Трамп пригрозил Ирану фразой «мы можем всех их уложить»
12.04.2026 18:21:02 | Lenta.ru

Израиль резко раскритиковал пост президента Южной Кореи в соцсетях
12.04.2026 18:21:00 | Российская Газета

Трамп заявил, что арабским странам следовало бы присоединиться к блокаде Ирана
12.04.2026 18:20:33 | ТАСС

Израиль обвинил Испанию в антисемитизме из-за сожжения чучела Нетаньяху
12.04.2026 18:18:00 | Российская Газета

Иран заявил, что полностью контролирует движения в Ормузском проливе
12.04.2026 18:17:49 | ТАСС

Трамп допустил удары по опреснительным заводам и электростанциям Ирана
12.04.2026 18:16:51 | ТАСС

АдГ выступила за запуск "Северного потока"
12.04.2026 18:15:29 | ТАСС

Пезешкиан: Иран может заключить соглашение с США
12.04.2026 18:12:36 | ТАСС

Дмитриев предрек рост цен на нефть до 150 долларов на следующей неделе
12.04.2026 18:12:00 | Российская Газета

Трамп прокомментировал возможность возобновления переговоров с Ираном
12.04.2026 18:11:10 | Lenta.ru

В Кремле наградили сотрудников ракетно-космической отрасли
12.04.2026 18:10:49 | ТАСС

В Псковской области в мае ветераны смогут бесплатно ездить на общественном транспорте
12.04.2026 18:10:28 | ТАСС

В Челябинске завели дело после конфликта четырех школьниц со сверстницей
12.04.2026 18:10:17 | ТАСС

Россиян предостерегли от главной ошибки после укуса клеща
12.04.2026 18:10:11 | Lenta.ru

Трамп пообещал установить полную морскую блокаду Ирана
12.04.2026 18:09:00 | Российская Газета

Янчук считает, что Андреева показала характер в матче против Потаповой
12.04.2026 18:08:22 | ТАСС

Трамп назвал причину пересмотра отношений США и НАТО
12.04.2026 18:07:51 | Lenta.ru

Переполох на Западе: Британия оказалась в конфузе после инцидента с танкерами РФ
12.04.2026 18:07:25 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro