Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?

07.05.2026 07:46:26 | Хабр

Хабы: Блог компании Газпромбанк, Читальный зал, Искусственный интеллект, Машинное обучение, Natural Language Processing

Пока мы воспринимаем свои промпты как обычный текст из символов, для LLM они в виде токенов «выглядят» совсем иначе. И если не осознавать этого, порой можно наткнуться на проблемы. Поэтому полезно (и интересно) понимать: что вообще представляют собой токены? По какому алгоритму текст преобразуют в них и обратно? Какие важные нюансы при этом возникают?

Возможно, подробнее и понятнее всех объяснил пару лет назад ИИ-рисерчер Андрей Карпатый, записав двухчасовое видео на английском. А теперь мы решили сделать хабрапост, который и пересказывает на русском главное из этого видео, и делает поправку на прошедшее время, и учитывает другие источники (вроде книги «Build a Large Language Models from Scratch»). Описанное применимо к мейнстримовым LLM вроде GPT, в других моделях возможны отличия.

Читать далее

Подробнее

Читайте также

Инженерный подход к урожаю: как Dyson выращивает клубнику с помощью роботов
07.05.2026 07:35:49 | Хабр

12 OPTICS Humathèq — методология чистки ассортиментных матриц
07.05.2026 07:28:28 | Хабр

Почему 8 часов умственной работы подряд делают меня тупее
07.05.2026 07:20:15 | Хабр

Реально большая стейт-машина: как мы строили облачную запись и ИИ-конспектирование в Телемосте
07.05.2026 07:19:29 | Хабр

Не работа, а праздник какой-то: автоматизация процессов event-агентства
07.05.2026 07:11:34 | Хабр

Flaky-тесты — не приговор: эксперименты по ускорению выпуска релизов
07.05.2026 07:10:11 | Хабр

Huawei Mate 90 Pro Max похвастается камерой с 10-кратным зумом
07.05.2026 07:09:51 | ferra.ru

Worldometer: как один сайт научил мир чувствовать масштаб
07.05.2026 07:01:06 | Хабр

От джуна до тимлида за 5 лет — история роста и секреты продуктивности
07.05.2026 07:01:05 | Хабр

ДожDALIсь и не только: новые устройства Wiren Board с WBCE 2026
07.05.2026 07:00:04 | Хабр

Монтаж видео через Claude Code
07.05.2026 06:57:39 | Хабр

Основы парсинга сайтов: от HTML до готового датасета для NLP
07.05.2026 06:51:00 | Хабр

LEGO Education 2026: Новые наборы? Новая электроника? Новая образовательная парадигма
07.05.2026 06:43:57 | Хабр

Самая криминальная команда в ИИ: кто стоит за Perplexity. Досье SpeShu.AI
07.05.2026 06:37:58 | Хабр

Техническая архитектура систем сбора, обработки и передачи биометрических ПДн
07.05.2026 06:31:34 | Хабр

[Перевод] 7. Проектирование с помощью типов: Нестроковые типы
07.05.2026 06:30:50 | Хабр

Пиратство в эпоху VHS: как Universal судилась с Sony и почему последствия этого спора мы ощущаем и в наши дни
07.05.2026 06:12:45 | Хабр

Документальное обеспечение взыскания дебиторской задолженности в арбитражном суде: требования 2024–2026 годов
07.05.2026 06:00:42 | Хабр

Невидимый syntax error в PostgreSQL: как одна строка SQL съела полтора дня дебага
07.05.2026 05:53:08 | Хабр

Двусторонний монтаж печатных плат
07.05.2026 05:42:47 | Хабр

Оземпик: что изменилось в 2026 и почему таблетки не отменяют систему
07.05.2026 02:59:22 | Хабр

В России создали эталон порошка для 3D-печати
06.05.2026 23:58:51 | ferra.ru

Я пошутил, что разработчики больше не нужны — и мне поверили. Давайте теперь серьезно
06.05.2026 23:40:36 | Хабр

В России разработали ИИ для генерации музыки и аудио
06.05.2026 23:34:19 | ferra.ru

В НГУ создали программу для анализа углеродных материалов
06.05.2026 23:32:17 | ferra.ru

Новгородский инженер создал простую формулу расчета осадки свай
06.05.2026 22:57:45 | ferra.ru

Ученые ПНИПУ создали программу для проектирования реакторов метанола
06.05.2026 22:46:57 | ferra.ru

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем
06.05.2026 22:43:41 | Хабр

Правильная агентская архитектура в 2026 г. Часть 2. Durable state: approvals, session context и background jobs
06.05.2026 22:20:12 | Хабр

[Перевод] Как ИИ потерял доверие общества в США
06.05.2026 22:14:05 | Хабр

Huawei показала тизер ультратонкого планшета MatePad Pro Max
06.05.2026 22:09:38 | ferra.ru

На Дальнем Востоке создадут систему быстрого обнаружения пожаров
06.05.2026 22:08:18 | ferra.ru

В Сибири обнаружили новый вид древних одноклеточных
06.05.2026 21:18:49 | ferra.ru

Вологодская область перейдет на платформу «МЭШ» с сентября
06.05.2026 21:06:59 | ferra.ru

Передача и прием данных по лазерному лучу (SDR декодирование BPSK в реальном времени)
06.05.2026 20:48:12 | Хабр

Смотреть все

НОВОСТИ

На Украине сообщили об массовой атаке «Гераней»
13.05.2026 23:07:52 | Lenta.ru

Меркурис: Скандал с НАБУ может быть частью плана по свержению Зеленского
13.05.2026 23:06:00 | Российская Газета

Силовики сообщили об исчезновении «Грузинского легиона»
13.05.2026 23:04:54 | Lenta.ru

«Легиона»* больше нет: Грузинские наёмники в ВСУ разбежались, а их командир пиарится на выставках
13.05.2026 23:03:02 | Life.ru

Экс-мэра Мурманска Сердечкина назначили на должность замглавы Минвостокразвития
13.05.2026 23:00:53 | ТАСС

РИАН: Зеленский хотел развестись с женой и откупиться от неё особняком
13.05.2026 22:59:55 | Life.ru

Хинштейн уверен в "братских отношениях" с новыми главами Брянской и Белгородской областей
13.05.2026 22:58:24 | ТАСС

Посольство РФ в Болгарии снова осталась без городских телефонов
13.05.2026 22:56:32 | ТАСС

В чем причины смены губернаторов двух приграничных регионов
13.05.2026 22:55:40 | РБК

Стало известно о мести солдат ВСУ офицерам
13.05.2026 22:55:00 | Lenta.ru

В Турции литовца приговорили к двум пожизненным за убийство двух россиянок
13.05.2026 22:53:00 | Коммерсантъ

Эксперт Зелтынь спрогнозировал рост востребованности арабского языка в России
13.05.2026 22:52:36 | ТАСС

Автоклубы посетят села Чувашии с патриотической программой по проекту "Единой России"
13.05.2026 22:52:07 | ТАСС

Убийцу россиянки и ее дочери в турецком Бодруме приговорили к двум пожизненным
13.05.2026 22:52:00 | Российская Газета

Умер автор панно на домах в Боровске Владимир Овчинников
13.05.2026 22:49:45 | ТАСС

Умер автор панно на домах калужского Боровска Владимир Овчинников
13.05.2026 22:49:45 | ТАСС

Сенат США утвердил выдвинутого Трампом Кевина Уорша новым председателем ФРС
13.05.2026 22:48:13 | Life.ru

В Иране назвали Россию гарантом безопасности на Ближнем Востоке
13.05.2026 22:45:36 | Lenta.ru

Вэнс не стал комментировать идею участия в выборах в США в тандеме с Рубио
13.05.2026 22:45:31 | ТАСС

Электровелосипед с мотором мощностью 2,8 л.с. и запасом хода 113 км — всего 1600 долларов. Aotos Flux X26 стал хитом на Kickstarter, проект собрал 2,5 млн долларов
13.05.2026 22:44:00 | iXBT.com

Зеленский станет холостым и лишится особняка
13.05.2026 22:42:00 | Lenta.ru

Огненный срыв планов ВСУ по переброске военной техники попал на видео
13.05.2026 22:41:47 | Lenta.ru

Сенат Конгресса США отклонил резолюцию о прекращении войны с Ираном
13.05.2026 22:41:28 | ТАСС

В Раде раскритиковали Зеленского из-за нового скандала
13.05.2026 22:39:56 | Lenta.ru

Вэнс заявил о прогрессе в переговорах между США и Ираном
13.05.2026 22:35:39 | ТАСС

Находящийся под следствием Ермак ведёт переговоры об убежище в Израиле и Канаде
13.05.2026 22:35:02 | Life.ru

Дума разрешила списать часть просроченных долгов участникам спецоперации
13.05.2026 22:33:46 | РБК

Раскрыты последствия выдвинутых Ермаку обвинений для Зеленского
13.05.2026 22:29:57 | Lenta.ru

ТАСС: "Грузинский национальный легион" в ВСУ прекратил свое существование
13.05.2026 22:29:00 | Российская Газета

Филимонов доложил Медведеву об основных показателях Вологодской области
13.05.2026 22:26:35 | ТАСС

Роспотребнадзор заявил о контакте с ВОЗ по ситуации с хантавирусом
13.05.2026 22:26:25 | РБК

Новый процессор NASA для космических кораблей оказался в 500 раз мощнее современных систем
13.05.2026 22:26:00 | iXBT.com

Федор Конюхов рассказал о землетрясениях в Антарктике
13.05.2026 22:24:38 | Lenta.ru

Пасечник назвал Ковальчука грамотным управленцем
13.05.2026 22:24:35 | ТАСС

От финконсультанта в Morgan Stanley до главы ФРС. Карьерный путь Кевина Уорша
13.05.2026 22:24:14 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro