Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

12.01.2025 14:15:10 | Хабр

Хабы: Машинное обучение, Natural Language Processing, Искусственный интеллект

Сдерживает ли токенизация потенциал больших языковых моделей? Несмотря на свою популярность, этот подход имеет ряд ограничений, которые становятся всё более заметными с развитием LLM. В статье мы разберём, почему токенизация является костылём, какие проблемы она создаёт и какие альтернативные методы предлагают исследователи для их решения. От байтовых моделей до работы с концептами — как пытаются улучшить ситуацию и что это может означать для будущего языковых моделей.

Читать далее

Подробнее

Читайте также

Как «токены» типографики использовались в дореволюционной России
12.01.2025 14:11:03 | Хабр

PGlite — полноценный Postgres-сервер на WASM. Работает прямо в браузере и Node.js
12.01.2025 14:09:13 | Хабр

Канадские учёные первыми объяснили странные белые пятна у северного сияния
12.01.2025 13:30:21 | ferra.ru

Основные идеи книги Inspired («Вдохновленные») Марти Кагана. Часть 1
12.01.2025 13:17:03 | Хабр

[Перевод] Геолокация места, где был убит лидер ХАМАС Яхья Синвар
12.01.2025 13:01:53 | Хабр

Прокрастинации не существует
12.01.2025 12:49:31 | Хабр

ИИ создаст 78 миллионов рабочих мест к 2030 году
12.01.2025 12:45:19 | ferra.ru

Топ-5 популярных вопросов на Android собеседовании [2025]
12.01.2025 12:44:30 | Хабр

«85% кандидатов отказываются»: эффективна ли практика one-day offer
12.01.2025 12:41:36 | vc.ru

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик
12.01.2025 12:15:54 | Хабр

Anker представила адаптер на 140 Вт и компактный пауэрбанк с 25 000 мАч
12.01.2025 12:00:18 | ferra.ru

Сделай сам: фреоновый чиллер из кондиционера
12.01.2025 11:59:11 | Хабр

Kotlin Coroutines под капотом: отмена корутин
12.01.2025 11:27:48 | Хабр

[Перевод] Проецирование контента через ng-content
12.01.2025 11:16:43 | Хабр

Американцы стали активнее следить за судьбой TikTok в стране
12.01.2025 11:15:16 | ferra.ru

Что на неделе: Python — язык года, видеоигры — деструктивный контент, код на Java — лирика для песни
12.01.2025 10:49:57 | Хабр

Кто-то использовал устройство для слежки за телефонами на встрече демократов США
12.01.2025 10:30:15 | ferra.ru

Кастомные сообщения об ошибках в FluentValidation
12.01.2025 10:16:36 | Хабр

Создаем анимированные стикеры для Telegram за один вечер с помощью ИИ. Пошаговое руководство
12.01.2025 10:13:23 | Хабр

Мобильная разработка за неделю #570 (6 — 12 января)
12.01.2025 09:50:30 | Хабр

SpaceX понизил орбиты спутников Starlink, чтобы не мешать учёным
12.01.2025 09:45:13 | ferra.ru

Кто должен платить отчисления в размере 3% за распространение рекламы в интернете с 2025 года?
12.01.2025 09:45:13 | Хабр

Нейросети vs Stack Overflow: что происходит?
12.01.2025 09:38:11 | Хабр

[Перевод] Настоящая причина нейродегенерации. Удары по голове и спящий вирус
12.01.2025 09:25:55 | Хабр

[Перевод] Упрощаем «простой» ELF
12.01.2025 09:01:23 | Хабр

Минюст и регулятор США встали на сторону Маска в суде против OpenAI
12.01.2025 09:00:12 | ferra.ru

Разбор рендеринга в Unity, часть первая: Built-in rendering
12.01.2025 08:20:10 | Хабр

Хакеры атаковали базу данных с 60 миллионами учениками по всему миру
12.01.2025 08:15:10 | ferra.ru

Как в Канаде инженеры меняли крупнейший в мире авиадвигатель при температуре в -40 °C
12.01.2025 08:00:05 | Хабр

Архитектурные паттерны для высокой масштабируемости. Часть 2
12.01.2025 08:00:04 | Хабр

Плеер VLC получит функцию оффлайн-генерации субтитров на на более чем 100 языках
12.01.2025 07:30:09 | ferra.ru

React Context
12.01.2025 07:14:56 | Хабр

Уволился с позиции тимлида и снова стал разработчиком
12.01.2025 07:01:54 | Хабр

Создана саморазрушающаяся вакцина против туберкулеза
12.01.2025 06:45:07 | ferra.ru

[Перевод] Остерегайтесь эффекта Makefile
12.01.2025 06:39:38 | Хабр

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

Катастрофический ураган «Мелисса» накроет страны Карибского бассейна
28.10.2025 02:25:00 | Lenta.ru

Шансы ушедших из России компаний вернуться оценили
28.10.2025 02:24:30 | Lenta.ru

Юг и центральная часть Сахалина остались без электроэнергии
28.10.2025 02:24:19 | Коммерсантъ

CNN: для Конгресса провели семь закрытых брифингов по наркокартелям
28.10.2025 02:19:33 | ТАСС

Перебои на электросетях не повлияли на работу аэропорта Южно-Сахалинска
28.10.2025 02:18:56 | ТАСС

Климатолог сравнил осеннюю погоду в Москве с субтропиками
28.10.2025 02:16:10 | ТАСС

Бомбардировщики B-1B ВВС США в понедельник совершили пролёт возле Венесуэлы
28.10.2025 02:12:44 | Life.ru

Степашин уличил Запад в попытках сорвать диалог Путина и Трампа
28.10.2025 02:11:30 | ТАСС

Военблогер рассказал о мошеннических схемах Запада при поставках оружия Украине
28.10.2025 02:06:41 | Lenta.ru

Проверку дееспособности продавца жилья предложили сделать обязательной
28.10.2025 02:06:20 | ТАСС

После десятилетий на сцене Филипп Киркоров объявил о своём новом титуле
28.10.2025 02:03:36 | Life.ru

В провинции Гуандун в 2026 году пройдут Дни культуры Приморского края
28.10.2025 02:03:31 | ТАСС

В ОП выступили за введение уголовной ответственности за незаконный майнинг
28.10.2025 02:03:04 | ТАСС

Эксперт Машаров: нужно ввести уголовную ответственность за незаконный майнинг
28.10.2025 02:03:04 | ТАСС

Samsung выпустит самый дорогой смартфон
28.10.2025 02:01:38 | Lenta.ru

Алаудинов: полная деморализация украинских подразделений "не за горами"
28.10.2025 02:01:29 | ТАСС

Полицейский снял видео под юбкой у девушки в магазине и попался
28.10.2025 02:01:25 | Lenta.ru

Уставшим друг от друга супругам предложили неожиданный способ проверить отношения
28.10.2025 02:01:12 | Lenta.ru

Эксперт Киселев: ВС РФ взяли под контроль дорогу, отвечающую за снабжение ВСУ
28.10.2025 02:01:10 | ТАСС

Посол РФ: Индонезия заинтересована в поставках нефти и газа из России
28.10.2025 02:01:06 | ТАСС

Врач назвала пять основных принципов долголетия
28.10.2025 02:00:00 | ТАСС

Россиян научили очищать ковер от пятен
28.10.2025 01:59:26 | Lenta.ru

В Госдуме предложили ввести в российских школах шведский стол
28.10.2025 01:57:20 | Lenta.ru

Собак с синим окрасом заметили в Чернобыле
28.10.2025 01:55:00 | Lenta.ru

Посольство РФ на Кубе предупредило туристов о лихорадках денге и чикунгунья
28.10.2025 01:55:00 | Российская Газета

"Радиостанция судного дня" передала два загадочных сообщения
28.10.2025 01:54:51 | РЕН ТВ

Шойгу обвинил Запад в стремлении разделить Россию
28.10.2025 01:52:41 | Lenta.ru

Житель Приморья зарезал экс-супругу
28.10.2025 01:51:25 | РЕН ТВ

Хорватия и Украина договорились о совместном производстве оборонной продукции
28.10.2025 01:51:07 | Life.ru

На Сахалине произошел блэкаут
28.10.2025 01:48:21 | РБК

Брюссель ускоряет создание «стены дронов» в связи с метеозондами в Литве
28.10.2025 01:46:28 | Life.ru

Известный актер рассказал о прохождении пути Раскольникова в Петербурге
28.10.2025 01:45:39 | Lenta.ru

NASA закрыло данные об астероиде US6 после пролета болида над Москвой
28.10.2025 01:44:30 | РБК

«Роскосмос» хочет больше частот для управления дронами с орбиты
28.10.2025 01:40:32 | Ведомости

На Сахалине масштабный блэкаут, несколько районов и городов остались без света
28.10.2025 01:38:39 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro