Операция выполнена!
Закрыть
Хабы: Блог компании BotHub, Искусственный интеллект, Машинное обучение

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3, но до сих пор таких аномалий не находили в DeepSeek‑V3.

Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro