Операция выполнена!
Закрыть
Хабы: Искусственный интеллект

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro