Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста. Понятно, что у авторегрессионных моделей множество принципиальных недостатков, которые вряд ли получится устранить в рамках той же архитектуры. Поэтому параллельно нужно не только совершенствовать этот подход, но и развивать совсем другие направления. Когда (или если) текущие триумфаторы упрутся в потолок своих возможностей, понадобится альтернатива. 

О каких недостатках авторегрессионных моделей идет речь? В первую очередь, ограничение самой генерации — последовательно, слово за словом, токен за токеном, слева направо и только так. Локальная согласованность гарантируется, два соседних токена будут друг с другом связаны, а вот два далеких — уже не факт. Согласованность будет экспоненциально убывать, и в итоге конец текста с его началом могут значительно разойтись. С сохранением глобальной согласованности справляются диффузионные модели, которые генерируют изображения. Поэтому перенос диффузионных моделей в дискретное поле языка считается перспективной альтернативой и вероятным будущим соперником авторегрессии. 

Дискретные диффузионные модели восстанавливают весь текст разом из полностью “зашумленного” текста. Под зашумлением подразумевается простая маскировка слов. Преимуществ два. Во-первых, глобальная согласованность, о которой мы уже сказали. Во-вторых, потенциальное ускорение за счет того, что генерация происходит параллельно, а не токен за токеном. Пока эти преимущества именно потенциальные, догнать авторегрессионные модели дискретная диффузия еще не может, но всё-таки уверенно к этому идет. 

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro