Хабы: Блог компании Контур, Машинное обучение
В данный момент мы находимся на стадии развития глубинного обучения, когда просто увеличивать кластера для более качественного результата становится проблематично. А потому все начинают спускаться на уровень ниже. И одна из таких ниш для улучшения это, конечно, оптимайзеры.
В мире, к сожалению, все еще главенствуют Adam и AdamW. Но у них есть ряд проблем, которые исследователи усердно пытаются решить, и одна из них – это память. AdEMAMix предлагает максимально топорное решение данной проблемы путем внедрения двух импульсов с различными β. Но от этого оно менее эффективным не становится!
Читать далее