Хабы: Искусственный интеллект, Машинное обучение
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов.
А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.
Так я начал свой хобби-проект "AI человеческим языком". Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.
После громко стрельнувших DeepSeek V3/R1, и прочих, многие стали обращать внимание на то, что в описании моделей используется "архитектура Mixture of Experts". Также, её можно увидеть у Microsoft, Mistral, Facebook: Phi3.5-MoE, Mixtral, NLLB-200, и прочие.
Поэтому первое, о чем мне хочется рассказать - это архитектура "Mixture of Experts".
Читать далее