От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

info@vsetut.pro

Стать автором

Вернуться

24.04.2025 13:33:10 | Хабр

Хабы: Блог компании Битрикс24, Искусственный интеллект

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

Подробнее

Читайте также

Диетолог рассказала о пользе консервированных сардин для здоровья
24.04.2025 13:30:40 | ferra.ru

Как оптимально проектировать печатные платы
24.04.2025 13:30:13 | Хабр

Когда бренд делает вид, что не бренд: разбор провала OK Soda от Coca-Cola
24.04.2025 13:29:45 | Хабр

IBM потеряла контракты из-за контроля Маска за правительством США
24.04.2025 13:26:29 | ferra.ru

Минцифры РФ доработает меры против кибермошенников летом 2025 года
24.04.2025 13:26:28 | ferra.ru

[Перевод] Как Factorio соблазнила Кремниевую долину (и меня)
24.04.2025 13:23:03 | Хабр

Игру по «Бегущему по лезвию» отменили, но про неё даже не говорили
24.04.2025 13:22:37 | ferra.ru

РЖД станут крупнейшим полигоном для робототехники в мире
24.04.2025 13:22:25 | ferra.ru

Samsung начала масштабное развертывание One UI 7 на базе Android 15
24.04.2025 13:17:14 | ferra.ru

Everland и ведущие digital-эксперты запускают профессиональные мастерские для людей с инвалидностью и не только
24.04.2025 13:16:31 | Хабр

Часть 1. Как я производство автоматизировал: от «я всё делаю руками» к «система уже всё сделала»
24.04.2025 13:16:10 | Хабр

Минцифры не будет запрещать мессенджеры в России
24.04.2025 13:15:54 | it-world

Варианты усиления фальшпола для ЦОД
24.04.2025 13:10:30 | Хабр

В Google Play изменили способ подтверждения покупки — теперь для этого нужно провести пальцем по экрану
24.04.2025 13:03:19 | vc.ru

Производство компьютеров в России выросло на фоне импортозамещения
24.04.2025 13:01:45 | ferra.ru

Настоящие пассивные EMG HZ и китайские активные звукосниматели
24.04.2025 13:01:06 | Хабр

Surf Coffee уточнила претензии к Surf's Up — школа сёрферов открыла кофейни Surf's Up Media Cafe, «которые копируют визуальный стиль» Surf Coffee
24.04.2025 12:47:45 | vc.ru

Цифра дня: сколько россиян выбирают аудиоконтент для образования и саморазвития?
24.04.2025 12:47:29 | ferra.ru

Эксперты объяснили, почему людям с проблемами с кишечником лучше не принимать пробиотики
24.04.2025 12:45:46 | ferra.ru

Open source: как Mozilla защищает свои разработки
24.04.2025 12:44:04 | Хабр

В России создали доступный протез кисти с индивидуальной настройкой
24.04.2025 12:43:57 | ferra.ru

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
24.04.2025 12:42:55 | Хабр

Как мы разрабатывали платформу цифровизации производств — и внедрили её в последний момент
24.04.2025 12:42:13 | Хабр

Как я делаю 500 млн рублей в год на перемолотых фруктах на маркетплейсах
24.04.2025 12:41:17 | Хабр

YouTube начал тестировать обновлённый интерфейс видеоплеера — впервые за десять лет
24.04.2025 12:34:35 | vc.ru

В России импортозаместили видеоскоп для диагностики ЖКТ
24.04.2025 12:33:13 | ferra.ru

В России создали устройство для сбора мазута с морского дна
24.04.2025 12:19:27 | ferra.ru

Vouch Proxy для OAuth2 при авторизации пользователей в нагруженных системах
24.04.2025 12:12:13 | Хабр

[Перевод] «Как я работаю с техническим долгом»: опыт сеньор-разработчика
24.04.2025 12:10:59 | Хабр

[Перевод] Как 20-летний баг GTA San Andreas всплыл в Windows 11 24H2
24.04.2025 12:10:00 | Хабр

Российские ученые впервые зафиксировали «мягкую корону» наночастиц
24.04.2025 12:07:19 | ferra.ru

«Несломленная»: батарея, которая работает даже если ее проколоть
24.04.2025 12:00:57 | Хабр

Тестируем новые модели o3 и o4-mini от OpenAI
24.04.2025 12:00:35 | Хабр

ИИ научился определять рак легких на четыре месяца раньше врачей
24.04.2025 12:00:13 | ferra.ru

Военные эксперты подсчитали, сколько Канада продержится в случае войны с США
24.04.2025 12:00:00 | ferra.ru

Смотреть все

НОВОСТИ

Вербное воскресенье в 2026 году: смысл и традиции православного праздника
13.04.2026 00:10:00 | Lenta.ru

ТАСС: Украина строит мосты в Молдавию для доставки военных грузов
07.04.2026 18:23:34 | ТАСС

ТАСС: ВСУ не забирают тела двух погибших наемников из Бразилии
07.04.2026 18:23:13 | ТАСС

В Литве ответили на предупреждение России по дронам ВСУ
07.04.2026 18:21:41 | Lenta.ru

Генерал СБУ в отставке: похищающих людей сотрудников ТЦК привлекут к ответу
07.04.2026 18:21:38 | ТАСС

97 сёл в Дагестане отрезаны от мира из-за наводнения
07.04.2026 18:19:33 | Life.ru

Сын Трампа назвал ситуацию в ЕС "катастрофой, требующей исправления"
07.04.2026 18:19:02 | ТАСС

Названа цель заявления Вэнса о вмешательстве Украины в венгерские выборы
07.04.2026 18:18:58 | Lenta.ru

Стартовала всероссийская акция «Цифровой диктант»
07.04.2026 18:18:28 | Life.ru

Конкурсы по космическим профилям для учащихся РФ завершатся космической сменой в июле
07.04.2026 18:18:27 | ТАСС

В России ответили на заявление Вэнса об украинском урегулировании
07.04.2026 18:18:00 | Lenta.ru

Назван молочный продукт с неожиданной пользой для организма
07.04.2026 18:17:00 | Lenta.ru

Под видом участников благотворительных концертов с Украины сбежали 28 уклонистов
07.04.2026 18:15:56 | ТАСС

Москвичам предсказали арктическое вторжение
07.04.2026 18:15:50 | Lenta.ru

СК завел дело о теракте после атаки на школу в Запорожской области
07.04.2026 18:14:10 | ТАСС

Россиянам разъяснили порядок действий при блокировке банковского счета
07.04.2026 18:14:00 | Lenta.ru

В Махачкале восстановили энергоснабжение более 30 тыс. человек
07.04.2026 18:13:13 | ТАСС

Путин поручил Куренкову возглавить комиссию по паводкам в Дагестане
07.04.2026 18:13:08 | Life.ru

Мэр Хасавюрта наградил двух мужчин за спасение собаки во время наводнения
07.04.2026 18:13:04 | Life.ru

В Марий Эл оперативные службы привели в повышенную готовность из-за паводка
07.04.2026 18:13:02 | ТАСС

Минтранс определил план восстановительных работ в Дагестане
07.04.2026 18:12:31 | ТАСС

Овечкин пропустил тренировку после разгромного поражения от "Рейнджерс"
07.04.2026 18:12:18 | ТАСС

Министр просвещения назвал цели введения оценок за поведение в российских школах
07.04.2026 18:12:10 | Lenta.ru

Трамп назвал Такера Карлсона "человеком с низким IQ"
07.04.2026 18:11:02 | ТАСС

Сладкоежка украл почти 100 плиток шоколада в центре Москвы
07.04.2026 18:10:33 | Life.ru

«Вечерняя Москва» представила новый дизайн цифровых платформ холдинга
07.04.2026 18:10:32 | Life.ru

В Петербурге осудили экс-помощника главы МЧС по делу о хищении
07.04.2026 18:10:18 | ТАСС

Экс-начальника иммиграционного контроля МВД по КЧР осудили за взятки
07.04.2026 18:08:46 | ТАСС

Национальный центр исторической памяти будет сотрудничать с музеями Белоруссии
07.04.2026 18:08:23 | ТАСС

VK Tech запускает экосистему решений для корпоративного ИИ
07.04.2026 18:08:20 | Life.ru

В Серпухове после капремонта откроют четыре школы и два моста в 2026 году
07.04.2026 18:08:19 | Life.ru

Трап протаранил кабину пилотов дважды за месяц в аэропорту Австралии
07.04.2026 18:08:06 | Lenta.ru

Татарстанцы спасли испуганного бобра
07.04.2026 18:07:20 | Lenta.ru

В Одессе предложили запретить «всё русское» к началу туристического сезона
07.04.2026 18:07:15 | Life.ru

Для городов Золотого кольца придумали новые логотипы с гусями и рыбами
07.04.2026 18:07:14 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro