Leaderboard Illusion: что не так с Chatbot Arena

info@vsetut.pro

Стать автором

Вернуться

01.05.2025 15:48:25 | Хабр

Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing, Статистика в IT, Научно-популярное

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

Подробнее

Читайте также

Samsung официально подтвердила разработку нового планшета Galaxy Tab S11 с ИИ
01.05.2025 15:42:26 | ferra.ru

HTTP/2 / HTTP/3 и gRPC на Rust: пишем учебный Mini-Transport
01.05.2025 15:32:25 | Хабр

Реализация базового метода Стёрмера-Верле
01.05.2025 15:24:50 | Хабр

Стартап основателя OpenAI Сэма Альтмана представил «мобильник» для скана глаз
01.05.2025 15:13:02 | ferra.ru

Нейро-дайджест: ключевые события мира AI за 21–27 апреля 2025
01.05.2025 15:05:29 | Хабр

Участие в Забайкальском хакатоне: опыт и советы
01.05.2025 15:00:27 | Хабр

Доказано: слишком долгое сидение каждый день приводит к болям в шее
01.05.2025 15:00:08 | ferra.ru

Туманность Де Мерана
01.05.2025 14:56:11 | Хабр

Пара советов по покрытию тестами проекта на SpringBoot
01.05.2025 14:41:58 | Хабр

В Сеть попали живые фото масштабного редизайна Android 16
01.05.2025 14:13:00 | ferra.ru

WSJ сообщила о поиске нового гендиректора для Tesla вместо Маска — предприниматель назвал статью ложью
01.05.2025 14:06:40 | vc.ru

Врач рассказал, что действительно помогает в долгосрочном снижении веса
01.05.2025 13:30:01 | ferra.ru

Google приготовилась внедрить свой ИИ Gemini в iOS 19 уже в этом году
01.05.2025 13:12:57 | ferra.ru

Формула звукоснимателей Хеннинга Паули, только наоборот
01.05.2025 13:01:15 | Хабр

Представлен Sidephone — еще один «глупый» смартфон с необычным дизайном и сменной физической клавиатурой
01.05.2025 12:56:27 | ferra.ru

Илон Маск: ИИ Grok 3.5 сможет давать ответы на вопросы сам, без доступа к данным из сети
01.05.2025 12:46:27 | ferra.ru

Microsoft признала массовой проблему с обновлением Windows 11 до версии 24H2
01.05.2025 12:38:26 | ferra.ru

Квантовый дуализм и реальность на языке информации
01.05.2025 12:34:21 | Хабр

В РФ зарегистрировали 3,5 тыс. лекарств за четыре года
01.05.2025 12:33:07 | ferra.ru

HONOR выпустила игровой ноутбук MagicBook Pro 16 2025 HUNTER с RTX 5070 и Intel Core Ultra 9
01.05.2025 12:29:25 | ferra.ru

Valve выпустила «юбилейную» версию Proton 10.0 в режиме беты с поддержкой Wine 10.0 и новых игр
01.05.2025 12:23:25 | ferra.ru

Производительность TES IV: Oblivion Remastered сравнили на Windows 11 и Linux
01.05.2025 12:15:25 | ferra.ru

Google Pixel 10 порадует людей с чувствительными глазами – улучшенный ШИМ
01.05.2025 12:12:56 | ferra.ru

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за апрель 2025 года
01.05.2025 12:12:45 | Хабр

Как я писала DSL
01.05.2025 12:10:58 | Хабр

У игрового ноутбука Asus V16 вышла версия с «народной» RTX 5060
01.05.2025 12:07:24 | ferra.ru

Написанный ИИ код назвали уязвимостью из-за несуществующих библиотек
01.05.2025 12:00:00 | ferra.ru

День 1163: Абхазия возобновит 1 мая 2025 года регулярное авиасообщение после 30-летнего перерыва
01.05.2025 11:52:33 | vc.ru

Nvidia попросила США смягчить экспортные ограничения на ИИ-чипы
01.05.2025 11:42:34 | ferra.ru

Domain-Driven Design (DDD) — Как сделать архитектуру запутанной
01.05.2025 11:39:34 | Хабр

Совет директоров Tesla начал искать замену Илону Маску
01.05.2025 11:12:53 | ferra.ru

[Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент
01.05.2025 11:00:03 | Хабр

(Не) безопасный дайджест: злые-злые бывшие, багхантер на распутье и конец 4chan
01.05.2025 10:52:31 | Хабр

Samsung запустила производство Galaxy Z Flip 7 с чипом Exynos 2500 — СМИ
01.05.2025 10:50:11 | ferra.ru

Спроси на ИИ Microsoft превысил возможности компании – не хватит мощности
01.05.2025 10:48:07 | ferra.ru

Смотреть все

НОВОСТИ

В администрации Эрдогана надеятся на продолжение переговоров по Украине в апреле
28.03.2026 16:39:53 | Life.ru

Выпавшему из окна 11-го этажа МГТУ им. Баумана студенту оторвало часть ноги
28.03.2026 16:38:50 | Life.ru

Маньяк Гаськов сознался в более чем 100 убийствах с 1995 года
28.03.2026 16:38:14 | Коммерсантъ

В Раде высказались о назвавшей подонками советских солдат Пипе
28.03.2026 16:38:00 | Lenta.ru

России предсказали важную роль в прекращении войны в Иране
28.03.2026 16:36:32 | Lenta.ru

Власти Махачкалы составляют списки пострадавших от подтоплений горожан
28.03.2026 16:36:20 | Life.ru

82-летний мужчина пожертвовал почку зятю и спас ему жизнь
28.03.2026 16:35:07 | Lenta.ru

«Угроза ядерной безопасности»: Росатом оставит небольшую команду на АЭС «Бушер»
28.03.2026 16:33:45 | Life.ru

В Сети появились кадры сожжённой машины, в которой погибли ливанские журналисты
28.03.2026 16:32:19 | Life.ru

Экс-сотрудник охраны Байдена арестован за жестокое убийство в Сан-Франциско
28.03.2026 16:32:00 | Российская Газета

На всей территории Дагестана ввели режим повышенной готовности
28.03.2026 16:31:09 | ТАСС

КСИР сообщил, что сбил американский беспилотник MQ-9 и истребитель F-16
28.03.2026 16:30:42 | ТАСС

В США ужаснулись возможным планам Трампа по поводу операции в Иране
28.03.2026 16:30:29 | Lenta.ru

The Economic Times: Трамп грубо отозвался о наследном принце Саудовской Аравии
28.03.2026 16:28:52 | ТАСС

Мост смыло в Сулейман-Стальском районе Дагестана из-за аномальных дождей
28.03.2026 16:28:11 | Life.ru

На Украине вспыхнул скандал после оскорбления депутатом Пипой советских воинов
28.03.2026 16:28:00 | Российская Газета

Концерт Шакиры в Катаре перенесли на 18 ноября
28.03.2026 16:27:59 | ТАСС

Зеленский предупредил Украину о неприятном последствии войны в Иране
28.03.2026 16:27:05 | Lenta.ru

Прощание с актёром Петром Складчиковым пройдёт в Малом театре
28.03.2026 16:26:05 | Life.ru

Политик Мема: Россия может помочь США в установлении мира в Иране
28.03.2026 16:25:40 | ТАСС

Скончался актёр из «Лучшего стрелка» и «Назад в будущее» Джеймс Толкан
28.03.2026 16:25:00 | Life.ru

Заммэра Сочи Горобца арестовали по делу о фиктивном трудоустройстве дочери
28.03.2026 16:24:06 | Коммерсантъ

Названа еще одна причина наводнений в российском городе
28.03.2026 16:23:18 | Lenta.ru

Слуцкий назвал неизбежным кризис во взаимоотношениях США и Европы
28.03.2026 16:22:48 | ТАСС

Генштаб: Осенью на срочную службу призвали 135 тысяч человек
28.03.2026 16:22:40 | Life.ru

Певица Слава сходила в туалет в прямом эфире
28.03.2026 16:22:17 | Life.ru

В Дербенте окажут материальную помощь пострадавшим из-за подтоплений
28.03.2026 16:21:03 | ТАСС

МИД потребовал немедленно прекратить удары по мирным атомным объектам Ирана
28.03.2026 16:21:00 | Российская Газета

Вице-мэру Сочи предъявили обвинение
28.03.2026 16:21:00 | Lenta.ru

Бывшего футболиста "Спартака" Гаврилова госпитализировали в связи с операцией
28.03.2026 16:20:50 | ТАСС

Украина заключила оборонное соглашение с Катаром
28.03.2026 16:20:36 | Life.ru

Заявление Путина о кризисе с ЕС встревожило западные страны
28.03.2026 16:20:23 | Lenta.ru

Maersk: порт Салала на юге Омана приостановил свою работу после атаки БПЛА
28.03.2026 16:18:59 | ТАСС

ТАСС: рейс Белград - Петербург вернется из Хельсинки в Сербию
28.03.2026 16:18:34 | ТАСС

В Хакасии объявили режим "черного неба" до утра 29 марта
28.03.2026 16:15:39 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro