[Перевод] Почти все бенчмарки для измерения ИИ

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

28.11.2024 07:45:39 | Хабр

Хабы: Искусственный интеллект, Машинное обучение

Многие из наиболее известных тестов для оценки работы моделей искусственного интеллекта устарели или недостаточно продуманы.

Когда появляется новая модель искусственного интеллекта, её обычно рекламируют как лучшую по результатам тестов. Например, модель GPT-4o от OpenAI была представлена в мае с результатами, которые показали, что её производительность превосходит другие модели искусственного интеллекта в нескольких тестах.

Однако проблема в том, что эти тесты плохо продуманы, их результаты сложно воспроизвести, а используемые в них метрики часто не имеют чёткого определения. Это было отмечено в новом исследовании. Это важно, потому что оценки моделей искусственного интеллекта по этим показателям будут определять уровень их проверки и регулирования.

Подробнее

Читайте также

Сколько будет стоить ремонт новых флагманов Huawei — линейки Mate 70
28.11.2024 07:42:31 | ferra.ru

Гонишь, гонишь, не догонишь: возможности нового китайского х86-процессора KaiXian KX-7000
28.11.2024 07:33:53 | Хабр

Неанонсированная видеокарта NVIDIA RTX 5060 будет стоить неожиданно дешево
28.11.2024 07:33:30 | ferra.ru

Как поставщик климатической техники перехитрил алгоритмы Директа и нашел богатых покупателей даже в несезон
28.11.2024 07:30:38 | Хабр

США усилили атомные подводные силы, которым поручено следить за Китаем
28.11.2024 07:30:36 | ferra.ru

Делаю умный дом в бетонной коробке, где (пока) нет даже раковины: начинаю с умных розеток
28.11.2024 07:30:30 | Хабр

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей
28.11.2024 07:29:09 | Хабр

Техно-демо Mireapay
28.11.2024 07:26:29 | Хабр

Intel, живи: власти США выделят $8 млрд на поддержку жизни компании
28.11.2024 07:24:29 | ferra.ru

В сеть слили качественные изображения новых контроллеров Valve — Steam Controller 2 и Roy
28.11.2024 07:15:29 | ferra.ru

2D-ролик: как вложиться не в эфир, а в результат
28.11.2024 07:15:24 | Хабр

Пентест для самых маленьких на примере WinRAR
28.11.2024 07:13:40 | Хабр

Realme анонсировала C75 — первый в мире смартфон на процессоре Helio G92 Max
28.11.2024 07:08:28 | ferra.ru

Realme Neo7, набравший 2.5 млн баллов в AnTuTu, оказался дешевле $350
28.11.2024 07:01:27 | ferra.ru

Диспетчеризация и управление тепловыми завесами крупного объекта: есть ли понятный финансовый выхлоп?
28.11.2024 07:00:18 | Хабр

Нам не нужны кодеры, нам нужны инженеры-разработчики
28.11.2024 07:00:12 | Хабр

Вновь «российские хакеры»: в Firefox и Windows нашли серьезную уязвимость
28.11.2024 06:45:34 | ferra.ru

Перевод CLI-приложения на Python: локализация click и typer с GNU gettext
28.11.2024 06:29:34 | Хабр

Особенности использования СРК в крупных инфраструктурах
28.11.2024 06:14:44 | Хабр

[Перевод] Модель зрелости инфраструктуры как кода
28.11.2024 06:04:43 | Хабр

Делаем опенсорс курс C++ 17+. Присоединяйтесь
28.11.2024 06:02:04 | Хабр

Израиль уменьшил инвестиции в кибербезопасность. Но компаниям это не помешало
28.11.2024 06:00:33 | ferra.ru

Меньше данных, больше смысла: оптимизация мониторинга через сэмплирование
28.11.2024 06:00:09 | Хабр

Не UML-диаграммы на PlantUML. Обзор с примерами
28.11.2024 05:30:05 | Хабр

Итерация по UENUM в Unreal Engine
28.11.2024 05:16:01 | Хабр

И такие бывают: Интерпол накрыл группировку африканских хакеров
28.11.2024 05:15:31 | ferra.ru

Тренды и итоги 2024 года
28.11.2024 05:01:51 | Хабр

Как использовать JDBC коннектора Kafka для повышения производительности обработки и записи данных
28.11.2024 05:00:57 | Хабр

Названа главная проблема AirPods Max за $549 — они устарели
28.11.2024 04:30:30 | ferra.ru

Допущения и ограничения в жизни менеджера
28.11.2024 04:08:48 | Хабр

Диетолог объяснила, так ли важно всегда подсчитывать калории
28.11.2024 04:03:03 | ferra.ru

Оземпик снизил не только вес, но и количество потребляемого алкоголя
28.11.2024 03:45:28 | ferra.ru

Косатки у берегов Аляски снова начали носить «лососевые шляпы», как 40 лет назад
28.11.2024 03:37:59 | ferra.ru

Врач напомнила, сколько шоколада можно есть без вреда для здоровья
28.11.2024 03:29:21 | ferra.ru

«Enshittification» (Обгаживание) названо словом года
28.11.2024 03:00:27 | ferra.ru

Смотреть все

НОВОСТИ

Белый дом намерен добиться отмены приговоров для нападавших на Капитолий
15.04.2026 10:33:00 | Российская Газета

Обыски у создателей крупнейшей схемы уклонения от НДС попали на видео
15.04.2026 10:32:05 | Lenta.ru

Лавров: Запад продвигает идею о новом военном альянсе с участием Украины
15.04.2026 10:32:00 | Российская Газета

Арабский дипломат сообщил о сложностях в переговорах с Ираном
15.04.2026 10:31:30 | Lenta.ru

XChat, KakaoTalk и другие: какие мессенджеры захватывают Россию вместо Telegram
15.04.2026 10:30:10 | Life.ru

Захарова назвала чудовищным уравнивание сталинизма и нацизма на Западе
15.04.2026 10:30:00 | ТАСС

Распространенную у женщин инфекцию захотели признать ИППП
15.04.2026 10:29:44 | Lenta.ru

DPA: почти 80% немцев недовольны работой правительства ФРГ во главе с Мерцем
15.04.2026 10:29:06 | ТАСС

Страшная авария на трассе в Башкирии унесла жизни 4 человек
15.04.2026 10:28:45 | Life.ru

Гуцан предложил запретить госслужбу уволенным из-за утраты доверия
15.04.2026 10:28:34 | ТАСС

Гуцан: с чиновников в 2025 году взыскали втрое больше имущества
15.04.2026 10:28:17 | ТАСС

Самвел Карапетян заявил, что начал процесс отказа от других гражданств помимо армянского
15.04.2026 10:28:08 | ТАСС

Армения на Совете МИД СНГ будет представлена на уровне замминистра
15.04.2026 10:27:55 | ТАСС

Мадьяр объяснил, что делает совершенно невозможным отказ Венгрии от нефти РФ
15.04.2026 10:27:45 | Life.ru

Захарова: РФ направила странам ноты о Дне памяти жертв геноцида советского народа
15.04.2026 10:27:43 | ТАСС

Электромобиль "Атом" станет доступен по подписке сроком до нескольких лет
15.04.2026 10:27:15 | ТАСС

ГП составила реестр проблемных военных городков с проблемами ЖКХ
15.04.2026 10:27:06 | ТАСС

ГП добилась снижения тарифов за коммунальные услуги на 17 млрд рублей
15.04.2026 10:26:03 | ТАСС

Чемпион Испании по дзюдо и лыжи в Андорре: как живёт глава фирмы, отравившей детей-инвалидов
15.04.2026 10:25:59 | Life.ru

NetBlocks: отключение интернета в Иране продолжается более 1 100 часов
15.04.2026 10:25:28 | ТАСС

ГП выявила 15 тыс. нарушений при проверке развития массового спорта
15.04.2026 10:25:28 | ТАСС

У берегов Коста-Рики произошло землетрясение магнитудой 5,7
15.04.2026 10:25:21 | ТАСС

СК раскрыл подробности о причинившей ущерб на триллион рублей группировке
15.04.2026 10:23:53 | Life.ru

В Москве пресечена деятельность группы, нанёсшей бюджету ущерб в триллион рублей
15.04.2026 10:23:53 | Life.ru

СК раскрыл подробности дела ОПГ, нанёсшей бюджету ущерб в 1 трлн рублей
15.04.2026 10:23:53 | Life.ru

Устаревшую Windows 10 внезапно обновили
15.04.2026 10:23:40 | Lenta.ru

Прокуратура проверит качество работы воспитателей в школах
15.04.2026 10:23:21 | ТАСС

Летавшие на Ближний Восток самолеты предложили перевести на рейсы внутри России
15.04.2026 10:23:00 | Lenta.ru

Ксения Собчак вызвала обсуждение в сети из-за фигуры в полупрозрачном наряде
15.04.2026 10:22:52 | Lenta.ru

Трамп раскритиковал отношения с Великобританией
15.04.2026 10:22:32 | ТАСС

Трамп считает возможной сделку с Ираном до конца апреля
15.04.2026 10:22:23 | ТАСС

В четырех областях Украины потребители остались без света
15.04.2026 10:22:17 | ТАСС

Запорожская область полностью обесточена после атаки ВСУ на энергетику
15.04.2026 10:22:05 | ТАСС

Гуцан: в России закреплено право многодетных семей посещать федеральные музеи
15.04.2026 10:21:33 | ТАСС

Шансы Ирана выдержать нефтяную блокаду оценили
15.04.2026 10:21:08 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro