
OpenAI совместно с 262 врачами из 60 стран представила открытый бенчмарк HealthBench для оценки больших языковых моделей (LLM) в сфере здравоохранения. Инструмент, разработанный для преодоления ограничений предыдущих тестов, использует 5000 реалистичных многоходовых диалогов, охватывающих экстренные ситуации, работу с клиническими данными и глобальные медицинские сценарии. Каждый диалог оценивается по индивидуальным критериям — врачи разработали свыше 48 тысяч правил, проверяющих точность, коммуникацию, контекстную осведомлённость и другие параметры ответов ИИ.
HealthBench вводит инновационный подход: вместо упрощённых вопросов с множественным выбором здесь анализируются открытые диалоги, где баллы присваиваются за выполнение или нарушение конкретных условий. Например, рекомендация неотложной помощи может дать +10 баллов, а неверный совет до -10. Итоговая оценка модели формируется на основе суммы баллов, нормализованной до шкалы [0, 1]. Для повышения точности разработчики внедрили «критерии консенсуса» — 34 ключевых правила, утверждённых большинством врачей, а также подмножество HealthBench Hard из 1000 сложных случаев, где даже передовые модели вроде GPT-4.1 nano демонстрируют результаты всего в 0,32 балла.

Результаты тестирования показывают прогресс: если GPT-3.5 Turbo набрал 16%, то GPT-4o достиг 32%, а новейшая o3 — 60%. Надёжность моделей, измеряемая по худшему результату из 16 попыток, у o3 вдвое выше, чем у GPT-4o. Однако в критических сценариях, таких как экстренная помощь, уровень ошибок снизился в четыре раза с 2023 года, но проблемы с контекстным поиском и реакцией на неопределённость сохраняются.
Важным аспектом HealthBench стала мета-оценка: согласованность решений врачей и модели-оценщика GPT-4.1 варьируется в пределах 55–75%, что отражает естественную неоднозначность клинических суждений. При этом общая стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.
Несмотря на открытый код и данные, разработчики предупреждают о рисках утечек: в бенчмарк внедрены меры для отслеживания несанкционированного использования. HealthBench уже становится стандартом для исследований, но создатели подчёркивают, что даже лучшие модели пока не готовы к повсеместному применению в медицине — особенно из-за недостаточной надёжности в критических случаях.
-
13.05.2025 11:09:00 | iXBT.com
13.05.2025 11:02:00 | iXBT.com
13.05.2025 10:51:00 | iXBT.com
13.05.2025 10:43:00 | iXBT.com
13.05.2025 10:32:00 | iXBT.com
13.05.2025 10:25:00 | iXBT.com
13.05.2025 10:15:00 | iXBT.com
13.05.2025 09:54:00 | iXBT.com
13.05.2025 09:46:00 | iXBT.com
13.05.2025 09:20:00 | iXBT.com
13.05.2025 09:08:00 | iXBT.com
13.05.2025 08:50:00 | iXBT.com
13.05.2025 08:48:49 | TechCult.ru
13.05.2025 08:41:00 | iXBT.com
13.05.2025 08:25:00 | iXBT.com
13.05.2025 08:12:00 | iXBT.com
13.05.2025 08:03:00 | iXBT.com
13.05.2025 07:45:00 | iXBT.com
13.05.2025 07:35:00 | iXBT.com
13.05.2025 07:24:00 | iXBT.com
13.05.2025 07:09:00 | iXBT.com
13.05.2025 07:03:00 | iXBT.com
13.05.2025 06:58:00 | iXBT.com
13.05.2025 06:42:00 | iXBT.com
13.05.2025 06:32:00 | iXBT.com
13.05.2025 06:09:00 | iXBT.com
12.05.2025 23:46:00 | iXBT.com
12.05.2025 23:19:00 | iXBT.com
-
14.05.2025 02:32:09 | ferra.ru
14.05.2025 02:28:40 | ferra.ru
13.05.2025 23:41:14 | ferra.ru
13.05.2025 23:20:11 | ferra.ru
13.05.2025 23:15:25 | ferra.ru
13.05.2025 22:53:51 | Хабр
13.05.2025 22:26:43 | ferra.ru
13.05.2025 21:47:02 | vc.ru
13.05.2025 21:45:04 | ferra.ru
13.05.2025 21:10:06 | ferra.ru
13.05.2025 21:00:16 | ferra.ru
13.05.2025 20:58:55 | ferra.ru
13.05.2025 20:56:50 | Хабр
13.05.2025 20:56:28 | it-world
13.05.2025 20:50:06 | Хабр
13.05.2025 20:43:52 | ferra.ru
13.05.2025 19:59:59 | ferra.ru
Техническая поддержка проекта ВсеТут