
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.

Проблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
-
03.11.2024 22:33:00 | iXBT.com
03.11.2024 22:25:00 | iXBT.com
03.11.2024 22:16:00 | iXBT.com
03.11.2024 22:08:00 | iXBT.com
03.11.2024 21:00:00 | iXBT.com
03.11.2024 20:51:00 | iXBT.com
03.11.2024 20:41:00 | iXBT.com
03.11.2024 20:36:00 | iXBT.com
03.11.2024 20:25:00 | iXBT.com
03.11.2024 20:20:00 | iXBT.com
03.11.2024 20:09:00 | iXBT.com
03.11.2024 19:56:00 | iXBT.com
03.11.2024 19:38:00 | iXBT.com
03.11.2024 19:16:00 | iXBT.com
03.11.2024 18:17:00 | iXBT.com
03.11.2024 15:17:00 | iXBT.com
03.11.2024 15:06:00 | iXBT.com
03.11.2024 14:22:00 | iXBT.com
03.11.2024 13:34:00 | iXBT.com
03.11.2024 13:12:00 | iXBT.com
03.11.2024 13:10:00 | iXBT.com
03.11.2024 12:42:00 | iXBT.com
03.11.2024 12:25:00 | iXBT.com
02.11.2024 23:34:00 | iXBT.com
02.11.2024 23:23:00 | iXBT.com
02.11.2024 23:14:00 | iXBT.com
02.11.2024 23:12:36 | Ведомости
02.11.2024 23:06:00 | iXBT.com
-
17.06.2025 21:37:33 | ferra.ru
17.06.2025 21:00:02 | ferra.ru
17.06.2025 20:15:26 | ferra.ru
17.06.2025 20:00:53 | КИНО-ТЕАТР.РУ
17.06.2025 19:33:23 | vc.ru
17.06.2025 19:30:24 | ferra.ru
17.06.2025 19:15:52 | КИНО-ТЕАТР.РУ
17.06.2025 19:00:33 | ferra.ru
17.06.2025 19:00:16 | ferra.ru
17.06.2025 18:45:00 | ferra.ru
17.06.2025 18:44:30 | ferra.ru
17.06.2025 18:30:55 | vc.ru
17.06.2025 18:30:53 | КИНО-ТЕАТР.РУ
17.06.2025 18:05:59 | vc.ru
17.06.2025 18:05:45 | Хабр
17.06.2025 18:00:00 | ferra.ru
17.06.2025 17:43:40 | Хабр
17.06.2025 17:23:40 | vc.ru
17.06.2025 17:15:00 | ferra.ru
Техническая поддержка проекта ВсеТут