Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026

27.01.2026 09:15:34 | Хабр

Хабы: Искусственный интеллект, Разработка под e-commerce, Машинное обучение, Информационная безопасность, Управление продуктом

Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.

В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.

Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?

Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.

Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и GigaChat).

Спойлер: Copilot оказался самым надежным, Claude — самым умным, а китайский Qwen неожиданно «уделал» GPT.

Смотреть результаты

Подробнее

Читайте также

Как мы научили нейросеть распознавать товары на полках: реальный опыт ритейла
27.01.2026 09:14:15 | Хабр

«Ъ»: Минфин предложил легализовать онлайн-казино — для этого создадут единого оператора, который будет отчислять в бюджет не менее 30% выручки
27.01.2026 09:01:09 | vc.ru

Унификация деплоймента сервисов в k8s с помощью Ansible Templates
27.01.2026 09:00:45 | Хабр

ИИ в промышленном IT: где заканчивается хайп и начинается измеримый эффект
27.01.2026 09:00:27 | Хабр

Цифровая реклама: архитектура системы вещания Russ
27.01.2026 09:00:26 | Хабр

Особенности мультипликации печатных плат
27.01.2026 09:00:25 | Хабр

Kimi K2.5: Как научить нейросеть не бояться параллельности
27.01.2026 08:59:55 | Хабр

Что происходит с почтовым сервером при смешанной рабочей нагрузке SMTP и XIMSS
27.01.2026 08:58:17 | Хабр

Tesla впервые уступила лидерство на рынке Китая с момента выхода
27.01.2026 08:57:38 | ferra.ru

Книга: «System Design II. Распределенные системы. Подготовка к сложному интервью»
27.01.2026 08:57:25 | Хабр

Опыт есть, а офферов нет: где резюме теряет деньги и возможности? Как писать резюме правильно?
27.01.2026 08:35:39 | Хабр

Какие ноутбуки россияне заказывали чаще всего на AliExpress в 2025 году (Завтра)
27.01.2026 08:35:05 | ferra.ru

Какие ноутбуки россияне заказывали чаще всего на AliExpress в 2025 году
27.01.2026 08:35:05 | ferra.ru

Датчик CO2 за ~1400р. для HA и Zigbee2MQTT
27.01.2026 08:31:50 | Хабр

Внедрение SIEM ≠ его эффективная эксплуатация
27.01.2026 08:23:42 | Хабр

День 1434: продажи легковых автомобилей с пробегом в 2025 году достигли исторического рекорда в 6,24 млн штук
27.01.2026 08:17:51 | vc.ru

Security Week 2605: тривиальная ошибка в telnetd
27.01.2026 07:56:54 | Хабр

[Перевод] Навыки, которые вы теряете, пока ИИ берет на себя рутинные задачи
27.01.2026 07:51:57 | Хабр

[Перевод] Я решил написать ухудшенный UUID по ничтожнейшим из причин
27.01.2026 07:51:14 | Хабр

Pebble возвращается: зачем в 2026-м снова нужны простые умные часы
27.01.2026 07:48:21 | Хабр

История одного коннектора: как мы научили Qlik говорить с каталогом данных
27.01.2026 07:48:02 | Хабр

Переход с UUID v1 на v7 сократил IO-нагрузку в 2 раза
27.01.2026 07:43:32 | Хабр

Как мы мигрировали с Zeppelin и что из этого вышло. Часть 2. Формы
27.01.2026 07:42:13 | Хабр

[Перевод] Что такое Архитектура ПО?
27.01.2026 07:38:18 | Хабр

Жизненный цикл ERP-систем
27.01.2026 07:30:52 | Хабр

Как развивать платформенные продукты. Саппорт vs критическая инфраструктура
27.01.2026 07:30:49 | Хабр

Распределенная agile-команда – испытание свободой в эпоху ИИ-лихорадки
27.01.2026 07:00:20 | Хабр

АСУ ТП?.. Это очень просто! Или как устроена современная котельная. Часть 2: софт
27.01.2026 07:00:19 | Хабр

Как купец из деревни создал первый российский общественный банк
27.01.2026 07:00:18 | Хабр

Как в одиночку сделать легендарную игру — история Эрика Барони, создавшего фермерский симулятор Stardew Valley
27.01.2026 06:43:13 | Хабр

Обзор книги «Аптайм: Оптимальный способ управления временем и энергией», Лора Мэй Мартин
27.01.2026 06:39:04 | Хабр

[Laravel-Telegram] Пример сервиса на Laravel для авторизации пользователя через Telegram в mini-app
27.01.2026 06:20:03 | Хабр

Qwen3-TTS: синтезируем голос га любом устройстве
27.01.2026 06:00:59 | Хабр

Qwen3-TTS: синтезируем голос на любом устройстве
27.01.2026 06:00:59 | Хабр

Множество Мандельброта — видео! 60 FPS и вращение палитры — анимация. И распараллеливаем. И суперсэмплингом. На C++
27.01.2026 06:00:58 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Из Ирана в Азербайджан с 28 февраля эвакуировали 282 россиянина
07.03.2026 14:23:41 | ТАСС

Один мирный житель Херсонской области погиб и четверо ранены при атаке дронов
07.03.2026 14:20:19 | Life.ru

Трамп: ВС США намерены атаковать ранее не подвергавшиеся ударам районы Ирана
07.03.2026 14:19:18 | ТАСС

Цены на бензин в США выросли до максимума с 2024 года на фоне ударов по Ирану
07.03.2026 14:19:18 | Life.ru

Рожков: российскую делегацию в Вероне встретили очень положительно
07.03.2026 14:17:31 | ТАСС

Мошенники украли у пенсионера почти 12 млн рублей под предлогом утечки данных
07.03.2026 14:16:23 | ТАСС

Депутат Новиков назвал следующую цель США после Венесуэлы и Ирана
07.03.2026 14:15:00 | Российская Газета

Горнолыжник Бугаев принёс России вторую медаль на Паралимпиаде в Италии
07.03.2026 14:14:01 | Life.ru

Появилась информация, что США готовятся к наземной операции в Иране
07.03.2026 14:12:58 | Life.ru

Полиция разыскивает причастных к стрельбе во дворе многоэтажки в Махачкале
07.03.2026 14:11:57 | Life.ru

Рожков назвал медаль Ворончихиной очень важной для российских спортсменов
07.03.2026 14:11:34 | ТАСС

Горнолыжник Бугаев выиграл бронзу Паралимпиады в скоростном спуске
07.03.2026 14:10:31 | ТАСС

Картаполов: ЕС будет "выскребать остатки запасов" оружия для помощи Украине
07.03.2026 14:09:38 | ТАСС

В Иркутске задержали подозреваемого в краже из церкви ювелирных изделий
07.03.2026 14:08:36 | ТАСС

Садкова рассказала, что подошла не в лучшей форме к финалу Гран-при России
07.03.2026 14:07:34 | ТАСС

ЦАХАЛ: попытка спецназа найти штурмана Арада в Ливане обошлась без потерь
07.03.2026 14:06:00 | ТАСС

ТАСС: Стаханове в ЛНР при взорве машины пострадал человек
07.03.2026 14:05:29 | ТАСС

ТАСС: в Стаханове в ЛНР при взорве машины пострадал человек
07.03.2026 14:05:29 | ТАСС

Россиянам назвали главные ошибки, из-за которых быстро гибнут цветы
07.03.2026 14:04:51 | Life.ru

Журова рассказала о зависти иностранцев к россиянам
07.03.2026 14:04:33 | Lenta.ru

Al Hadath: в ходе операции ЦАХАЛ в районе Наби-Шит погибли не менее 29 ливанцев
07.03.2026 14:03:14 | ТАСС

ВС РФ нанесли удар по Днестровской ГАЭС в Черновицкой области
07.03.2026 14:01:50 | Life.ru

В Рязанской области полностью восстановили движение поездов
07.03.2026 14:01:21 | ТАСС

Названа самая модная вещь в гардеробе на осень и зиму у россиян
07.03.2026 14:01:19 | Lenta.ru

Меркель призвала Европу восстановить прямой диалог с Россией
07.03.2026 14:00:28 | ТАСС

Меркель призвала Европу использовать дипломатию для урегулирования на Украине
07.03.2026 14:00:28 | ТАСС

Женская сборная России по футболу вылетела из Дубая
07.03.2026 13:59:47 | ТАСС

Орбан ответил на угрозу Зеленского о разговоре с ВСУ
07.03.2026 13:59:14 | РБК

В Херсонской области при атаке ВСУ погиб мирный житель
07.03.2026 13:58:52 | ТАСС

Blizzard изменит систему прокачки в дополнении Diablo 4: Lord of Hatred
07.03.2026 13:58:02 | PlayGround.ru

Blizzard запускает выходные двойного опыта в Overwatch на весь март
07.03.2026 13:57:23 | PlayGround.ru

Депутат Новиков: Куба как и Иран находится под прицелом США и НАТО
07.03.2026 13:57:16 | ТАСС

Иран анонсировал новую волну атак после извинений президента Пезешкиана
07.03.2026 13:57:00 | РБК

Лариса Долина споет на корпоративе с банкирами
07.03.2026 13:56:39 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro