Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения)

08.06.2026 07:01:09 | Хабр

Хабы: Блог компании RUVDS.com, Искусственный интеллект, Научно-популярное, Будущее здесь

Тестирование современных LLM моделей проводится с помощью стандартных бенчмарков, которые оценивают математические способности, программирование, понимание текста или умение строить логические выводы. Однако эти тесты слабо отражают умение моделей вести переговоры, адаптироваться к ситуации и выстраивать социальные взаимодействия.

Давайте выйдет за рамки сухих метрик и поместим нейросети в условия, где логика уступает место психологии. В этой статье мы посмотрим, как будут вести себя языковые модели, оказавших в сложной сиутации, где нужно уметь договариваться, обсуждать и продумывать свои действия наперед.

Ознакомиться

Подробнее

Читайте также

Управление сайтами, мультисайтовость и структура проектов в Matomo
08.06.2026 07:00:08 | Хабр

Бум ИИ — это твой шанс стать тем, кем ты хочешь
08.06.2026 07:00:07 | Хабр

Как я сделал брелок на ATtiny13, научил его трем гипнотическим режимам и превратил в набор для пайки
08.06.2026 06:55:06 | Хабр

Почему в Go больно писать автотесты (и дело не в синтаксисе)
08.06.2026 06:53:05 | Хабр

Регистрация программы в реестре российского ПО Минцифры в 2026
08.06.2026 06:53:04 | Хабр

Obsidian как редактор скриптов интерактивной книги (devlog игровой разработки)
08.06.2026 06:50:52 | Хабр

Украсть пиксели и не задохнуться в сетевом канале. Протокол SPICE в современном графическом стеке, часть 3
08.06.2026 06:50:01 | Хабр

[Перевод] Как подсунуть PostgreSQL чужую статистику. Переносим планы выполнения из продакшн
08.06.2026 06:38:58 | Хабр

Контекстный менеджер Python: пишем свой with и управляем ресурсами через ООП
08.06.2026 06:38:50 | Хабр

Забытый мультиколор (часть 3)
08.06.2026 06:00:44 | Хабр

Почему плести сети лучше, чем тушить пожары: эффективная разработка ПО с опорой на автоматизацию тестирования
08.06.2026 05:38:30 | Хабр

С 1 сентября 2026 можно потерять домен .ru.рф .su, если не пройти идентификацию через госуслуги (есиа)
08.06.2026 05:01:51 | Хабр

Как мы делаем онлайн звонки: Введение в WebRTC и LiveKit
08.06.2026 05:01:35 | Хабр

Кринж-обзор на ПМЭФ-2026, а также масштабное падение крипты
08.06.2026 04:39:41 | Хабр

WebSocket на C++11 и Rust: сравнительный анализ библиотек и двух реализаций одного протокола
08.06.2026 04:38:54 | Хабр

Я обновил онбординг и пейволл в приложении — и за одну неделю заработал больше, чем за предыдущие полгода вместе взятые
08.06.2026 01:11:30 | Хабр

Почему $mol?
07.06.2026 23:23:33 | Хабр

В «Газпром-медиа» поддержали гибридное регулирование ИИ
07.06.2026 22:59:16 | ferra.ru

Илон Маск обсудит с ASML проект Terafab и выпуск 2-нм чипов
07.06.2026 22:55:33 | ferra.ru

Почему память агентов должна храниться у вас
07.06.2026 22:51:59 | Хабр

В российских больницах расширяют применение цифровых технологий
07.06.2026 22:32:40 | ferra.ru

Иллюзия присутствия: почему удалёнка в IT превратилась в культуру «тихого увольнения» (Quiet Quitting)
07.06.2026 22:26:02 | Хабр

Ростех и Иркутская область расширяют выпуск самолетов МС-21
07.06.2026 22:11:59 | ferra.ru

Whiskey Compass: просто стрелка на север
07.06.2026 22:10:57 | Хабр

Роскосмос внедрит ИТ-решения VK Tech
07.06.2026 22:02:12 | ferra.ru

jumie — локальный ИИ ассистент в терминале
07.06.2026 22:00:21 | Хабр

Модель управления качеством
07.06.2026 21:03:00 | Хабр

Новые угольные ТЭС в России предложили строить рядом с месторождениями
07.06.2026 20:59:48 | ferra.ru

Минкультуры России выступило за регулирование ИИ в киноиндустрии
07.06.2026 20:33:17 | ferra.ru

Почему безопасность на этапе релиза обходится в десять раз дороже и как это исправить
07.06.2026 20:03:35 | Хабр

В РФ усилят контроль за развитием инженерных вузов
07.06.2026 19:26:11 | ferra.ru

Терминатор до сих пор самое технически точное описание ИИ, а Detroit: Become Human научное фэнтези
07.06.2026 19:08:37 | Хабр

Генератор мок-данных с персонажами из популярных кинофраншиз
07.06.2026 18:44:51 | Хабр

Генератор мок-данных с персонажами из популярных фильмов и сериалов
07.06.2026 18:44:51 | Хабр

Создание сервера для онлайн ММО игр на PHP ч. 17 — внедряю ИИ: механики из одного описания
07.06.2026 18:34:26 | Хабр

Смотреть все

НОВОСТИ

Видеонаблюдение на ЕГЭ в этом году обойдётся в 1,6 млрд рублей
08.06.2026 12:49:47 | Life.ru

Зампредседателя КНР: Инициатива по глобальному управлению получила поддержку почти 160 стран
08.06.2026 12:49:00 | Российская Газета

Машины — 1, человечество — 0: В Канаде разработали непобедимого робота
08.06.2026 12:48:58 | Life.ru

Лавров: РФ окажет содействие Бангладеш в ее усилиях на дипломатическом поприще
08.06.2026 12:47:45 | ТАСС

Лёгкие нашей планеты: «Роскосмос» показал снимки океанов с высоты 36 тысяч километров
08.06.2026 12:47:21 | Life.ru

Тюкавин назвал Ибрагимова классным футболистом
08.06.2026 12:47:15 | ТАСС

Туристы массово заинтересовались Россией из-за обострения конфликта на Ближнем Востоке
08.06.2026 12:46:57 | Lenta.ru

Глава МИД Бангладеш поблагодарил РФ за поддержку на выборах председателя ГА ООН
08.06.2026 12:46:31 | ТАСС

В Японии предложили изменить закон для решения кризиса престолонаследия
08.06.2026 12:46:10 | ТАСС

В российских школах захотели ввести гипоаллергенное меню
08.06.2026 12:46:03 | Lenta.ru

Bloomberg: Свыше половины жителей Британии хотят, чтобы она вернулась в ЕС
08.06.2026 12:46:00 | Российская Газета

Россия и Танзания обсудили сотрудничество в недропользовании
08.06.2026 12:45:50 | ТАСС

«Просто увеличиваю размеры»: Стивен Сигал объяснил продажу подмосковного особняка
08.06.2026 12:45:31 | Life.ru

Срок введения сбора с электроники в России перенесли на три месяца
08.06.2026 12:45:19 | Lenta.ru

Суд изменил приговор банде вора в законе «Сельмаш»
08.06.2026 12:44:24 | Lenta.ru

Такая сборная России способна выйти из группы ЧМ. Но совершить подвиг — нет
08.06.2026 12:43:14 | ТАСС

Трамп назвал тяжелые последствия для Ирана в случае провала переговоров
08.06.2026 12:40:11 | Lenta.ru

В Тегеране при авиаударах Израиля никто не пострадал
08.06.2026 12:40:06 | ТАСС

МИД Бангладеш надеется на скорый запуск АЭС "Руппур"
08.06.2026 12:39:46 | ТАСС

Венгрия передумала: Евросоюз готов отдать 6,6 млрд евро за оружие для Киева
08.06.2026 12:39:35 | Life.ru

В Госдуме пообещали удары возмездия за атаку ВСУ на поезд в Крыму
08.06.2026 12:39:24 | Life.ru

Трамп призвал Израиль и Иран немедленно прекратить обмен ударами
08.06.2026 12:38:56 | ТАСС

Автобусное сообщение в Крыму функционирует в полном объеме
08.06.2026 12:37:55 | ТАСС

Итоги выборов в Армении поставили под вопрос
08.06.2026 12:37:34 | Lenta.ru

Сборные США и Канады сыграют в одной группе ЧМ по хоккею 2027 года
08.06.2026 12:37:30 | ТАСС

ВМС Италии обнаружили тела 10 мигрантов у берегов Мальты
08.06.2026 12:37:00 | Российская Газета

Лавров: РФ приветствует намерение Бангладеш сделать работу ГА ООН более эффективной
08.06.2026 12:36:08 | ТАСС

Грозы накроют Москву 8 июня
08.06.2026 12:35:41 | Life.ru

Россиян предостерегли от зарплатной назойливости
08.06.2026 12:35:12 | Lenta.ru

АТОР: землетрясение на Филиппинах не затронуло популярные курорты
08.06.2026 12:34:41 | ТАСС

25 тонн подсолнечного масла из цистерны залило дорогу в Улан-Удэ после ДТП
08.06.2026 12:34:18 | Life.ru

Движение по поврежденному ВСУ мосту у Чонгара возобновили в реверсивном режиме
08.06.2026 12:33:52 | ТАСС

Лавров: РФ хочет достичь с Бангладеш договоренностей в юбилейный год отношений
08.06.2026 12:33:22 | ТАСС

Минобороны Украины признало дефицит средств на выплаты для ВСУ
08.06.2026 12:33:00 | Российская Газета

Reuters: число погибших в столкновениях в пакистанской зоне Кашмира достигло 11
08.06.2026 12:32:57 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro