Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

13.09.2025 14:38:20 | Хабр

Хабы: Искусственный интеллект, Машинное обучение

Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.

Читать далее

Подробнее

Читайте также

Асинхронность в микроконтроллерах
13.09.2025 14:35:47 | Хабр

Moto G 2026 и Moto G Play 2026: утечка рендеров и характеристик
13.09.2025 14:15:50 | ferra.ru

Инструмент лидера команды N 2. Распределительное лидерство/Shared leadership
13.09.2025 14:09:00 | Хабр

День программиста: от CGI до Zope
13.09.2025 13:47:19 | Хабр

[Перевод] Космический телескоп имени Эдвина Хаббла исследует комплекс туманностей в Большом Магеллановом Облаке
13.09.2025 13:39:08 | Хабр

Первые смартфоны с Dimensity 9500 — серия Vivo X300 — выйдут 13 октября: СМИ
13.09.2025 13:30:48 | ferra.ru

Археология живого сообщества: О чём спорят в Фидонет-эхах спустя более 40 лет после создания сети?
13.09.2025 13:01:43 | Хабр

Как я делал сеть на 2,5 гигабита с минимальным бюджетом — апгрейд, доступный каждому
13.09.2025 13:01:43 | Хабр

Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда
13.09.2025 12:52:26 | Хабр

В зоопарке Великобритании родила игуана-девственница
13.09.2025 12:45:46 | ferra.ru

Жизнь на Марсе? (снова)
13.09.2025 12:28:07 | Хабр

День 1298: Politico узнало, что Еврокомиссия готовит рекомендации по ужесточению визовых правил для россиян
13.09.2025 12:06:26 | vc.ru

На ИИ-поисковик Perplexity подали в суд за «кражу» контента
13.09.2025 12:00:44 | ferra.ru

Перевод жестов, спутниковые кредиты и защита данных победили на конкурсе Ant Group
13.09.2025 11:15:42 | ferra.ru

Дожить до 150 лет: как с помощью наноботов, печати органов, ИИ и других технологий учёные пытаются продлить человеческую жизнь
13.09.2025 11:07:05 | vc.ru

Nintendo Virtual Boy: неожиданное возрождение виртуальной реальности из 90-х
13.09.2025 11:00:33 | Хабр

[Перевод] Сон, гормона роста и восстановление. Как именно организм работает ночью
13.09.2025 10:56:58 | Хабр

Sony без лишнего шума представила Xperia 10 VII с новым дизайном
13.09.2025 10:30:39 | ferra.ru

Издатели против ИИ в борьбе за авторское право
13.09.2025 10:20:00 | it-world

Клиент вечно недоволен: инструкция по выживанию для PM
13.09.2025 10:00:27 | Хабр

Высоко сижу, далеко гляжу, всё вижу! Новые подходы к детекции объектов с помощью радиосигналов
13.09.2025 09:48:24 | Хабр

Гуманоидного робота Robbyant R1 научили готовить
13.09.2025 09:45:33 | ferra.ru

Сэндвич, сэр? История британских бутербродов от аристократических салонов до вокзальных буфетов
13.09.2025 09:01:18 | Хабр

Ant Group: криптовалюта должна помогать экономике, а не служить спекуляции
13.09.2025 09:00:28 | ferra.ru

Рубиновая скрижаль
13.09.2025 08:48:54 | Хабр

Трактат о природе формального доказательства
13.09.2025 08:39:13 | Хабр

Ещё один AI инструмент для Unity: «распаковка» Code Maestro
13.09.2025 08:38:06 | Хабр

Станислав Петров: «Ключевые отличия РЕД ОС М от Android – вовсе не в интерфейсе»
13.09.2025 08:23:13 | Хабр

Google удалит старое приложение «Погода» с Wear OS 6
13.09.2025 08:15:25 | ferra.ru

[Перевод] Миф о быстром и медленном пути выполнения программы
13.09.2025 08:06:11 | Хабр

[Перевод] Умное зеркало на Raspberry Pi: пошаговое руководство
13.09.2025 08:00:10 | Хабр

От мини-ЭВМ и перфокарт к IDE и фреймворкам. Как поменялось программирование за 50 лет — взгляд изнутри
13.09.2025 08:00:08 | Хабр

Промт: как получать лучшие результаты в Midjourney
13.09.2025 07:25:10 | Хабр

Подставляем TOTP в Chrome c помощью Yubikey
13.09.2025 07:10:03 | Хабр

Самый молодой резидент Product Radar: как семиклассник Максим Николаев создал безопасный браузер для детей
13.09.2025 07:02:00 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Масленников: Евросоюз хочет создать правовой задел на разрыв связей с Россией
06.03.2026 03:23:18 | Life.ru

Эксперт Тарасова разъяснила возможность проведения экзаменов частным школам
06.03.2026 03:17:35 | ТАСС

Туристка из РФ отметила день рождения в Дохе на пляже под взрывы ракет
06.03.2026 03:15:47 | ТАСС

Русскоязычные жители Тель-Авива стали свидетелями удара кассетными боеприпасами
06.03.2026 03:14:15 | Life.ru

Солдаты ВСУ начали тонуть в своих же окопах
06.03.2026 03:14:00 | Lenta.ru

Росмолодежь: в 2025 году заблокировано 45 тыс. ресурсов с опасным контентом
06.03.2026 03:10:13 | ТАСС

ФСБ рассекретила документы о сотрудницах контрразведки «Смерш», ловивших шпионов
06.03.2026 03:09:26 | Life.ru

АТОР: отдых в Турции и Египте почти не подорожал на фоне ближневосточного кризиса
06.03.2026 03:09:21 | ТАСС

Эксперт Бергельсон: точка в общении в мессенджерах стала символом грубости
06.03.2026 03:08:08 | ТАСС

Туристка описала реакцию жителей Дубая на работу ПВО словами «шейхи гуляют»
06.03.2026 03:07:05 | Lenta.ru

В Перу приостановили экспорт газа из-за аварии
06.03.2026 03:06:19 | ТАСС

WSJ: ОАЭ рассматривают возможность заморозки иранских активов
06.03.2026 03:05:40 | ТАСС

В Якутске планируют провести раскопки на участке в исторической части города
06.03.2026 03:05:25 | ТАСС

Суд рассмотрит дело о подпольном казино с выручкой свыше 99 млн рублей в Приморье
06.03.2026 03:03:00 | ТАСС

В Приморье суд рассмотрит дело о подпольном казино с доходом свыше 99 млн рублей
06.03.2026 03:03:00 | ТАСС

Reuters: США разрешили Индии покупать нефть РФ, которая находится в танкерах
06.03.2026 03:02:34 | ТАСС

Reuters: США разрешили Индии покупать российскую нефть в танкерах в море
06.03.2026 03:02:34 | ТАСС

Марочко: освободив Яровую, ВС РФ поддавливают ВСУ с фланга у Дробышева
06.03.2026 03:01:59 | ТАСС

Девушка получила огнестрельное ранение в зад на похоронах матери
06.03.2026 03:00:57 | Lenta.ru

Мирошник: нормы международного права трещат и рассыпаются
06.03.2026 03:00:52 | ТАСС

Секс-коуч объяснила популярность нового необычного фетиша
06.03.2026 03:00:46 | Lenta.ru

Кувейт сообщил, что отразил ракетную атаку
06.03.2026 03:00:44 | ТАСС

Варикоз и тромбы по наследству: Как гены влияют на риск «синдрома экономкласса» при перелётах
06.03.2026 03:00:00 | Life.ru

В Анадыре к празднику вырастили 2 тыс. тюльпанов
06.03.2026 02:59:38 | ТАСС

Посольство РФ: новые даты визита премьер-министра Пакистана не определены
06.03.2026 02:57:12 | ТАСС

Al Jazeera: в Тегеране произошли мощные взрывы
06.03.2026 02:56:41 | ТАСС

В США обвинили россиянина в отмывании $1,2 млн
06.03.2026 02:54:24 | ТАСС

Трамп заявил, что США после Ирана займутся Кубой
06.03.2026 02:50:14 | ТАСС

Самые выгодные из самых мощных: в AnTuTu назвали лучшие флагманы по соотношению цены и производительности в феврале 2026 года
06.03.2026 02:50:00 | iXBT.com

Бахрейн заявил об ударах Ирана по двум отелям и жилому дому в Манаме
06.03.2026 02:47:59 | ТАСС

Имущество Цаликова может быть обращено в доход государства
06.03.2026 02:47:05 | ТАСС

ТАСС: имущество Цаликова может быть обращено в доход государства
06.03.2026 02:47:05 | ТАСС

Известный художник и автор скульптуры «Рука-стул» ушел из жизни
06.03.2026 02:45:39 | Lenta.ru

Опасность удара БПЛА объявили еще в двух районах Воронежской области
06.03.2026 02:43:16 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro