Почему ИИ-агенты ошибаются в простых веб-задачах — и как граф знаний помогает им перестать быть тупыми

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Почему ИИ-агенты ошибаются в простых веб-задачах — и как граф знаний помогает им перестать быть тупыми

09.10.2025 18:53:57 | Хабр

Хабы: Искусственный интеллект, Машинное обучение

ИИ сегодня может писать тексты, решать задачи и даже управлять сайтами — казалось бы, уже почти как человек. Но вот парадокс: самые продвинутые агенты до сих пор ошибаются на простых сценариях и путаются с кнопками или таблицами. Почему решения, работающие в теории, так часто валятся на реальных веб‑задачах?

Недавнее исследование раскрывает неожиданный нюанс. Оказалось, что дело не только в мощности модели или объёме данных — важнее то, «как» агент рассуждает и организует свои действия в сложной среде. Команда предлагает свежий подход: превращать веб и документы в особый «граф знаний», а тестовые ситуации собирать из него автоматически. Такой подход сразу проявляет слабые места даже у топовых ИИ.

Разбираемся, как устроен новый бенчмарк, почему агенты спотыкаются на пути к настоящей автономности, и — главное — что всё это говорит о будущем ИИ, который должен быть и умным, и по-настоящему полезным в наших цифровых задачах.

Читать далее

Подробнее

Читайте также

Учёные обнаружили, что диетическая газировка плохо влияет на печень
09.10.2025 18:45:02 | ferra.ru

Мы решили задачу омографов и ударений в русском языке
09.10.2025 18:34:02 | Хабр

Как я создала аккаунт с именем «NULL» и мне стали приходить уведомления о покупке доменов другими пользователями
09.10.2025 18:12:51 | Хабр

Российские ученые ускорили проверку солнечных панелей
09.10.2025 18:07:36 | ferra.ru

Облачный бизнес Oracle пострадал из-за стоимости чипов Nvidia
09.10.2025 18:00:56 | ferra.ru

Figure показал третье поколение своего робота-гуманоида Figure 03
09.10.2025 17:57:33 | vc.ru

Google оспорила ограничения на интеграцию Gemini с сервисами
09.10.2025 17:57:26 | ferra.ru

Эксперт рассказала, как уберечь домашнюю технику от скачков напряжения
09.10.2025 17:56:48 | ferra.ru

В МАИ создадут малые спутники для мониторинга Севморпути
09.10.2025 17:51:45 | ferra.ru

Обзор Cursor 1.7: Пишем to-do приложение с ИИ-агентом
09.10.2025 17:39:25 | Хабр

На Google TV появится возможность создавать видео в ответ на запрос
09.10.2025 17:33:05 | ferra.ru

Wildberries открывает покупателям дорогу в инвестиции
09.10.2025 17:23:29 | it-world

Зеленский делает ставку на ракеты: чего ждать России от «Томагавков» и «Фламинго»
09.10.2025 17:17:26 | ferra.ru

HMD Pulse 2 Pro получит дизайн в стиле iPhone 17
09.10.2025 17:15:53 | ferra.ru

Глава «Роскомсвободы» заявил об уходе с поста, сам проект не работает с сентября 2025 года
09.10.2025 17:07:56 | vc.ru

Наталья Касперская объяснила риск отказа от бумажных документов на примере Кореи
09.10.2025 17:03:34 | ferra.ru

Tronsmart T8 Mini: громкая Bluetooth-колонка с автономностью в 20 (!) часов за 3 тысячи рублей
09.10.2025 16:41:22 | ferra.ru

Анти-Эйнштейн в СССР
09.10.2025 16:27:41 | Хабр

От механики к софту: бытовая техника с 3D‑светом и трекингом состояния
09.10.2025 16:15:04 | it-world

В России запустили крупнейший роботизированный завод модулей домостроения
09.10.2025 16:08:03 | ferra.ru

Бывший дизайнер Apple Джони Айв заявил о зависимости пользователей от гаджетов
09.10.2025 15:55:36 | ferra.ru

Китайский производитель Deep представил робота DR02 — «первого» промышленного гуманоида с защитой от пыли и влаги
09.10.2025 15:51:51 | vc.ru

Netflix сделает свои видеоигры доступными на телевизоре
09.10.2025 15:49:05 | ferra.ru

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга
09.10.2025 15:46:52 | Хабр

Nvidia будет платить за каждого иностранного специалиста $100 000 властям США
09.10.2025 15:45:50 | ferra.ru

США одобрили первые поставки чипов Nvidia в ОАЭ в рамках сотрудничества
09.10.2025 15:45:29 | ferra.ru

Чем опасен открытый RDP в интернет. «Home Edition» vs «Enterprise»
09.10.2025 15:43:50 | Хабр

«МТС Банк» представил прототип SIM-карты со встроенным чипом банковской карты
09.10.2025 15:43:09 | vc.ru

AI-агенты для SEO: как автоматизировать 98% рутины и не потерять качество
09.10.2025 15:42:51 | Хабр

Microsoft получила лицензию на медицинский контент Гарварда
09.10.2025 15:42:34 | ferra.ru

The Browser Company открыла доступ к ИИ-браузеру Dia всем пользователям macOS — до этого нужно было записаться в лист ожидания
09.10.2025 15:38:20 | vc.ru

Instagram* начал тестировать доступ к настройкам алгоритма рекомендаций в Reels
09.10.2025 15:31:11 | vc.ru

[Перевод] Как Эйндховен становится опорной точкой для глобального рывка в ИИ
09.10.2025 15:25:02 | Хабр

В помощь реверс-инженерам SNES
09.10.2025 15:17:39 | Хабр

Можно ли отчислить студента по результатам ИИ-детектора
09.10.2025 15:01:02 | it-world

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

КСИР назвал потери США и Израиля с начала конфликта
04.03.2026 01:42:26 | Lenta.ru

Трамп заявил о безразличии к участию сборной Ирана в ЧМ-2026
04.03.2026 01:38:44 | Life.ru

В ОП рассказали о штрафах до 700 тыс. рублей за оскорбления в интернете
04.03.2026 01:37:12 | ТАСС

Иран сбил американский истребитель F-15
04.03.2026 01:34:50 | Lenta.ru

Al Jazeera: "Хезболлах" заявила о ракетном ударе по военно-морской базе в Хайфе
04.03.2026 01:31:49 | ТАСС

Хабенского назвали кандидатом в ректоры Школы-студии МХАТ
04.03.2026 01:30:50 | Life.ru

Shafaq News: в Эрбиле произошли три взрыва
04.03.2026 01:30:08 | ТАСС

Tasnim: еще один истребитель F-15 ВВС США сбили в небе над Кувейтом
04.03.2026 01:27:46 | ТАСС

Трамп стал рекордсменом по числу военных атак по другим государствам
04.03.2026 01:27:29 | Lenta.ru

На Камчатке чиновник Россельхознадзора предстанет перед судом за взяточничество
04.03.2026 01:26:31 | ТАСС

ПВО Бахрейна перехватили более 70 иранских ракет и свыше 90 БПЛА
04.03.2026 01:25:35 | ТАСС

В Ливане назвали число пострадавших из-за атак Израиля
04.03.2026 01:24:14 | Lenta.ru

В России заявили о затяжном характере конфликта на Ближнем Востоке
04.03.2026 01:23:07 | Lenta.ru

Посол в РФ: Иран имеет право на ответ США и Израилю по статье 51 Устава ООН
04.03.2026 01:20:35 | ТАСС

Посол в РФ: Иран имеет право ответить США и Израилю согласно Уставу ООН
04.03.2026 01:20:35 | ТАСС

Спецборт МЧС вывез из Азербайджана 117 россиян, покинувших Иран
04.03.2026 01:17:32 | Life.ru

Число малотравматичных замен клапана сердца в РФ планируют увеличить в 1,5 раза
04.03.2026 01:16:21 | ТАСС

Манекенщица с париком на лобке вышла на подиум на Неделе моды
04.03.2026 01:15:51 | Lenta.ru

От «мопедов» до Fattah: Каким оружием Иран сжигает бюджет Пентагона в $100 млрд
04.03.2026 01:15:00 | Life.ru

Испания в ответ на угрозы Трампа напомнила ему о международном праве
04.03.2026 01:15:00 | Российская Газета

Мерц подарил Трампу копию торгового соглашения между США и Пруссией
04.03.2026 01:13:15 | ТАСС

Армия Израиля зафиксировала еще один ракетный обстрел из Ирана
04.03.2026 01:09:40 | ТАСС

Иран заявил об установлении полного контроля над Ормузским проливом
04.03.2026 01:09:37 | Lenta.ru

В США рассказали о прорыве Ираном американских систем ПВО в ОАЭ
04.03.2026 01:09:12 | Lenta.ru

Международный аэропорт Дамаска будет закрыт до конца суток субботы
04.03.2026 01:08:04 | ТАСС

ТАСС: международный аэропорт Дамаска будет закрыт до конца суток субботы
04.03.2026 01:08:04 | ТАСС

В России рекомендовали приостановить продажу туров в Катар и ОАЭ
04.03.2026 01:08:00 | Lenta.ru

Врач из Кыргызстана отправляет людей на орбиту
04.03.2026 01:07:00 | Российская Газета

Румыния рассматривает предложение Франции о совместном ядерном сдерживании - портал
04.03.2026 01:06:59 | ТАСС

Румыния рассматривает предложение Франции о совместном ядерном сдерживании
04.03.2026 01:06:59 | ТАСС

"Барселона" разгромила "Атлетико", но не вышла в финал Кубка Испании
04.03.2026 01:05:37 | ТАСС

КСИР утверждает, что нанес удары по зданию Минобороны Израиля и военным объектам
04.03.2026 01:05:07 | ТАСС

Футболистки молодежной сборной России обыграли сверстниц из Иордании
04.03.2026 01:05:05 | ТАСС

Гросси: МАГАТЭ не нашло у Ирана ядерного оружия, но было обеспокоено
04.03.2026 01:03:12 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro