Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл

26.09.2025 18:30:09 | Хабр

Хабы: Блог компании red_mad_robot, Математика, Искусственный интеллект, Исследования и прогнозы в IT

Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные результаты на практике. Например, сегодня хочу рассказать, как мы подошли к решению задачи детекции галлюцинаций LLM в RAG системах со стороны исследования графов размышлений модели — с помощью интересного фреймворка от Anthropic.

В статье поговорим, как использовать cross-layer transcoders и атрибуционные графы для детекции галлюцинаций в RAG системах. Рассмотрим пример реализации детектора на графах для анализа модели Qwen2.5-7B и практические примеры использования. Спойлер: на простой реализации получили точность детекции 85% на тестовом датасете.

Читать далее

Подробнее

Читайте также

Физиологи МГУ изучили работу сердца мышей после космического полета
26.09.2025 18:10:41 | ferra.ru

Ozon завершил переезд в Россию
26.09.2025 18:08:54 | it-world

Росатом запустил программу по внедрению квантовых вычислений
26.09.2025 18:07:14 | ferra.ru

Российские ученые научили дроны сохранять управление при помехах
26.09.2025 18:05:43 | ferra.ru

Умеют ли нейросети создавать игры?
26.09.2025 18:04:37 | Хабр

Honor Magic 8 Pro получит отдельную кнопку для ИИ и новый Snapdragon 8 Elite Gen 5
26.09.2025 18:00:29 | ferra.ru

В Томске создали крупнейший в России 3D-принтер
26.09.2025 18:00:17 | ferra.ru

В России создадут цифровую платформу для создания сложных судостроительных объектов
26.09.2025 17:55:15 | ferra.ru

«Т-Технологии» открыли крупнейший датасет для рекомендательных систем
26.09.2025 17:50:14 | ferra.ru

Google выпустила экспериментальную сборку Android Canary 2509
26.09.2025 17:45:12 | ferra.ru

Создан ИИ-пластырь, что ускоряет заживление ран на 25%
26.09.2025 17:40:10 | ferra.ru

Приложение для записи звонков Neon допустило утечку данных пользователей
26.09.2025 17:35:09 | ferra.ru

Nvidia открыла доступ к свой мощной технологии ИИ-анимации лиц
26.09.2025 17:30:03 | ferra.ru

Ученые из Томска создали экологичный состав для защиты от угольной пыли
26.09.2025 17:29:20 | ferra.ru

В Подмосковье появится новое производство медицинского оборудования
26.09.2025 17:28:29 | ferra.ru

США обяжут иностранных производителей процессоров увеличить выпуск внутри страны
26.09.2025 17:26:19 | ferra.ru

Amazon в смарт-ТВ заменит Android на Linux уже в этом году
26.09.2025 17:20:56 | ferra.ru

ЦБ продлил ещё на полгода ограничения на перевод валюты за рубеж — до 31 марта 2026 года
26.09.2025 17:19:44 | vc.ru

ЦБ предложил МВД создать «механизм реабилитации» для продавцов криптовалюты, попавших в базу подозрительных операций
26.09.2025 17:15:07 | vc.ru

Рост цен, замедление инноваций: Google раскритиковала закон ЕС
26.09.2025 17:00:05 | ferra.ru

Собственный RISC-V процессор: от RTL до симуляции и синтеза под FPGA
26.09.2025 16:58:42 | Хабр

9 из 10 компаний внедрили ИИ. Многие уже разочаровались
26.09.2025 16:50:46 | Хабр

Xiaomi выпустила портативную колонку в виде бруска с 4 ГБ и 10 часами работы
26.09.2025 16:49:23 | ferra.ru

Всего за $200 долларов в месяц ChatGPT поможет каждое утро планировать день
26.09.2025 16:48:01 | ferra.ru

Обзор мониторов для бизнеса на рынке России
26.09.2025 16:47:26 | it-world

Собираем рабочее место с 4K-монитором MSI Modern MD272UPHG
26.09.2025 16:43:16 | it-world

Теперь официально: iQOO 15 получит флагманский Snapdragon 8 Elite Gen 5
26.09.2025 16:41:44 | ferra.ru

История о том, как я расследовала проблему зависаний VSCode и нашла причину
26.09.2025 16:38:01 | Хабр

Крупное обновление интерфейса ОС Samsung показали на Galaxy S25 Ultra
26.09.2025 16:37:27 | ferra.ru

Росатом выведет из эксплуатации 33 атомных реактора к 2045 году
26.09.2025 16:36:12 | ferra.ru

Эксперт назвал простые способы пережить осеннюю усталость без антидепрессантов
26.09.2025 16:35:43 | ferra.ru

Micron и TSMC объединились ради выпуска памяти HBM4E к 2027 году
26.09.2025 16:31:02 | ferra.ru

В России отказались от ручного «лучемета» против дронов
26.09.2025 16:30:25 | ferra.ru

Открылись предзаказы на портативки Xbox Ally — цена доходит до $999
26.09.2025 16:26:01 | ferra.ru

Появились из ниоткуда и быстро исчезли. Вспоминаем феномен мини-консолей и думаем, какую купить в 2025-м
26.09.2025 16:05:41 | Хабр

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

В Мурманской области участники программы "Платформа роста" увеличили оборот на 56%
26.09.2025 23:17:27 | ТАСС

Корреспондент "РГ" узнал стоимость продуктов в центре Нью-Йорка
26.09.2025 23:14:00 | Российская Газета

Текущая ситуация вокруг иранской ядерной программы возникла из-за выходу США из сделки
26.09.2025 23:13:56 | ТАСС

Резолюция СБ ООН в поддержку иранской ядерной сделки скоро перестанет действовать
26.09.2025 23:13:21 | ТАСС

В Лондоне подожгли отель с нелегальными мигрантами
26.09.2025 23:11:16 | ТАСС

Новый вид необычного зверька обнаружили в Перу
26.09.2025 23:11:05 | РЕН ТВ

Президент UCI отверг возможность отстранения израильских велогонщиков
26.09.2025 23:10:44 | ТАСС

США в СБ ООН заявили, что в будущем антииранские санкции могут снять
26.09.2025 23:10:39 | ТАСС

Глава МИД Индии назвал полезной встречу с Лавровым на полях ГА ООН
26.09.2025 23:09:59 | ТАСС

Двое детей погибли при пожаре в Архангельской области
26.09.2025 23:09:46 | РЕН ТВ

Россия предупредила о готовности принять ответные меры в случае передачи активов Киеву
26.09.2025 23:09:45 | Lenta.ru

ЛГБТ-активистку Казанцеву заочно арестовали за нарушение правил для иноагента
26.09.2025 23:09:45 | ТАСС

Мерц заявил о конце мира в Германии
26.09.2025 23:08:00 | Lenta.ru

Bloomberg: Мадуро предлагал Трампу помощь в поиске главарей наркокартеля
26.09.2025 23:06:47 | ТАСС

В украинском городе в результате стрельбы погиб президент Федерации самбо
26.09.2025 23:06:14 | Lenta.ru

В Венгрии описали заявления Зеленского о дронах словом «истерика»
26.09.2025 23:04:59 | Lenta.ru

РФ категорически не признает заявления "евротройки" о якобы запуске механизма snapback
26.09.2025 23:04:36 | ТАСС

В Венгрии назвали заявления Зеленского о дронах истерикой
26.09.2025 23:04:00 | Lenta.ru

Дрон ВСУ атаковал 15-летнего подростка на мотоцикле в Курской области
26.09.2025 23:03:25 | Life.ru

США, Великобритания и Франция хотят развалить сделку по иранской ядерной программе
26.09.2025 23:03:14 | ТАСС

Россиянку обманом вывезли из Таиланда в Мьянму для рабского труда в колл-центре
26.09.2025 23:01:00 | Российская Газета

Бразильский журналист сообщил о катастрофической нехватке денег Украине
26.09.2025 23:00:57 | Life.ru

В Кривом Роге убили президента федерации самбо Евгения Понырко
26.09.2025 23:00:34 | Life.ru

Россия предостерегла Европу от циничного шага
26.09.2025 23:00:00 | Lenta.ru

Al Hadath: план Трампа по Газе предполагает гарантии США
26.09.2025 22:58:27 | ТАСС

В Архангельской области при пожаре в доме погибли двое детей
26.09.2025 22:55:45 | ТАСС

Зеленский поручил военным реагировать на венгерские дроны над Украиной
26.09.2025 22:53:41 | Life.ru

Локомотив в овертайме одолел Автомобилист, выиграв пятый матч в КХЛ подряд
26.09.2025 22:53:12 | Life.ru

Захарова: Киев делает все, чтобы втянуть страны ЕС в "кровавую баню"
26.09.2025 22:52:57 | РЕН ТВ

В ЦБ рассказали о планируемом наказании для «раздолжнителей»
26.09.2025 22:52:12 | РБК

Лавров встретился с главой МИД Индии
26.09.2025 22:52:00 | Lenta.ru

Захарова: Киев делает все, чтобы началась бойня на европейском континенте
26.09.2025 22:51:07 | РЕН ТВ

В Курской области нашли зуб мозазавра возрастом около 80 млн лет
26.09.2025 22:50:58 | Life.ru

Тело трехлетней девочки, которую убил отец, нашли в реке Кубань
26.09.2025 22:50:58 | РЕН ТВ

Телескоп «Джеймс Уэбб» показал самый массивный активный звездообразующий регион в нашей галактике
26.09.2025 22:50:00 | iXBT.com

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro