Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

15.04.2026 11:43:41 | Хабр

Хабы: Искусственный интеллект, Информационная безопасность, Java, Машинное обучение

Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.

Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан. Модель может её переинтерпретировать, «забыть» при длинном контексте или просто обойти через специальные конструкции. Guardrails — это другой уровень: они работают на уровне кода, до и после вызова LLM, и модель физически не может их обойти.

Читать далее

Подробнее

Читайте также

Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение
15.04.2026 11:42:38 | Хабр

Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют
15.04.2026 11:36:30 | Хабр

Российские приложения начали блокировать VPN. Что происходит и как с этим жить
15.04.2026 11:35:56 | Хабр

В мире без субстанций: иллюзия свободы воли, вероятности событий и отсутствие независимого предназначения у предметов
15.04.2026 11:32:46 | Хабр

Лучшие 2.5D-игры в 2026 году
15.04.2026 11:29:28 | Хабр

Деконструкция Go: модель памяти, happens-before и почему ваш код работает
15.04.2026 11:16:05 | Хабр

1500 откликов за 30 дней — Эксперимент. День 15
15.04.2026 11:04:10 | Хабр

Wildberries запустил кредиты на автомобили — пока в тестовом режиме
15.04.2026 10:52:22 | vc.ru

Какие сервисы для приёма криптовалюты для бизнеса лучше
15.04.2026 10:38:02 | Хабр

OpenTelemetry и Sentry: как мы выстроили сбор телеметрии в микросервисной системе
15.04.2026 10:30:58 | Хабр

Сервинг модели Grounding DINO с BentoML
15.04.2026 10:19:56 | Хабр

В Meta* создали цифровую копию Марка Цукерберга
15.04.2026 10:18:31 | ferra.ru

Как мы подружили QA и unit-тесты через Allure (и встроили их в регресс)
15.04.2026 10:01:57 | Хабр

Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки
15.04.2026 10:00:51 | Хабр

Чему нас могут научить бессмертные? Как Древние мифы решают взрослые проблемы
15.04.2026 09:54:09 | Хабр

realme 16 Pro: 200 Мп, 7000 мАч и 144 Гц в среднем классе
15.04.2026 09:48:39 | it-world

Нейросети в маркетинге: все гораздо сложнее, чем кажется
15.04.2026 09:46:34 | Хабр

Моцарт ex Machina: Кто научил ИИ сочинять музыку
15.04.2026 09:42:54 | Хабр

AI в ИБ RuStore: от ревью задач и кода до AI-DAST
15.04.2026 09:40:43 | Хабр

Топ‑7 медицинских заблуждений россиян: разбираем мифы с точки зрения науки
15.04.2026 09:39:15 | Хабр

Не общались напрямую. Как мы построили устойчивую связку Диадок-Битрикс24
15.04.2026 09:37:10 | Хабр

[Перевод] Мой 14-летний путь отказа от ORM: череда инсайтов, приведшая к созданию SQL-First кодогенератора для PostgreSQL
15.04.2026 09:36:01 | Хабр

Хакни себя сам и не дай другим: как увидеть свою инфраструктуру глазами хакера
15.04.2026 09:32:22 | Хабр

Банки стремительно сокращают сеть отделений
15.04.2026 09:29:04 | it-world

[Перевод] Анализ технологии Denuvo
15.04.2026 09:28:59 | Хабр

Google открыла всем пользователям Windows доступ к ИИ-панели поиска, похожей на Spotlight от Apple
15.04.2026 09:28:09 | vc.ru

День 1511: ритейлеры попросили с 2027 года установить НДС в 22% на онлайн-заказы из-за рубежа
15.04.2026 09:02:15 | vc.ru

Пошаговые диалоги в Python без боли: описываем визарды в JSON, а не в if-ах
15.04.2026 09:00:34 | Хабр

Как измерить лидерство: история модели компетенций тимлида в hh.ru
15.04.2026 09:00:32 | Хабр

Как монетизировать AI-сервис: подписка, оплата по использованию и кредиты
15.04.2026 08:58:29 | Хабр

Обзор Compo ESB
15.04.2026 08:43:47 | Хабр

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
15.04.2026 08:40:22 | Хабр

Максимально эффективная интеграция ИИ в робототехнику
15.04.2026 08:36:20 | Хабр

В моде тёмно-красный: Android-производители присмотрелись к цветам iPhone 18
15.04.2026 08:18:35 | ferra.ru

RAG: Как собрать свой ретривер для особых случаев
15.04.2026 08:17:59 | Хабр

Смотреть все

НОВОСТИ

El Universal: мэра мексиканского Сан-Мигель-Аматитлана застрелили
13.06.2026 21:52:24 | ТАСС

Иран восстановил около 75% запасов ракет. На Западе подозревают, что без России тут не обошлось
13.06.2026 21:49:17 | Life.ru

Трамп: Ормузский пролив будет открыт после заключения сделки с Ираном
13.06.2026 21:48:57 | Life.ru

Назван самый вероятный счет в матче чемпионата мира между Бельгией и Египтом
13.06.2026 21:46:30 | Lenta.ru

Владельцем выпускающей БПЛА Hornet для атак на Россию фирмы оказался экс-глава Google
13.06.2026 21:45:39 | Lenta.ru

Евраев: ремонт дороги в Брейтовском округе Ярославской области начнут в 2026 году
13.06.2026 21:41:31 | ТАСС

Армянский оппозиционер Царукян подал в суд на Пашиняна и национальное телевидение
13.06.2026 21:40:39 | Lenta.ru

МИД РФ: Киеву не уйти от ответственности за преступление в Старобельске
13.06.2026 21:39:35 | ТАСС

Силовики рассказали о сверхдоходах западных магнатов от финансирования Украины
13.06.2026 21:39:00 | Российская Газета

Дождь затопил улицы Москвы по колено под раскаты грома
13.06.2026 21:38:54 | Life.ru

Евраев: газ в котельные Брейтовского округа Ярославской области запустят в июле
13.06.2026 21:38:48 | ТАСС

FT: Вспышка вируса Эбола является "генеральной репетицией" новой пандемии
13.06.2026 21:38:00 | Российская Газета

Экс-разведчик Риттер заявил, что ВСУ ударили по Старобельску в момент его визита
13.06.2026 21:36:20 | Life.ru

Вице-премьер Патрушев: Россия ежегодно наращивает площади виноградников
13.06.2026 21:35:44 | ТАСС

Трамп отказался предоставить Ирану деньги от США
13.06.2026 21:32:53 | Lenta.ru

Несколько человек пострадали при атаке ВСУ по рынку в ЛНР
13.06.2026 21:31:53 | Lenta.ru

Несколько человек пострадали при атаке ВСУ на рынок в ЛНР
13.06.2026 21:31:00 | Lenta.ru

За день над регионами России сбили 109 украинских дронов
13.06.2026 21:29:24 | Life.ru

МИД Украины заявил, что все биолаборатории в стране гражданские
13.06.2026 21:27:51 | Life.ru

Более 2,6 тыс. жителей Новгородской области остались без света в непогоду
13.06.2026 21:27:10 | ТАСС

В Москве открылся V Международный конкурс молодых пианистов Grand Piano Competition
13.06.2026 21:25:13 | ТАСС

Две девочки утонули во время купания в озере в Тульской области
13.06.2026 21:24:08 | Life.ru

Медаль погибшего при освобождении Молдавии красноармейца передадут родным в РФ
13.06.2026 21:23:33 | ТАСС

Два человека погибли и более 20 пострадали в ДТП в Одинцово
13.06.2026 21:23:06 | Коммерсантъ

Инциденты со стрельбой продолжают происходить в США после начала чемпионата мира
13.06.2026 21:22:17 | ТАСС

На Украине отвергли обвинения в разработке биологического оружия
13.06.2026 21:22:15 | Lenta.ru

ВСУ атаковали гараж больницы в Херсонской области
13.06.2026 21:17:38 | ТАСС

В Тульской области утонули двое детей
13.06.2026 21:15:08 | ТАСС

Два человека погибли, ещё двое пострадали в ДТП в районе Одинцово
13.06.2026 21:14:28 | Life.ru

В больницах находятся 19 пострадавших в ДТП в Одинцове
13.06.2026 21:13:13 | ТАСС

Минздрав: 19 пострадавших в ДТП в Одинцове госпитализировали
13.06.2026 21:13:13 | ТАСС

В Подмосковье загорелся хостел
13.06.2026 21:13:06 | Lenta.ru

Стало известно о строительстве правительством Орбана тайного лагеря для нелегалов
13.06.2026 21:13:00 | Lenta.ru

В подмосковных Люберцах загорелся хостел «Чкалофф»
13.06.2026 21:11:21 | Life.ru

Имя Трампа убрали с фасада Кеннеди-центра
13.06.2026 21:10:26 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro