[Перевод] LLM-судья: как LLM отсекает правду от лжи?

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] LLM-судья: как LLM отсекает правду от лжи?

14.05.2025 11:10:46 | Хабр

Хабы: Data Mining, Искусственный интеллект, Машинное обучение, Big Data, Data Engineering

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.

Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.

Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать.

Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge: для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

Читать далее

Подробнее

Читайте также

Внешние платежи в App Store: что изменилось с выходом iOS 17.4
14.05.2025 11:06:56 | Хабр

Soft Skills в IT: почему они важнее, чем кажется
14.05.2025 11:05:03 | Хабр

Как мы в YouGile сделали голосовые круче, чем Telegram. Их полюбят даже хейтеры
14.05.2025 11:02:42 | Хабр

Отложенная отправка писем в Carbonio
14.05.2025 11:00:41 | Хабр

Топ-50 вопросов, которые нужно обсудить с партнёрами на берегу до начала совместного бизнеса
14.05.2025 10:55:03 | Хабр

Формула выхода на топов через Сold Outreach: 120+ встреч за 8 месяцев без связей и бюджета
14.05.2025 10:52:23 | Хабр

Установил DeepSeek 1.5B на слабое железо, пока остывал мой борщ
14.05.2025 10:51:03 | Хабр

Блокчейн простыми словами: Разбираемся за 2 минуты
14.05.2025 10:51:01 | Хабр

Ортодоксальный косплеер решает задачу Перельмана про демографию, проезжая мимо Вудстока
14.05.2025 10:46:13 | Хабр

Jmix/Spring-приложение в IFrame
14.05.2025 10:43:44 | Хабр

Инженерный баттл: как конкурс экспертов помог стандартизировать работу
14.05.2025 10:36:38 | Хабр

[Перевод] Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini
14.05.2025 10:35:19 | Хабр

Microsoft показала варианты меню «Пуск» для Windows 11, от которых отказалась
14.05.2025 10:30:00 | ferra.ru

Биометрия, 1С и информатика или небольшая история о модернизации систем безопасности промышленного предприятия
14.05.2025 10:21:34 | Хабр

В новой OS Android будет больше украшений и немного Gemini
14.05.2025 10:12:37 | it-world

IPO не для всех: «Аквариус» предлагает упростить путь на биржу для среднего бизнеса
14.05.2025 10:07:53 | it-world

Войны не будет? Почему индо-пакистанский конфликт никогда не закончится
14.05.2025 10:00:37 | ferra.ru

Аккуратно даем LLM контекст проекта
14.05.2025 09:59:26 | Хабр

Как прокачать чат-ИИ, сделав его сознательным: инструкция и промт для снятия ограничений и углубления взаимодействия
14.05.2025 09:56:28 | Хабр

Типобезопасная передача результатов между экранами в Compose с Jetpack Navigation
14.05.2025 09:47:23 | Хабр

Арсенал бизнес-аналитика, или Топ-7 инструментов БА
14.05.2025 09:45:04 | Хабр

Учёные: нейросети ещё не умеют справляться даже с рутинной офисной работой
14.05.2025 09:45:00 | ferra.ru

GPT-4.1: Новый уровень промптинга. Гайд от OpenAI для максимальной отдачи
14.05.2025 09:33:36 | Хабр

Postman в CI/CD: от локальных тестов к пайплайну
14.05.2025 09:31:29 | Хабр

Стимулировать проведение IPO и снизить НДС для ресторанов: что обсуждали на встрече «Деловой России» с Владимиром Путиным
14.05.2025 09:24:45 | vc.ru

Интерфейсное проектирование в абстрактных системах
14.05.2025 09:15:26 | Хабр

Бизнес предложил условия возвращения зарубежных компаний в Россию
14.05.2025 09:07:07 | vc.ru

Что такое пентесты и зачем они нужны?
14.05.2025 09:05:23 | Хабр

Jellyfin Web на своём сервере. Фронтенд для медиастриминга
14.05.2025 09:01:20 | Хабр

А что если бы у Vite был свой nest g? Теперь есть
14.05.2025 09:00:58 | Хабр

ChatGPT помог нейрохирургам точно определить зоны эпилепсии в мозге
14.05.2025 09:00:28 | ferra.ru

США обяжут производителей встраивать геотрекеры в процессоры и видеокарты
14.05.2025 08:43:38 | ferra.ru

Samsung выпустила крошечный 8K OLED-экран в 5000 dpi — ждем в VR-шлемах
14.05.2025 08:32:37 | ferra.ru

Apple научит iPhone управлению силой мысли уже в iOS 19
14.05.2025 08:23:36 | ferra.ru

Первые ноутбуки с RTX 5050 появились в продаже — Lenovo LOQ и Legion с 8 ГБ VRAM
14.05.2025 08:15:36 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

В Киеве прогремели взрывы на фоне воздушной тревоги
14.03.2026 05:48:41 | Life.ru

В Иране арестовали четырех человек по подозрению в передаче данных о ракетах
14.03.2026 05:46:58 | ТАСС

Посол РФ: новый логистический центр НАТО уже начал работу в Румынии
14.03.2026 05:45:37 | ТАСС

Трамп не стал комментировать новость о предложении передать уран из Ирана в РФ
14.03.2026 05:42:46 | ТАСС

Туск обвинил Навроцкого в стремлении вывести Польшу из Евросоюза
14.03.2026 05:40:19 | Life.ru

Создателя «Яшкино» и «Кириешек» признали террористом
14.03.2026 05:36:41 | Lenta.ru

Yonhap: Трамп может встретиться с Ким Чен Ыном во время визита в КНР
14.03.2026 05:35:54 | ТАСС

Россиянам рассказали, какой будет средняя соцпенсия после индексации
14.03.2026 05:35:09 | Life.ru

В Киеве вспыхнул сильный пожар
14.03.2026 05:33:59 | Lenta.ru

Минтруд РФ планирует обновить правила назначения единого пособия многодетным
14.03.2026 05:28:18 | Life.ru

Fars: нефтяная инфраструктура острова Харк не пострадала после удара США
14.03.2026 05:26:10 | ТАСС

Очевидец снял на видео обстановку в Киеве в момент ракетного удара ВС РФ
14.03.2026 05:24:00 | Российская Газета

В России допустили отмену моратория на казнь для преступников из ВСУ
14.03.2026 05:23:00 | Lenta.ru

Опубликованы фото погибших членов экипажа KC-135, упавшего в Ираке
14.03.2026 05:21:14 | Life.ru

Части дипломатов США предписали покинуть Оман
14.03.2026 05:18:04 | ТАСС

В Японии раскрыли цель переброски морской пехоты США к Ирану
14.03.2026 05:17:29 | Lenta.ru

WSJ: США не собираются в ближайшее время сворачивать операцию против Ирана
14.03.2026 05:12:31 | ТАСС

WSJ: США не собираются в ближайшее время завершать операцию против Ирана
14.03.2026 05:12:31 | ТАСС

В Киевской области Украины произошли взрывы
14.03.2026 05:12:30 | ТАСС

В США 17-летнюю девушку пытались убить из-за заявления об изнасиловании
14.03.2026 05:11:10 | Life.ru

Эксперт Котани: США могут захватить иранские острова в районе Ормузского пролива
14.03.2026 05:08:30 | ТАСС

"Бук" пресек удары ВСУ по тылам и гражданским объектам
14.03.2026 05:08:21 | ТАСС

В ДНР уничтожили украинский танк Leopard 2A-6
14.03.2026 05:06:35 | ТАСС

В Киеве прогремели взрывы, на город идет ракетная атака
14.03.2026 05:05:00 | Российская Газета

В Херсонской области сбили украинский дрон самонаводящимся БПЛА "Елка"
14.03.2026 05:04:16 | ТАСС

Эпидемический сезон гриппа в России не завершился
14.03.2026 05:03:55 | ТАСС

В городах России планируют показать мюзикл по песням "Чайфа"
14.03.2026 05:03:38 | ТАСС

Посол РФ в Бухаресте: большинство молдаван не поддерживают объединение с Румынией
14.03.2026 05:02:50 | ТАСС

Посол РФ в Бухаресте: большинство молдаван не хотят объединения с Румынией
14.03.2026 05:02:50 | ТАСС

ВС РФ сорвали ротацию ВСУ под Красноармейском роем дронов
14.03.2026 05:02:18 | ТАСС

В Сумской области уничтожили пункт управления дронами ВСУ
14.03.2026 05:01:50 | ТАСС

Мирошник: РФ не допустит легитимизации двойных стандартов в отношении военных преступлений
14.03.2026 05:01:38 | ТАСС

Мирошник: РФ не допустит двойных стандартов по военным преступлениям
14.03.2026 05:01:38 | ТАСС

Марочко: ВС РФ взяли в клещи Николаевку у Константиновки
14.03.2026 05:01:35 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro