Генерация синтетических данных для LLM. Часть 2: графовый анализ

info@vsetut.pro

Стать автором

Вернуться

19.05.2025 06:30:42 | Хабр

Хабы: Блог компании Сбер, Машинное обучение

Добрый день, уважаемый Хабр. Совсем немного времени прошло с первой публикации, но я уже спешу поделиться с вами своими наработками по тестированию «синтетических» данных и анализу их соответствия реальным данным. В прошлой части я кратко рассмотрел существующие методики применительно к генерации данных, также указал возможные предпосылки нарастающего тренда и самых значимых игроков на этом рынке, коих набралось уже немало. И, признаться сразу, качество их генераций заставляет уже призадуматься (например вот, вот и вот).

Здесь же мне захотелось сосредоточится исключительно на инструментальной части и предложить свой подход к анализу «синтетики». То есть посмотреть, как можно «развернуть» задачу, оптимизировав подход к ней более комплексно, так как уже поднадоело без конца «шить» лоскутное одеяло из множества тестов и метрик (Perplexity, BLEU, ROUGE, METEOR, BERTScore, GLUE, MMLU). Основной идеей было представление имеющихся данных через другие форматы, чтобы конвертировать и находить повторяющиеся паттерны, тренды, аналогии, элементы и возможные аномалии в данных. Ведь любой алгоритм, каким бы он сложным не был, не может выйти за пределы своей генерации, а следовательно, так или иначе будет создавать одни и те же «детектирующие» элементы.

Подробнее

Читайте также

Понимающий робот: голосовой интерфейс на ESP32 и OpenAI
19.05.2025 06:30:38 | Хабр

[Перевод] Бюрократия под микроскопом: как она рождается, живёт и мешает бизнесу развиваться
19.05.2025 06:28:16 | Хабр

Язык Julia: что это и почему он популярен в научных вычислениях
19.05.2025 06:15:40 | Хабр

Расширение для решения капчи — какое выбрать — с поддержкой ИИ или человека? Чем бесплатное отличается от платного?
19.05.2025 06:12:56 | Хабр

Почему мы выбрали Eltex vESR в качестве импортозамещенного маршрутизатора для облачных сервисов
19.05.2025 06:00:34 | Хабр

Open Source и C++: делай что должен и свершится, чему суждено
19.05.2025 06:00:32 | Хабр

Horizon Aircraft совершила первый переход с вертикального на горизонтальный полёт
19.05.2025 06:00:09 | ferra.ru

Можно ли оценить эффективность цифровой трансформации или это просто дань моде?
19.05.2025 05:30:25 | Хабр

Делаем ландшафт на основе реальных данных
19.05.2025 05:27:23 | Хабр

MCP: революция в мире искусственного интеллекта
19.05.2025 05:20:39 | Хабр

Мой любимый векторный редактор PowerPoint или как я создал python библиотеку для добавления фигур в презентации
19.05.2025 05:18:40 | Хабр

Хочу умный дом, умнее меня: история одного концепта
19.05.2025 05:16:38 | Хабр

Делайте “активные перерывы”: эксперты рассказали, как улучшить концентрацию внимания
19.05.2025 05:15:43 | ferra.ru

IT рынок раздулся и теперь лопнул — есть ли дефицит в ИТ в 2025 году?
19.05.2025 05:15:20 | Хабр

DLQ-first: учим Kafka-консьюмера падать красиво и поднимать поток за секунды
19.05.2025 05:12:18 | Хабр

Нужно ли системному аналитику разбираться в программировании?
19.05.2025 05:11:22 | Хабр

Работа с Revit API: устранение рутины при разработке и доставке плагинов
19.05.2025 05:00:16 | Хабр

Илон Маск опять идеологизирует ИИ Грока, а также запрет мемного Пепе-лягушонка в РФ
19.05.2025 04:48:39 | Хабр

Учёные обнаружили, что живые существа излучают свет
19.05.2025 04:30:11 | ferra.ru

Объясняем UniTask так, чтобы понял даже ребенок (для Unity разработчиков и не только)
19.05.2025 04:18:13 | Хабр

Всегда используйте target_session_attrs=read-write (или primary) при подключении к кластеру PostgreSQL
19.05.2025 04:13:10 | Хабр

Диаграмма Прецедентов (англ. Use Case Diagram)
19.05.2025 04:00:07 | Хабр

Учёный объяснил, почему люди верят в ложную информацию о здоровье
19.05.2025 03:45:40 | ferra.ru

Как провести пользовательское исследование без пользователей: пошаговый гайд с PyAutoGen
19.05.2025 03:26:56 | Хабр

Нехватка белка и другие ошибки в питании, которые влияют на рост мышц
19.05.2025 03:00:59 | ferra.ru

Заряд энергии и другие последствия для здоровья употребления батончика с протеином каждый день
19.05.2025 02:15:55 | ferra.ru

Зелёный и другие виды чая, которые помогут сбросить вес
19.05.2025 01:30:39 | ferra.ru

Эксперт назвал признаки стороннего подключения к домашнему Wi-Fi
19.05.2025 01:23:32 | ferra.ru

Большинство россиян экономят время на рутинных задачах с помощью ИИ
19.05.2025 01:13:26 | ferra.ru

Учёные НИТУ МИСИС нашли способ сократить опасные выбросы при выплавке чугуна
19.05.2025 01:07:05 | ferra.ru

Что нового в vite-plugin-create v1.0.1 или как я ещё на шаг приблизился к идеальному генератору
19.05.2025 00:56:07 | Хабр

Авокадо назвали лучшим фруктом для здоровья сердца
19.05.2025 00:45:53 | ferra.ru

В России начнут использовать наночастицы графена для лечения рака крови
19.05.2025 00:39:41 | ferra.ru

Виртуальная реальность оказалось эффективным способ бороться с хронической болью
19.05.2025 00:23:46 | ferra.ru

Более трети задач программистов выполняются нейросетями
19.05.2025 00:04:48 | ferra.ru

Смотреть все

НОВОСТИ

Две шайбы Тарасенко помогли "Миннесоте" победить "Торонто" в матче НХЛ
20.01.2026 07:08:34 | ТАСС

МГУ: воспитатели точнее родителей оценивают способность ребенка к самоконтролю
20.01.2026 07:08:11 | ТАСС

В Омской области из-за бешенства введут карантин в двух поселениях
20.01.2026 07:07:09 | ТАСС

Эксперт Суслов не исключил новые силовые акции США в 2026 году
20.01.2026 07:06:54 | ТАСС

Силовики рассказали о сидевших в окопе с погибшими сослуживцами бойцах ВСУ
20.01.2026 07:06:11 | Lenta.ru

Эксперт Лихачева: ограблению Лувра способствовал "инсайт" со стороны музея
20.01.2026 07:04:55 | ТАСС

Аномальные морозы в части регионов юга России временно отступят к концу недели
20.01.2026 07:04:09 | ТАСС

Мирошник: ВСУ в январе до 520 раз в сутки били по России
20.01.2026 07:03:23 | ТАСС

Эксперт Сушенцов: на Украине растет вероятность переворота
20.01.2026 07:02:44 | ТАСС

В России оценили состояние переговоров о мире с Украиной
20.01.2026 07:02:31 | Lenta.ru

Женщина пережила околосмертный опыт и назвала его волшебным
20.01.2026 07:02:18 | Lenta.ru

В сети обсудили внешность 79-летнего Сильвестра Сталлоне на видео из спортзала
20.01.2026 07:02:05 | Lenta.ru

Раскрыт возраст наибольшей сексуальной активности у женщин
20.01.2026 07:01:53 | Lenta.ru

Раскрыта личная выгода Трампа от присоединения Гренландии
20.01.2026 07:01:42 | Lenta.ru

Мирошник: почти 60 россиян погибли с начала января при ударах ВСУ
20.01.2026 07:01:33 | ТАСС

Эксперт Бреммер: Трамп сделал США главным источником нестабильности
20.01.2026 07:01:28 | ТАСС

Хоккеист "Колорадо" Ничушкин попал в ДТП
20.01.2026 07:01:10 | ТАСС

Китай увеличил импорт российской водки на 19% в 2025 году
20.01.2026 07:00:50 | ТАСС

Жара, огонь, анархия и смертельный марафон: Афины находятся на грани выживания
20.01.2026 07:00:00 | РЕН ТВ

Закрытый грунт открывается для инвестиций // ГК «Рост» может запустить тепличный комплекс в Калининградской области
20.01.2026 07:00:00 | Коммерсантъ

Доскачем ли, куда не доползли: сценарии в международной политике, которые нельзя исключать
20.01.2026 07:00:00 | ТАСС

Эксперт Кнутов: ВСУ хотят создать по всему фронту 50-километровую "киллзону"
20.01.2026 07:00:00 | Российская Газета

В Киеве изменили движение метро из-за проблем с электроснабжением
20.01.2026 06:59:01 | ТАСС

Ковач: Разосланные жителям ЕС инструкции нацелены на подготовку к ядерной войне
20.01.2026 06:59:00 | Life.ru

Экс-сотрудник СБУ назвал Украину «черной дырой» коррупции
20.01.2026 06:55:00 | Lenta.ru

В Совфеде предупредили о скрытых уловках банков при депозитах
20.01.2026 06:54:27 | РЕН ТВ

Голкипер "Флориды" Бобровский подрался с вратарем "Сан-Хосе" в матче НХЛ
20.01.2026 06:54:09 | ТАСС

В Раде сделали заявление об утраченных территориях
20.01.2026 06:54:06 | Lenta.ru

Вратарь «Флориды» Бобровский устроил драку с коллегой из «Сан-Хосе» в матче НХЛ
20.01.2026 06:51:23 | Life.ru

В Госдуме напомнили о штрафах за самовольную установку тамбурной двери
20.01.2026 06:49:34 | РЕН ТВ

Politico: Трамп не назначал личных встреч c Зеленским на форуме в Давосе
20.01.2026 06:48:01 | ТАСС

На Западе предрекли провал Украине и Евросоюзу
20.01.2026 06:47:26 | Lenta.ru

Эксперт Ван: силовое присоединение США Гренландии стало бы катастрофой для НАТО
20.01.2026 06:46:19 | ТАСС

Посол РФ: Дания оказала помощь Украине в размере €10,5 млрд
20.01.2026 06:45:49 | РЕН ТВ

Во многих регионах Северо-Запада России сохранится мягкая зима
20.01.2026 06:45:24 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro