Операция выполнена!
Закрыть
Хабы: Блог компании Сбер, Машинное обучение

Добрый день, уважаемый Хабр. Совсем немного времени прошло с первой публикации, но я уже спешу поделиться с вами своими наработками по тестированию «синтетических» данных и анализу их соответствия реальным данным. В прошлой части я кратко рассмотрел существующие методики применительно к генерации данных, также указал возможные предпосылки нарастающего тренда и самых значимых игроков на этом рынке, коих набралось уже немало. И, признаться сразу, качество их генераций заставляет уже призадуматься (например вот, вот и вот).

Здесь же мне захотелось сосредоточится исключительно на инструментальной части и предложить свой подход к анализу «синтетики». То есть посмотреть, как можно «развернуть» задачу, оптимизировав подход к ней более комплексно, так как уже поднадоело без конца «шить» лоскутное одеяло из множества тестов и метрик (Perplexity, BLEU, ROUGE, METEOR, BERTScore, GLUE, MMLU). Основной идеей было представление имеющихся данных через другие форматы, чтобы конвертировать и находить повторяющиеся паттерны, тренды, аналогии, элементы и возможные аномалии в данных. Ведь любой алгоритм, каким бы он сложным не был, не может выйти за пределы своей генерации, а следовательно, так или иначе будет создавать одни и те же «детектирующие» элементы.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro