Хабы: Блог компании Яндекс, Машинное обучение, Искусственный интеллект, Natural Language Processing
Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей — она обязана понимать культурные отсылки самого разного уровня.
В статье про бенчмарки для LLM уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и думаю пришло время рассказать о нём подробнее — как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT и каким мемам её учили.
Читать далее