Операция выполнена!
Закрыть
08.04.2025 19:04:02 | Хабр
Хабы: Искусственный интеллект, Мессенджеры, Развитие стартапа, Разработка систем связи, Социальные сети и сообщества

Привет, я — дата-сайентист, и в свободное время моими двумя главными хобби являются дейтинг и ведение блога про ML. Казалось бы, что общего у поиска идеального мэтча в Tinder Twinby (тиндер нужно зачеркнуть или убрать если не поддерживается зачеркивание)  и оценки больших языковых моделей? На самом деле — довольно много. Существующие методы бенчмаркинга LLM делятся на две большие категории: оффлайн и онлайн. И если оффлайн-бенчмарки похожи на попытку понять, понравится ли тебе человек, просто прочитав его профиль (спойлер: шансы попасть в точку небольшие), то онлайн-бенчмарки дают гораздо более честную оценку. Ведь только в живом общении становится понятно, кто перед тобой: твоя идеальная пара или бот, генерирующий странные сообщения. Именно поэтому мы решили создать самый честный онлайн-бенчмарк, где LLM придётся пройти суровую проверку в дейтинг-приложении.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro