Хабы: Машинное обучение, Data Mining, Data Engineering, Искусственный интеллект
Сравниваем между собой качество 6 различных токенайзеров, включая OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:
В чем сила? Среди сборника афоризмов.
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small
intfloat/multilingual-e5-large
ai-forever/ruBert-large
ai-forever/sbert_large_mt_nlu_ru
P.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов).
Читать далее