Ученые из США и Канады проверили, насколько хорошо понимают визуальную информацию самые популярные большие языковые модели (LLM) с функциями зрения (VLM). В работе, опубликованной на arXiv, ученые протестировали GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet и Claude-3.5 Sonnet.