Хабы: Искусственный интеллект, Машинное обучение, Здоровье, Научно-популярное
Существует очевидная проблема: интернет переполнен дезинформацией, а большинство крупных языковых моделей обучаются на огромном количестве текстов, полученных из интернета.
В идеале, если бы объём точной информации был значительно больше, то для лжи не осталось бы места. Но так ли это на самом деле? В новом исследовании, проведённом учёными Нью-Йоркского университета, изучается, сколько медицинской информации можно включить в обучающий набор большой языковой модели (LLM), прежде чем она начнёт выдавать неточные ответы. Хотя в исследовании не определена нижняя граница, оно показывает, что если на дезинформацию приходится 0,001 процента обучающих данных, то полученная LLM оказывается скомпрометированной.
Читать далее