В новом исследовании учёные выявили тревожную тенденцию: искусственный интеллект загрязняет онлайн-экосистему академической информации сгенерированными научными статьями.
Группа исследователей изучила распространённость статей с признаками искусственно сгенерированного текста в Google Scholar - популярной академической поисковой системе. Они сосредоточились на неправомерном использовании генеративных предобученных трансформеров (GPT), как больших языковых моделей, включая такие известные системы, как ChatGPT от OpenAI.
Источник: University of Borås
Анализ выборки научных статей в Google Scholar показал, что две трети изученных работ были как минимум частично созданы с помощью GPT без указания этого факта. Из GPT-сфабрикованных статей 14,5% касались здравоохранения, 19,5% - окружающей среды, а 23% - вычислительной техники.
«Риск того, что мы называем "манипулированием доказательствами", значительно возрастает, когда исследования, сгенерированные ИИ, распространяются в поисковых системах», - отметил Бьёрн Экстрём, соавтор исследования из Шведской школы библиотечных и информационных наук.
Исследователи выделили два основных риска. Во-первых, обилие сфабрикованных «исследований» угрожает целостности научных данных. Во-вторых, возрастает вероятность того, что убедительно выглядящий научный контент на самом деле был создан с помощью ИИ и оптимизирован для поиска в общедоступных академических поисковых системах.
«Если мы не можем доверять подлинности исследований, которые читаем, то мы рискуем принимать решения на основе неверной информации», - подчеркнула Ютта Хайдер, соавтор исследования.
Проблема усугубляется тем, что ИИ-сгенерированные тексты были обнаружены как в рецензируемых работах, так и в менее проверенных материалах, что указывает на загрязнение всей онлайн-системы академической информации.
Эксперты призывают к созданию защитных механизмов в рецензируемых журналах и поисковых системах академических работ, чтобы технологии ИИ служили научным открытиям, а не противодействовали им.