Операция выполнена!
Закрыть
Хабы: Блог компании Timeweb Cloud, Искусственный интеллект, Научно-популярное, Машинное обучение, Базы данных

В современных задачах анализа данных, от биоинформатики и нейробиологии до социальных и поведенческих исследований, обычно используется традиционный пайплайн обработки данных. Он почти всегда включает агрессивную предварительную фильтрацию признаков, снижение размерности (PCA и аналоги), а затем кластеризацию или обучение нейросетевых моделей.

На практике эти шаги считаются технически необходимыми и редко подвергаются сомнению. В этой статье я хочу обсудить, почему в исследовательском анализе такая практика может приводить к систематически некорректным выводам — и даже к созданию искусственных сущностей, не существующих в реальности. Код, эксперимент и комментарий кандидата биологических наук, сотрудника РАН Дарьи Романовой ниже.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro