Хабы: Data Mining, Алгоритмы, Математика, R, Исследования и прогнозы в IT
Когда проводится один статистический тест на значимость различий, всегда есть шанс (Ошибка первого рода = 5%, на уровне значимости p=0.05) получить ложный положительный результат случайно. Эта ошибка означает, что мы можем ложно утверждать, что значимое различие существует, при том, что в реальности этой значимости нет.
Когда проводится несколько однотипных тестов подряд, каждый из них имеет 5% шанс на ложный положительный результат. Если коррекция отсутствует, то вероятность, что хотя бы один из этих тестов даст ложный положительный результат, быстро возрастает.
Предположим, что делается 20 однотипных тестов. Вероятность получить ложный положительный результат равна 1 - (1 - 0.05)^20 ≈ 64%.
Как контролировать ошибки читать далее