Операция выполнена!
Закрыть
Хабы: Статистика в IT

Это небольшая статья не ставит себе целью подробно и математически строго изложить все подробности. Не является она и практическим описанием алгоритмической стороны дела, так как статьи об этом пребывают в интернете в огромном количестве и без моей помощи. Это скорее попытка подсветить основные недоразумения и оградить от самых распространенных ошибок. К сожалению, приходится констатировать, что популярность и простота критерия Манна-Уитни, как это часто бывает, в итоге обернулась против него самого, что по понятным причинам стало особенно заметно в последнее время. Причем ошибки кроются не в вычислениях, а в неправильном понимании того, для чего собственно этот тест предназначен.

Далее предполагается, что читатель знаком с основами классической методологии статистической проверки гипотез и соответствующей терминологией.

****

В 1947 году появилась статья (H. Mann, D. Whitney) (1), где авторы предложили критерий, способный различать два непрерывных распределения. Таким образом, его нулевую гипотезу можно формулировать так: «Обе выборки порождены одним и тем же распределением», т.е. H0: F(t) = G(t), где F() и G() - функции распределения непрерывных случайных величин X и Y, соответственно. Обратите внимание, мы сейчас формулируем равенство именно в терминах функций распределения (cumulative distribution functions, CDF), а не плотностей (probability density functions, PDF).

Что с альтернативной гипотезой? Здесь и начинается путаница. В оригинальной статье альтернатива представлена следующим образом: HA: F(t) > G(t) (или F(t) < G(t), но далее мы, без потери общности, будем рассматривать только первый вариант). Итак, в авторской версии альтернатива состоит в том, что одна из функций распределения мажорирует другую. В более привычном для практики виде это означает, что плотность случайной величины X "смещена" влево относительно плотности Y (рис. 1).

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro