Достигаемый уровень значимости

p-value простыми словами, с объяснениями и примерами

Как найти p-value?

Источник.

1. Определите ожидаемые в вашем эксперименте результаты

Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными». Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках. Для вашего эксперимента определите ожидаемые результаты, и выразите их в виде чисел.

Пример: Например, более ранние исследования показали, что в вашей стране красные машины чаще получают штрафы за превышение скорости, чем синие машины. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Мы хотим определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе. Для этого мы будем анализировать штрафы, выданные за превышение скорости. Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо красным, либо синим автомобилям, мы ожидаем, что 100 штрафов будет выписано красным автомобилям, а 50 синим, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране.

2. Определите наблюдаемые результаты вашего эксперимента

Теперь, когда вы опредили ожидаемые результаты, необходимо провести эксперимент, и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел. Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности – либо это произошло случайно, либо это вызвано именно нашим экспериментом. Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» – гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.

Пример: Например, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо красным, либо синим автомобилям. Мы определили, что 90 штрафов были выписаны красным автомобилям, и 60 синим. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно. Действительно ли наш эксперимент (в данном случае, изменение источника данных с национального на городской) привел к данному изменению в результатах, или наша городская полиция относится предвзято точно так же, как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.

3. Определите число степеней свободы вашего эксперимента

Число степеней свободы — это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы – Число степеней свободы = n-1, где «n» это число категорий или переменных, которые вы анализируете в своем эксперименте.

Пример: В нашем эксперименте две категории результатов: одна категория для красных машин, и одна для синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы. Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы, и так далее.

4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат

Хи-квадрат (пишется «x2») это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее x2 = Σ((o-e)2/e), где «o» это наблюдаемое значение, а «e» это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).

Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.05)2/e) для каждого возможного результата, и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата – либо машина, получившая штраф красная, либо синяя. Поэтому мы должны посчитать ((o-e)2/e) дважды – один раз для красных машин, и один раз для синих машин.

Пример: Давайте подставим наши ожидаемые и наблюдаемые значения в уравнение x2 = Σ((o-e)2/e). Помните, что из-за оператора суммирования нам необходимо посчитать ((o-e)2/e) дважды – один раз для красных автомобилей, и один раз для синих автомобилей. Мы выполним эту работу следующим образом:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Выберите уровень значимости

Теперь, когда мы знаем число степеней свободы нашего эксперимента, и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах. Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты получились случайно, и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0.01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1%).

По соглашению, ученые обычно устанавливают уровень значимости своих экспериментов равным 0.05, или 5%.[2] Это означает, что экспериментальные результаты, которые соответствуют такому критерию значимости, только с вероятностью 5% могли получиться чисто случайно. Другими словами, существует 95% вероятность, что результаты были вызваны тем, как ученый манипулировал экспериментальными переменными, а не случайно. Для большинства экспериментов 95% уверенности наличия связи между двумя переменными достаточно, чтобы считать, что они «действительно» связаны друг с другом.

Пример: для нашего примера с красными и синими машинами, давайте последуем соглашению между учеными, и установим уровень значимости в 0.05.

6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение

Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению. Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца. Ваше p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).

Таблицы с распределением хи-квадрат можно получить из множества источников (вот по этой ссылке можно найти одну из них).

Пример: Наше значение критерия хи-квадрат было равно 3. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку. Идем слева направо по данной строке, пока не встретим значение, большее 3, нашего значения критерия хи-квадрат. Первое, которое мы находим это 3.84. Смотрим вверх нашего столбца, и видим, что соответствующее p-значение равно 0.05. Это означает, что наше p-значение между 0.05 и 0.1 (следующее p-значение в таблице по возрастанию).

7. Решите, отклонить или оставить вашу нулевую гипотезу

Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты). Если ваше p-значение меньше, чем ваш уровень значимости – поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали и результатами, которые вы наблюдали. Если ваше p-значение выше, чем ваш уровень значимости, вы не можете с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией вашими переменными.

Пример: Наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу. Это означает, что мы не достигли минимум 95% вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы красным и синим автомобилям с такой вероятностью, которая достаточно сильно отличается от средней по стране.

Другими словами, существует 5-10% шанс, что наблюдаемые нами результаты – это не последствия смены места (анализа города, а не всей страны), а просто случайность. Так как мы потребовали точности меньше чем 5%, мы не можем сказать что мы уверены в том, что полиция нашего города менее предвзято относится к красным автомобилям – существует небольшая (но статистически значимая) вероятность, что это не так.

Формальное определение и процедура тестирования

Пример вычисления P-значения. Вертикальная координата — плотность вероятности каждого результата, вычисленная для нулевой гипотезы  H 0 {displaystyle H_{0}} . Величина P-значения — область под кривой, ограниченной по оси абсцисс наблюдаемой точкой данных.

Пример вычисления P-значения. Вертикальная координата —

плотность вероятности

каждого результата, вычисленная для нулевой гипотезы

H0{displaystyle H_{0}}H_{0}

. Величина P-значения — область под кривой, ограниченной по оси абсцисс наблюдаемой точкой данных.

Пусть T(X){displaystyle T(X)}T(X) — статистика, используемая при тестировании некоторой нулевой гипотезы H0{displaystyle H_{0}}H_{0}. Предполагается, что если нулевая гипотеза справедлива, то распределение этой статистики известно. Обозначим функцию распределения F(t)=P(T<t){displaystyle F(t)=P(T<t)}F(t)=P(T<t). P-значение чаще всего (при проверке правосторонней альтернативы) определяется как:

P(t)=P(T>t)=1−F(t){displaystyle P(t)=P(T>t)=1-F(t)}P(t)=P(T>t)=1-F(t)

При проверке левосторонней альтернативы,

P0(t)=P(T<t)=F(t){displaystyle P_{0}(t)=P(T<t)=F(t)}P_{0}(t)=P(T<t)=F(t)

В случае двустороннего теста p-значение равно:

P(t)=2min(P0,P){displaystyle P(t)=2min(P_{0},P)}P(t)=2min(P_{0},P)

Если p(t) меньше заданного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной. В противном случае она не отвергается.

Преимуществом данного подхода является то, что видно при каком уровне значимости нулевая гипотеза будет отвергнута, а при каких принята, то есть виден уровень надежности статистических выводов, точнее вероятность ошибки при отвержении нулевой гипотезы. При любом уровне значимости больше p{displaystyle p}p нулевая гипотеза отвергается, а при меньших значениях — нет.

Метод проверки гипотез

В реальности истинная средняя по генеральной совокупности неизвестна и ее значение можно только предполагать. Такое предположение называется статистической гипотезой, обозначается H. Если предположение противоречит наблюдаемым данным, то гипотезу отклоняют, как ложную; если не противоречит, то не отклоняют. Степень противоречия определяется вероятностью, которая в свою очередь зависит от того, как далеко фактическая выборочная средняя отклоняется от гипотезы. Если она (вероятность) достаточно маленькая, то противоречие считается доказанным (не забывая о возможной ошибке). Для расчета вероятности выбирают вероятностно-статистическую модель, которая описывает поведение оценки при многократном повторении эксперимента. В случае со средней арифметической в большой выборке подойдет стандартное нормальное распределение.

Распределение средних, если гипотеза верна

Теперь нужно определить, какова вероятность извлечь из такой генеральной совокупности имеющуюся выборочную среднюю. Если она окажется в зоне близкой к центру, то это не противоречит гипотезе, ведь такое вполне может произойти в силу случайности. Но если она окажется далеко, например, выйдет за пределы ± 1,96 стандартные ошибки, то это будет означать что, либо произошло маловероятное событие, либо выдвинутая гипотеза ложна и ее следует отклонить.

Правила проверки гипотезы (статистического вывода) показаны на рисунке.

Правила проверки статистической гипотезы

Предельное значение, которое разделяет области принятия и отклонения гипотезы, называется критическим уровнем. Область отклонения гипотезы – критическая область. Вероятность, соответствующая критической области, – уровень значимости, обозначается греческой буквой α (альфа). Например, α = 0,05 означает, что уровень значимости равен 5%. Очевидно, что между критическим уровнем и уровнем значимости существует функциональная взаимосвязь.

Чтобы определить, в какую область попадает выборочная средняя, нужно рассчитать т.н. статистический критерий, иногда говорят статистика. Большие значения критерия, как правило, свидетельствуют в пользу того, что отличие не случайно и, соответственно, гипотеза не верна. Статистический критерий для нормальной модели – это обычная z-оценка, рассчитываемая по известной формуле.

Статистический критерий при нормальном распределении

где

z – критерийx̄ – наблюдаемое среднее арифметическоеμ – гипотетическая средняя в генеральной совокупностиs – среднеквадратическое отклонение выборочных данныхn – объем выборки

Если рассчитанный критерий оказывается по модулю больше, чем критическое значение, т.е. попадает в критическую область, значит, гипотеза отклоняется как ложная (точнее, маловероятная).

Гипотеза отклоняется

Если критерий не выходит за критическое значение, то гипотеза не отклоняется.

Гипотеза не отклоняется

Уровень значимости задается исходя из практических соображений. Часто берут 0,05, для которого критический уровень равен 1,96 (в нормальной модели). Если α = 0,01, то критический уровень – 2,58. Все это легко получить из таблиц стандартного нормального распределения. Но, конечно, быстрее посчитать на компьютере, хоть и в Excel.

В зависимости от выбранной вероятностно-статистической модели вид распределения и способ расчета критерия производится по-разному. Но суть остается прежней: статистический критерий сравнивается с критическим значением, который задается исходя из желаемого уровня значимости.

Доверительные уровни

В таблице ниже показаны некорректированные критические p-значения и z-оценки для различных доверительных уровней.

Инструменты, которые позволяют применять FDR, будут использовать корректированные критические p-значения. Эти критические значения будут такими же или меньше, чем показанные в таблице ниже.

z-оценка (Стандартные отклонения) p-значения (Вероятность) Доверительный уровень

< -1,65 или > +1,65

< 0,10

90%

< -1,96 или > +1,96

< 0,05

95%

< -2,58 или > +2,58

< 0,01

99%

Рассмотрим пример. Критические значения z-оценки, используя 95-процентный доверительный уровень являются-1.96 и +1.96 стандартными отклонениями. Нескорректированное p-значение, связанное с 95-процентным доверительным уровнем, равно 0.05. Если z-оценка находится между -1.96 и +1.96, то нескорректированное p-значение будет больше чем 0.05, и вы не сможете отклонить нулевую гипотезу, поскольку показанная модель может, вероятно, быть результатом случайных пространственных процессов. Если z-оценка падает вне того диапазона (например,-2.5 или +5.4 стандартных отклонений), наблюдаемая пространственная модель, вероятно, слишком необычная, чтобы быть результатом случайного процесса, и p-значения будут маленькими, чтобы отклонить это. В этом случае возможно отклонить нулевую гипотезу и возобновить выяснение, что могло бы вызывать статистически существенную пространственную структуру в ваших данных.

Ключевая идея здесь состоит в том, что значения в середине нормального распределения (z-оценки такие как 0.19 или-1.2, например), представляют ожидаемый результат. Когда абсолютное значение z-оценки является большим, и вероятности являются маленькими (в хвостах нормального распределения), однако, вы видите что-то необычное и вообще очень интересное. Для инструмента Анализ горячих точек например, “необычный” означает статистически существенную “горячую” или “холодную” точку.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Всероссийский научно-исследовательский институт сертификации. Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. — М.: ВНИИС, 1987.

Критика

Использование p-значений для проверки нулевых гипотез в работах по медицине, естественным наукам подвергается критике со стороны многих специалистов. Отмечается, что их использование нередко приводят к ошибкам первого рода (false positive)[7]. В частности, журнал Basic and Applied Social Psychology (BASP) в 2015 году вовсе запретил публикацию статей, в которых используются p-значения. Редакторы журнала объяснили это тем, что провести исследование, в котором получено p < 0,05 не очень сложно, и такие низкие значения p слишком часто становятся оправданием для низкопробных исследований[8].

Советы

  • Научный калькулятор позволяет облегчить вычисления. Вы также можете использовать калькуляторы онлайн.
  • Вы можете подсчитать p-значение с использованием некоторых компьютерных программ, включая как часто используемые программы электронных таблиц, так и более специализированное программное обеспечение.

Неправильная интерпретация P-значений

Широко распространено мнение о том, что P-значения часто неверно интерпретируются и неправильно используются[9][10][11].Одна из практик, подвергшихся особой критике, заключается в принятии альтернативной гипотезы для любого P-значения, номинально меньшего 0,05 без других подтверждающих доказательств. Хотя P-значения полезны при оценке того, насколько несовместимы данные с данной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных»[11]. Еще одна проблема заключается в том, что P-значение часто неверно понимается как вероятность того, что нулевая гипотеза верна[11][12].Некоторые специалисты предложили заменить P-значения на альтернативные метрики доказательности[11], такие как доверительный интервал[13][14],отношение правдоподобий[15][16]или коэффициент Байеса[17][18][19],однако продолжается острая дискуссия о возможности применения таких альтернатив[20][21].Другие специалисты предложили убрать фиксированные пороговые значения значимости и интерпретировать P-значения как непрерывные величины, характеризующие величину доказательств, направленных против правдоподобия нулевой гипотезы[22][23].

См. также

  • Статистика оценки
  • Проверка статистических гипотез
  • Коэффициент Байеса
  • en:Misuse of p-values

Ошибка типа I

Ошибка типа I – ложное отклонение нулевой гипотезы. Вероятность возникновения ошибки типа I или отклонения нулевой гипотезы, когда она истинна, эквивалентна критическому значению. Наоборот, вероятность принятия нулевой гипотезы, когда она истинна, эквивалентна 1 минус критическое значение.

Примечания

  1. Cumming, 2008.
  2. Nuzzo, 2014.
  3. Halsey, Curran-Everett, Vowler et al., 2015.
  4. Cumming, 2010.
  5. Taroni, Biedermann, Bozza, 2016.
  6. Goodman, 2016.
  7. Douglas H. Johnson. The Insignificance of Statistical Significance Testing (англ.) // Journal of Wildlife Management. — Wiley-VCH, 1999. — Vol. 3, no. 63. — P. 763—772.
  8. Chris Woolston. Psychology journal bans P values (англ.) // Nature News. — 2015-03-05. — Vol. 519, iss. 7541. — P. 9—9. — doi:10.1038/519009f.
  9. Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact (англ.) // Scientific American : magazine. — Springer Nature, 2015. — 16 April.
  10. Goodman S. N. Toward evidence-based medical statistics. 1: The P value fallacy (англ.) // Annals of Internal Medicine (англ.)русск. : journal. — 1999. — Vol. 130, no. 12. — P. 995—1004. — doi:10.7326/0003-4819-130-12-199906150-00008. — PMID 10383371.
  11. 1 2 3 4 Wasserstein, Ronald L.; Lazar, Nicole A. (англ.)русск.. The ASA’s statement on p-values: context, process, and purpose (англ.) // The American Statistician (англ.)русск. : journal. — 2016. — Vol. 70. — P. 129—133. — doi:10.1080/00031305.2016.1154108.
  12. Colquhoun, David. An investigation of the false discovery rate and the misinterpretation of p-values (англ.) // Royal Society Open Science (англ.)русск. : journal. — 2014. — Vol. 1. — P. 140216. — doi:10.1098/rsos.140216.
  13. Lee, Dong Kyu. Alternatives to P value: confidence interval and effect size (англ.) // Korean Journal of Anesthesiology (англ.)русск. : journal. — 2017. — 7 March (vol. 69, no. 6). — P. 555—562. — ISSN 2005-6419. — doi:10.4097/kjae.2016.69.6.555. — PMID 27924194.
  14. Ranstam, J. Why the P-value culture is bad and confidence intervals a better alternative (англ.) // Osteoarthritis and Cartilage (англ.)русск. : journal. — 2012. — August (vol. 20, no. 8). — P. 805—808. — doi:10.1016/j.joca.2012.04.001.
  15. Perneger, Thomas V. Sifting the evidence: Likelihood ratios are alternatives to P values (англ.) // BMJ: British Medical Journal : journal. — 2001. — 12 May (vol. 322, no. 7295). — P. 1184. — ISSN 0959-8138. — PMID 11379590.
  16. Royall, Richard. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence (англ.). — P. 119—152. — doi:10.7208/chicago/9780226789583.003.0005.
  17. Schimmack, Ulrich Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science (неопр.). Replicability-Index (30 апреля 2015). Дата обращения: 7 марта 2017.
  18. Marden, John I. Hypothesis Testing: From p Values to Bayes Factors (англ.) // Journal of the American Statistical Association : journal. — 2000. — December (vol. 95, no. 452). — P. 1316. — doi:10.2307/2669779.
  19. Stern, Hal S. A Test by Any Other Name: Values, Bayes Factors, and Statistical Inference (англ.) // Multivariate Behavioral Research (англ.)русск. : journal. — 2016. — 16 February (vol. 51, no. 1). — P. 23—29. — doi:10.1080/00273171.2015.1099032. — PMID 26881954.
  20. Murtaugh, Paul A. In defense of p-values (неопр.) // Ecology. — 2014. — March (т. 95, № 3). — С. 611—617. — doi:10.1890/13-0590.1.
  21. Aschwanden, Christie Statisticians Found One Thing They Can Agree On: It’s Time To Stop Misusing P-Values (неопр.). FiveThirtyEight (7 марта 2016).
  22. Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias. The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research (англ.) // PeerJ (англ.)русск. : journal. — 2017. — Vol. 5. — P. e3544. — doi:10.7717/peerj.3544.
  23. Amrhein, Valentin; Greenland, Sander. Remove, rather than redefine, statistical significance (англ.) // Nature Human Behaviour : journal. — 2017. — Vol. 1. — P. 0224. — doi:10.1038/s41562-017-0224-0.

Смотрите также

  • Коррекция Бонферрони
  • Контрнулл
  • Метод Фишера объединения p- значений
  • Обобщенное p -значение
  • Метод Холма – Бонферрони
  • Множественные сравнения
  • p -rep
  • ошибка p- значения
  • Гармоническое среднее р -значение

Ссылки

  • Рубанович, А. В. Введение в Байесовский анализ (неопр.). Презентации к лекциям. ИОГен РАН. Дата обращения: 13 июня 2016.
modif.png

Эта страница в последний раз была отредактирована 28 апреля 2021 в 17:30.

Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...