Принятие решений в неопределенности стр.17

Безусловно, применение статистической проверки гипотезы для научного вывода связано с серьезными трудностями. Тем не менее, вычисление уровней значимости (или коэффициентов вероятности, как предпочел бы Байес) заставляет ученого оценивать полученный эффект скорее в терминах оценки надежности изменчивости выборки, чем в терминах своей субъективной оценки, в которой присутствуют отклонения. Статистические испытания, исходя из этого, защищают научное сообщество от чрезмерно поспешного отказа от нулевой гипотезы (ошибка первого рода) контролируя многих своих членов, которые предпочли бы жить в соответствии с законом малых чисел. С другой стороны, не имеется никаких эффективных гарантий против того, что не удастся утвердить вполне обоснованную исследовательскую гипотезу (ошибка второго рода).

Вообразите психолога, который изучает взаимосвязь между потребностью в достижениях и ученой степенью. Решая, какой размер будет у его выборки, он может рассуждать следующим образом: “Какую взаимосвязь я ожидаю? г = 0.35. Какой N мне нужен для того, чтоб мой результат был значимым? (Смотрит в таблицу.) N = 33. Прекрасно, это — моя выборка”.

Единственный недостаток в этом рассуждении — то, что наш психолог забыл о разнообразии среди элементов выборки, возможно, потому что он полагает, что любая выборка должна быть высоко репрезентативна по отношению к совокупности, из которой она взята. Однако, если его предположение относительно корреляции в совокупности верно, корреляция в выборке может быть около 0.35. Следовательно, вероятность получения значимого результата (то есть, надежность теста) для N—33 приблизительно равна 0.50.

В детальном исследовании мощности статистических критериев, Дж. KoeH(J. Cohen, 1962,1969) привел правдоподобные определения больших, средних, малых результатов, обширного набора вычислительных средств для оценки мощности разнообразных статистических тестов. В нормальном тесте значение разности между двумя средними, например, разность 0.2 5а считается маленькой, разность 0.50 а — средней, и разность в 1а является большой, согласно предложенным определениям. Средняя разность между уровнем интеллекта служащих и уровнем интеллекта рабочих со средней квалификацией - это средний результат. В исследовании научной практики, Дж. Коен (1962) рассмотрел все статистические исследования, изданные в одном томе журнала «Психопаталогия и социальная психология », и вычислил вероятность обнаружения каждого из трех значений результата. Средняя мощность для обнаружения маленьких результатов была 0.18, 0.48 - для средних результатов, и 0.83 - для больших результатов. Если психологи как обычно ожидают появление средних результатов и выбирают размер выборки по такому же принципу, как и в вышеупомянутом примере, надежность их исследований должна действительно быть приблизительно 0.50.

Анализ Дж.Коена показывает, что статистическая мощность многих психологических исследований очень мала. Это - пагубная практика: она разочаровывает ученых и понижает эффективность исследования. Исследователю, который проверяет действенную гипотезу, но не может получить значимых результатов, ничего не остается, кроме как рассматривать природу ненадежной или даже враждебной. Кроме того, как показал Оверолл (Overall, 1969), распространенность исследований, несовершенных в статистической мощности не только иррациональна, но и фактически вредна: результатом ее является большое количество необоснованных отказов от использования нулевой гипотезы среди опубликованных результатов.

Поскольку изучение статистической мощности имеет особую важность в смысле организации повторных исследований, мы исследовали отношение к повторяемости в нашем анкетном опросе.


⇐ назад к прежней странице | | перейти на следующую страницу ⇒