Принятие решений в неопределенности стр.19

Наши респонденты, все вместе, оценили проведение повторного исследования довольно грубо. Это следует из гипотезы репрезентативности: если мы ожидаем, что все выборки очень похожи друг на друга, то почти все повторения правомерной гипотезы должны быть статистически значимы. Грубость критерия для успешного повторения опыта может быть продемонстрирована в ответе на следующий вопрос:

Исследователь сообщил результат, который Вы считаете неправдоподобным. Он провел исследование с 15 испытуемыми, и получил значимую величину, t = 2.46. Другой исследователь попытался повторить его опыт, но он получил не значимую величину t для того же числа субъектов. Инструкция была та же самая в обоих экспериментах. Вы просматриваете литературу. Какова наибольшая величина t во втором эксперименте, про которую Вы могли бы сказать, что ее невозможно воспроизвести?

Большинство наших респондентов оценило t = 1.70 как неудачу в повторении исследования. Если суммировать данные двух таких исследований (t = 2.46 и t = 1.70), значение t для объединенных данных приблизительно

3.00 (при равных дисперсиях). Таким образом, перед нами парадоксальное положение дел, при котором одни и те же данные, которые увеличили бы нашу уверенность по поводу результата, при рассмотрении как часть первоначального исследования, пошатнули бы нашу уверенность, если бы рассматривались как независимое исследование. Этот двойной стандарт особенно беспокоит с тех пор, как, по многим причинам, повторные проведения опытов обычно рассматриваются как независимые исследования, и гипотезы часто оцениваются с помощью перечня непоследовательных данных, подтверждающих их.

Вопреки широко распространенному мнению, может быть так, что выборка повторного опыта часто больше, чем изначальная. Решение воспроизвести когда-то полученный результат часто является следствием того, что исследователь очень доволен результатом и хочет, чтобы скептически настроенное научное сообщество его приняло. Так как сообщество необоснованно требует, чтобы результаты повторного эксперимента были значимы независимо от изначального эксперимента, или, по крайней мере, чтобы они были хотя бы приблизительно значимыми, существует необходимость обрабатывать большую выборку. В качестве иллюстрации приведем пример, что если неудачливый докторант, чья диссертация обсуждалась, принимает валидность своего первоначального результата (t = 2.70, N = 40), и если он хочет, чтобы риск того, что он получит t меньше 1.70, была только 0.1, он должен будет провести работу приблизительно с 50 животными в своем повторном исследовании. С несколько более слабым первоначальным результатом (t = 2.20, N = 40), размер повторной выборки, требуемый для получения такой же мощности теста, возрастает приблизительно до 75.

То, что результаты, обсужденные к настоящему времени, не ограничены только гипотезами относительно средней величины и дисперсии показывают ответы на следующий вопрос:

Вы выполнили исследование корреляции, оценивая 20 переменных для 100 испытуемых. Двадцать семь из 190 коэффициентов корреляции являются значимыми на уровне 0.05; и 9 из них значимы за пределами 0.01. Среднее абсолютного уровня значимых корреляций - 0.31, и образец результатов теоретически обоснован. Как вы считаете, сколько из 27 значимых корреляций, по Вашим ожиданиям, снова будут значимыми, при точном повторении исследования, при N = 40?

При N = 40, требуется корреляция приблизительно 0.31 уровня для того, чтобы она была существенной на уровне 0.05. Это средняя величина значимых корреляций в первоначальном исследовании. Таким образом, только около половины первоначально значимых корреляций (то есть, 13 или 14) остались бы значимыми при N = 40. Кроме того, конечно, корреляции в повторном исследовании должны отличаться от корреляций в оригинальном исследовании. Следовательно, благодаря регрессии, первоначально значимые коэффициенты, наиболее вероятно, уменьшатся. Таким образом, от 8 до 10 повторяемых корреляций из первоначальных 27 - это максимум из того, что можно ожидать. Средняя оценка наших респондентов - 18. Это больше чем количество значимых корреляций повторного опыта, которые будут получены, если корреляции повторно вычислены для 40 испытуемых, выбранных наугад из первоначальных 100! Очевидно, люди ожидают большего, чем простое дублирование первоначальной статистики в выборке повторного исследования; они ожидают, повторения значимых результатов, не принимая в расчет размер выборки. Это ожидание требует нелепого продолжения гипотезы репрезентативности; даже закон малых чисел не способен произвести подобных результатов.


⇐ назад к прежней странице | | перейти на следующую страницу ⇒