![]() |
|
|
Медико-биологическая статистикачто это не породит путаницы. • Среднее значение ц ^ линейно зависит от х. • Для любого значения х значения у\х распределены нормально. • Стандартное отклонение а )л. одинаково при всех значениях х. Функция, задающая зависимость \\у\х от х, определяется параметрами аир. Разброс значений у\х в точке х задается стандартным отклонением а ^. Оценим эти параметры. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ В реальной жизни редко удается получить данные обо всей совокупности, и исследователю приходится довольствоваться выборками. Допустим, мы располагали бы данными не о всех марсианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные показаны так, как их видит исследователь, изучивший эту выборку. Что можно сказать о совокупности, основываясь на этих выборочных данных? Похоже, что в этом случае исследователю повезло. Зависимость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом. Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 человек диурез отчетливо увеличивался с ростом дозы препарата (рис 1.2А), тогда как на самом деле никакой зависимости не было (рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров уравнения регрессии а и р по выборке. Метод наименьших квадратов Сейчас нам предстоит оценить параметры уравнения регрессии аир. Обозначим их выборочные оценки соответственно а иЬ. Найти наилучшие оценки этих параметров — это то же самое, что провести наилучшую прямую через имеющиеся точки, поскольку у = а + Ъх — это уравнение прямой. Какую прямую считать наилучшей? Посмотрим на рис. 8.4. На нем изображены 4 прямые. Прямая I явно не годится — все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IVявляется лучшей, сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III — лучше прямой II? Очевидно, прямая тем лучше, 15* Рост(х), см Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может наблюдать всю совокупность. чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален. С оценкой разброса мы уже сталкивались в гл. 2. Там мы использовали средний квадрат отклонения от среднего. Поступим аналогичным образом. Определим расстояние по вертикали от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребовалось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад. Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зависимость у от х. Более того, можно доказать, что для прямой IV сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квадратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавливаться на выводе формул* и сообщим сразу результат. Напомним, что мы ищем параметры уравнения регрессии: у = а + Ьх. Тогда коэффициент сдвига _(I7)(ЈZ2)-(IX)(IX7) п(1Х2) -(ZX)2 и коэффициент наклона b_n(Y,XY)-(LX)(ZY) п(ЪХ2)-(?Х)2 * Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz. Mathematics for biomedical applications. University of California Press, Berkely, 1979, pp. 322-325. ** Вычисления можно упростить, если сначала вычислить/), а уже потом найти а по формуле a = Y -ЬХ, где Y и X — выборочные средние для переменных у их. где X и Y — значения независимой и зависимой переменных у п членов выборки**. о у/ i 25 30\—I—I—I—I—I—I—I—I—I—I—I— 35 40 45 i—I—I—I—I—г—I—I 50 55 Рост (X), см Рис. 8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно не годятся, прямые III и IV выглядят лучше. А 2СЬ 186420 у/т—i—i—i—i—i—i—|—i—i—i—г 25 30 35 л—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I 40 45 50 55 Рост (х), см Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б). Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой IV серым цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно близки. О У/i | | 25 т—I—I—г 30|—I—I—г 35 п—I—I—I—I—г 40 Рост (X), см1—I—I—г 45 ~! Г 50 1—I—I 55 Рис. 8.5. Окончание и . 10x3930,1-369x103,8 ллл Ь = = 0,44. 10x13841 -3692 Таким образом, прямая регрессии имеет вид: у = -6,0+ 0,44*. Именно это уравнение задает прямую IV. Разброс значений вокруг прямой регрессии Мы получили аиЬ — оценки коэффициентов регрессии аир. Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное отклонение постоянно и равно су\х . Выборочной оценкой ау][Х служит Sy\x ~ \L[Y-(a + bX)\ п-2 где а + ЬХ — значение уравнения регрессии в точке X, Y-(a + bX) — расстояние от точки до прямой регрессии, I обозначает суммирование квадратов этих расстояний. Не будем объяснять, почему сумма квадратов отклонений должна быть поделена на п-2, а не на п или п-\. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п-\. Величина s 1х называется остаточным стандартным откло-пением (соответственно s ^ называется остаточной дисперсией). Связь sy\x со стандартными отклонениями sY и sx зависимой и независимой переменных определяется формулой S у\х :(s2Y-b2s2x). Для рассмотренной нами выборки sx = 5,0, sY = 2,4. Тогда sylx = J^(2,42 -0,442 x 5,02) = 1,02. Как видим, оценка sy\x оказалась близкой к истинному значению ау\х, равному 1,0 г. Стандартные ошибки коэффициентов регрессии Подобно тому как выборочное среднее — это оценка истинного среднего (среднего по совокупности), так и выборочные параметры уравнения регрессии а и b — не более чем оценки истинных коэффициентов регрессии аир. Разные выборки дают разные оценки среднего — точно так же разные выборки будут давать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = -6,0 и b =0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б эта выборка показана такой, какой ее видит исследователь. Общая закономерность осталась прежней — высокие марсиане ве20 V/т—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—|—| 25 30 35 40 45 50 55 Рост (х), см Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марсиане, попавшие в выборку, помечены точками. 420 У/т—|—|—|—|—|—|—|—|—|—|—|—|—|—I—I—i—I—I—I—|—|—1—|—|—|—|—1—|—|—| 25 30 35 40 45 50 55 Рост (х), см Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2. сят больше низкорослых. Однако, рассчитав коэффициенты регрессии, получим а = -4,0 г и Ь = 0,38 г/см. Если построить все возможные выборки по 10 марсиан в каждой, получится совокупность всех значений а и Ь. Их средние равны а ир, а стандартные отклонения — ст а и ар. Эти стандартные отклонения называются стандартными ошибками коэффициентов регрессии. Стандартные ошибки коэффициентов регрессии, подобно стандартной ошибке среднего или доли, используются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для аа и ар обозначаются соответственно sa и sb и вычисляются по следующим формулам*: и 1 S у\х sb = 4n-i sx Для выборки с рис. 8.3Б имеем: sa =1,02 1—+ 36,9 , =2,53 J10 (Ю-1)5,02 и sb = —L==X№= 0,068. л/10Л5,0 * Вывод формул для стандартных ошибок коэффициентов регрессии можно найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974, chap. 3, «Inferences in regression analysis*. Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Есть ли зависимость? Помня о досадном недоразумении с «диуретиком» из гл. 1 (см. рис. 1.2), исследователь вправе спросить: как убедиться, что зависимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипотезы о том, что коэффициент наклона р = О*? Совокупность всех выборочных значений коэффициента наклона ? приближенно подчиняется нормальному распределению. Поэтому можно воспользоваться критерием Стьюдента, аналогично тому, как мы пользовались им в гл. 4 для проверки гипотезы относительно среднего. В общем виде критерий Стьюдента можно определить как: Выборочная оценка — Истинная величина t= ?—? ?—? Стандартная ошибка выборочной оценки Для оценки коэффициента наклона: Оценить вероятность гипотезы о равенстве р = 0 можно двумя способами. Приравняв р к нулю, имеем Ь Теперь по табл. 4.1 найдем ta — критическое значение 7 для выбранного уровня значимости а и числа степеней свободы v = п - 2. Если полученное значение t по абсолютной величине превосходит^ , то Р < а, то есть зависимость статистически значима. * Речь идет исключительно о линейной зависимости. Как мы вскоре увидим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат. Потренируемся на марсианах. Для выборки с рис. 8.3Б мы нашли Ь = 0,44 и sb = 0,068. Тогда t = 0,44/0,068 = 6,47. Объем выборки равен 10. Положим уровень значимости равным 0,001. В табл. 4.1 для этого уровня значимости и числа степеней свободы v = 10 -2 = 8находим критическое значение^ = 5,041. Поскольку t > ta, гипотезу об отсутствии зависимости веса от роста следует отвергнуть. Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополучный диуретик из гл. 1). Но вероятно |
< К СПИСКУ КНИГ > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
Скачать книгу "Медико-биологическая статистика" (7.41Mb) |
[каталог] [статьи] [доска объявлений] [обратная связь] |