![]() |
|
|
Медико-биологическая статистикасть совершить эту ошибку не превышает 0,001. Второй способ основан на использовании доверительных интервалов. 100(1 -а)-процентный доверительный интервал дляр имеет вид b-tasb <$Рассчитаем 95% доверительный интервал. Число степеней свободы v = 10 -2 = 8. По таблице 4.1 находим /0 05 = 2,306. Выборочные значения ?=0,44 и sb =0,068. Следовательно, доверительный интервал дляр: 0,44 - 2,306 х 0,068 < р < 0,44 + 2,306 х 0,068, 0,28< Р < 0,60. Поскольку ноль в этот интервал не попадает, вероятность того, чтор =0, меньше 5%. Если рассчитать 99,9% доверительный интервал, можно убедиться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожидать, совпадает с полученным с помощью доверительного интервала. Заметим, что истинное значение р =0,5 попадает в доверительный интервал. Можно вычислить доверительный интервал и для коэффициента а. Например, 95% доверительный интервал имеет вид: то есть6,0 -2,306 х2,53 < а < -6,0 + 2,306 х2,53, -11,8<а<-0,17. Интервал покрывает истинное значение а = -8 г. Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной. Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрессии аир. Нам известны только их оценки а и Ъ. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% доверительная область для выборки с рис. 8.3. Как видим, это довольно узкая полоса, которая несколько расширяется при крайних значениях х. Мы знаем, что при любом значении независимой переменной л: соответствующие значения зависимой переменной у распределены нормально. Средним является значение уравнения регрессии у. Неопределенность его оценки характеризуется стандартной ошибкой регрессии: |l (х-Х)2 В отличие от стандартных ошибок, с которыми мы имели дело до сих пор, sy при разных х принимает разные значения: чем дальше х от выборочного среднего X, тем она больше. Теперь можно вычислить 100(1 -а)-процентный доверительный интервал для значения уравнения регрессии в точке х: y-tasy у = а + Ьх. Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С заданной вероятностью, обычно 95%, можно утверждать, что истин0 Т—I—I—I—I—|—г—I—I—I—|—I—1—т—I—|—I—I—|—г—1—I—I—г—1—|—I—I—г-1—| 25 30 35 40 45 50 55 Рост (х), см Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3). ная линия находится где-то внутри этой области. Обратите внимание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений (доверительная область для значений гораздо шире). Авторы медицинских публикаций нередко приводят доверительную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же самое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Например, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого 2 О 1 ) I—Г—Т—|—'—I—I—I—J—I—I I I |—I—Г-1 1 1 1 1 1 1 | I I I 1 1 25 30 35 40 45 50 55 Рост (х), см Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью. вовсе не следует, что в этих пределах окажется вес 95% марсиан такого роста. Теперь займемся доверительной областью для значений зависимой переменной. Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение sy^ , а неопределен Подставив в эту формулу выражение для sy из предыдущего раздела, получим: ности положения линии регрессии — стандартная ошибка регрессии sy. Дисперсия суммы двух величин равна сумме дисперсий, поэтому Тогда 100(1 - а)-процентный доверительный интервал для зависимой переменной y-tasy СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами. • Сравнить коэффициенты наклона Ь. • Сравнить коэффициенты сдвига я. • Сравнить линии в целом. В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле: 5 s, tJ1Ib1 *ьх-ьг где&, - Ь2 — разность коэффициентов наклона, as^ _bi — ее стандартная ошибка. Затем вычисленное t сравним, как обычно, с критическим значением ta, имеющим(/?, -2) + (л2 -2)= л, +п2 -4 степени свободы. Если обе регрессии оценены по одинаковому числу наблюдений, то стандартная ошибка разности $ь,-ь2 - + sl2Если же объемы выборок различны, следует воспользоваться объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4): (я, -2)s2, +(п2 -2)s2, 2 1 У\Х\ У\х2 >'|Ло6ш л, +«2 -4 Тогда формула для sb принимает вид Можно сравнить и коэффициенты сдвига я, и а2. В этом случае Здесь когда обе регрессии вычислены по одинаковому числу точек. При неодинаковом числе точек следует воспользоваться объединенной оценкой дисперсии так же, как это было сделано выше. Перейдем к сравнению двух линий регресии в целом. Сравнить две линии регрессии — значит оценить вероятность нулевой гипотезы о совпадении линий*. Напомним, что коэффициенты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией s2^: чем меньше остаточная дисперсия, тем лучше прямая регрессии соответствует имеющимся точкам. Воспользуемся этим показателем для оценки результатов такого мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существенно не изменится. И наоборот, если они различаются, то совпадение точек и линии ухудшится и остаточная дисперсия возрастет. Порядок действий таков. • Построить прямую регресии для каждой из выборок. • По остаточным дисперсиям s2, и s2, каждой из регрессий У \Х | У И1 j вычислить объединенную оценку остаточной дисперсии sy^x • Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию У И-един • Вычислить «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина: (щ +п2 -2)s2 - (и, +п2 -4)s2 2 У 1ЛС1ИИ У 1ЛоГ)Ш s . = . УК 2 Uos2, и 52, вычислить критерий F: 2 S , *2, У\ХоШ р = * Методы, предназначенные для сравнения более чем двух линий регрессии, описаны в книге: J. Н. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall, Englewood Cliffs, N. J., 1984. Сравнить вычисленное значение с критическим значением F для числа степеней свободы vMeA = 2 и vBHy = п{ +п2 -4. Если полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена. 600 п ? 1-я группа (больные ревматоидным артритом) О 2-я группа (здоровые) 500 f 400 о Z 300 s я * 200 л с; О 100 о о О о о о у о о ? ? ? соо ? ? ? о о оо ? ? оВо0 ? о о ? ! ! ! ! ! 1 0 10 20 30 40 50 60 Площадь поперечного сечения предплечья, см2 Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены кружками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых? Мышечная сила при ревматоидном артрите Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность, атрофия мышц. Каков вклад каждого из этих факторов? Пытаясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон* исследовали, в частности, связь между мышечной массой и силой. В исследовании приняли участие 25 больных ревматоидным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчитывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат показан на рис. 8.8. Кружки — результаты здоровых, квадратики — больных ревматоидным артритом. * P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994. На рис. 8.9А представлены те же наблюдения, что и на рис. 8.8, и кроме того, две построенные по ним линии регрессии. Проверим, есть ли значимое различие между линиями регрес600 т А 5005 400 s | 300 н * л 200 с; s О 100 о 0 10 20 30 40 50 60 Площадь поперечного сечения предплечья, см2 600 -. Б 500 400 s о 300 S к S I-К 100 о я 200 с; s О Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы Объединенная 1-я группа 2-я группа группа Численность группы 25 25 50 Коэффициенты регрессии сдвигя(50) 3,3 (22,4) -7,3(25,3) -23,1 (50,5) накл |
< К СПИСКУ КНИГ > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
Скачать книгу "Медико-биологическая статистика" (7.41Mb) |
[каталог] [статьи] [доска объявлений] [обратная связь] |