ФГБУН Институт экологии человека СО РАН
ГБОУ ВПО «Кемеровская государственная медицинская академия»
Министерства здравоохранения и социального развития РФ
ФГБУ НИИ Комплексных проблем сердечно-сосудистых заболеваний
СО РАМН
Мун С.А., Глушков А.Н., Штернис Т.А.,
Ларин С.А., Максимов С.А.
РЕГРЕССИОННЫЙ АНАЛИЗ
В МЕДИКО-БИОЛОГИЧЕСКИХ
ИССЛЕДОВАНИЯХ
Методические рекомендации
Кемерово
2012
Стр.1
УДК [614.2:311](075.8)
ББК 51.1 (2)
В М904
Мун С.А.
Регрессионный
В М904
анализ в медико-биологических
исследованиях: методические рекомендации / С.А. Мун, А.Н.
Глушков, Т.А. Штернис, С.А. Ларин, С.А. Максимов; ГБОУ ВПО
КемГМА Минздравсоцразвития России. – Кемерово: КемГМА,
2012. – 115 с.
В методических рекомендациях представлены современные подходы к
организации и проведению корреляционно-регрессионного анализа на
примере парной линейной регрессии, а также нелинейных форм связи на
примере степенной, показательной и гиперболической моделей.
В примерах подробно продемонстрировано пошаговое решение
проверки значимости параметров и качества уравнения регрессии,
выполнений условий Гаусса-Маркова, как в программе Microsoft® Excel®,
Statsoft STATISTICA 6.0, так и с использованием математических формул.
Уделено внимание интерпретации результатов и выводов.
Настоящие методические рекомендации предназначены для врачейспециалистов,
аспирантов, ординаторов и интернов, студентов медицинского
вуза.
УДК [614.2:311](075.8)
ББК 51.1 (2)
Рецензенты:
Главный областной специалист по научной работе медицинской службы
КО, заместитель директора по научной работе ФГБУ НИИ Комплексных
проблем сердечно-сосудистых заболеваний СО РАМН д.м.н., профессор
Г.В. Артамонова
Директор ФГБУ НИИ Комплексных проблем гигиены и профессиональных
заболеваний СО РАМН д.м.н., профессор В.В. Захаренков
Рассмотрено и рекомендовано к печати заседанием Ученого совета ИЭЧ СО
РАН – 28.08.2012 г.;
Ученого совета КемГМА – 27.09.2012 г.
© Институт экологии человека СО РАН, 2012
© Кемеровская государственная медицинская академия, 2012
© НИИ Комплексных проблем сердечно-сосудистых заболеваний
СО РАМН, 2012
Стр.4
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
СПИСОК СОКРАЩЕНИЙ
1. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ
АНАЛИЗ
1.1. Уравнение регрессии
1.2. Параметры уравнения регрессии
Проверка значимости параметров регрессии (tкритерий
Стьюдента). Доверительные интервалы
1.3. Коэффициент корреляции
Проверка значимости коэффициента корреляции (tкритерий
Стьюдента)
1.4. Коэффициент детерминации
Скорректированный коэффициент детерминации.
Проверка значимости коэффициента детерминации
(F-критерий Фишера)
1.5. Доверительные интервалы для прогнозного значения
2. СПЕЦИФИКАЦИЯ МОДЕЛИ (ДЛЯ
МНОЖЕСТВЕННОЙ РЕГРЕССИИ)
3. АДЕКВАТНОСТЬ РЕГРЕССИОННОЙ МОДЕЛИ.
ПРОВЕРКА ВЫПОЛНЕНИЯ УСЛОВИЙ
ГАУССА-МАРКОВА
3.1. Случайность остаточной компоненты C X eov
(
M( ) 0e
i , ) 0
i
3.2. Равенство нулю математического ожидания средней
величины остаточной компоненты
3.3. Постоянства дисперсии случайного члена еi во всех
наблюдениях
V e Const
ar i( )
3.4. Независимость уровней ряда остатков C ei eov( , ) 0j
e ~ (0, 2
N
)
4. СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА
АППРОКСИМАЦИИ
5. СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ
6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ
ПРОГНОЗНОГО ЗНАЧЕНИЯ
7. НЕЛИНЕЙНЫЕ ФОРМЫ ЗАВИСИМОСТИ
3
, i j
3.5. Соответствие ряда остатков закону распределения
i
Стр.
5
7
8
9
10
12
13
15
17
18
19
19
20
23
28
29
29
30
30
Стр.5
ЛИТЕРАТУРА
ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ
(линейная, степенная, гиперболическая,
показательная)
ПРИМЕР 1
ПРИМЕР 2
ПРИМЕР 3
ПРИЛОЖЕНИЕ
31
32
65
84
109
4
Стр.6
ВВЕДЕНИЕ
В современном обществе нет ни одной сферы человеческой
деятельности, где бы ни применялась статистика, будь то
экономика, экология, медицина, естественные науки, политология,
социология, психология и т.д. С помощь статистики
осуществляется научная обработка, обобщение и анализ
информации, характеризующей развитие экономики страны,
здравоохранения, политики, культуры и уровня жизни населения.
Статистика позволяет выявить взаимосвязи (закономерности),
изучить динамику развития, провести анализ для получения
обоснованных выводов и принятия правильных решений, которые
могут быть применены на практике.
Большим шагом в развитии медицинской статистической
науки явилось применение математических методов и широкое
использование компьютерной техники в анализе медикобиологических
явлений.
Статистика, как любая наука, требует определения предмета
исследования. Предметом статистики выступают размеры и
количественные соотношения качественно определенных медикобиологических
явлений, закономерности их взаимосвязей и
развития в конкретных условиях места и времени. Свой предмет
статистика изучает методом обобщающих показателей.
Для изучения предмета статистики разработаны и
применяются специфические приемы, совокупность которых
образует методологию статистики (методы массовых наблюдений,
группировок, обобщающих показателей, динамических рядов,
индексный метод и др.). Применение в статистике конкретных
методов предопределяется поставленными задачами и зависит от
характера исходной информации.
Исследование связей в условиях массового наблюдения и
действия случайных факторов осуществляется, как правило, с
помощью медико-статистических моделей. В широком смысле
модель - это аналог, условный образ (изображение, описание,
схема, чертеж и т.п.) какого-либо объекта, процесса или события,
приближенно воссоздающий «оригинал». Модель представляет
собой логическое или математическое описание компонентов и
функций, отображающих существенные свойства моделируемого
объекта или процесса, дает возможность установить основные
закономерности изменения оригинала. В модели оперируют
5
Стр.7
показателями, исчисленными для качественно однородных
массовых явлений (совокупностей). Выражение моделей в виде
функциональных уравнений используют для расчета средних
значений моделируемого показателя по набору заданных величин и
для выявления степени влияния на него отдельных факторов.
По количеству включаемых факторов модели могут быть
однофакторными и многофакторными (два и более факторов).
В зависимости от познавательной цели статистические модели
подразделяются на структурные, динамические и модели связи.
Наиболее разработанной в теории статистики является
методология так называемой парной корреляции, рассматривающая
влияние вариации факторного признака X на результативный
признак Y и представляющая собой однофакторный
корреляционный и регрессионный анализ.
6
Стр.8
Y
ˆ
СПИСОК ОСНОВНЫХ СОКРАЩЕНИЙ
результативный признак (показатель)
y i
X
ε
rxy
а
b
α
β
ei
R2
m
Se
Эi
Eотн_i
ДИ
Radj
n
2
расчетное значение результативного признака,
полученное по уравнению регрессии
факторный признак
случайная ошибка или случайный член (ошибка
измерений)
коэффициент корреляции
параметр (коэффициент) уравнения регрессии, свободный
член
параметр (коэффициент) уравнения регрессии
оценка параметра (коэффициента) уравнения регрессии
оценка параметра (коэффициента) уравнения регрессии
полагаемые значения (оценки) ошибок εi
коэффициент детерминации
скорректированный коэффициент детерминации
число наблюдений
число параметров
стандартная ошибка
средний коэффициент эластичности
средняя относительная ошибка аппроксимации
доверительный интервал
МНК метод наименьших квадратов
МВНК метод взвешенного наименьшего квадрата
AR(1) авторегрессионное преобразование первого порядка
7
Стр.9
1. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Среди статистически взаимосвязанных признаков одни могут
рассматриваться как определенные факторы, влияющие на
изменение других, а вторые – как следствие, или результат
изменения первых. Соответственно, первые – это факторные
признаки, а вторые – результативные. Связь между двумя
переменными X и Y является функциональной, если определенному
значению переменной X соответствует строго определенное
значение Y. Это жестко детерминированная связь. Но существует и
другая взаимосвязь, при которой взаимно действуют многие
факторы, неравномерно влияющие на изменение результативного
признака. Такие связи являются
стохастическими
(вероятностными).
Корреляционная связь является частным случаем
стохастической связи. Это соотношение, соответствие между
средним значением результативного признака и признакамифакторами.
При этом если рассматривается связь средней величины
результативного показателя Y c одним признаком-фактором X,
корреляционная связь называется «парной», а если факторных
признаков два и более множественной. По характеру изменений Y,
X в парной корреляции различают прямую и обратную
взаимосвязи. При прямой связи – с увеличением X возрастает и Y,
при обратной – уменьшается. По форме связи она делится на
прямолинейные (линейные) и криволинейные (нелинейные).
Изучение корреляционных связей сводится к решению
следующих задач:
1) выявление наличия или отсутствия корреляционной связи между
изучаемыми признаками, эта задача может быть решена на основе
параллельного сопоставления (сравнения) значений X и Y y n
единиц совокупности, а также с помощью группировок и путем
построения и анализа специальных корреляционных таблиц;
2) измерение тесноты связи между двумя и более признаками с
помощью специальных коэффициентов (коэффициентов
корреляции,
rx,y), и эта часть исследований называется
«корреляционным анализом»;
3) определение уравнения регрессии – математической модели, в
которой среднее значение результативного признака Y
рассматривается как функция одной или нескольких переменных
факторных признаков X и эта часть исследования носит название
8
Стр.10
2. СПЕЦИФИКАЦИЯ МОДЕЛИ (ДЛЯ МНОЖЕСТВЕННОЙ
РЕГРЕССИИ)
При выборе факторных признаков для включения их в модель
чаще всего руководствуются теоретическими представлениями о
взаимосвязях факторов. Однако часто встречаются ситуации, когда
имеется m число факторов, но нет априорной модели изучаемого
фактора и не ясно, какие переменные можно включать в модель. В
этом случае проводят спецификацию модели. Смысл понятия
«спецификация модели»: это выбор объясняющих (существенных)
и зависимых переменных и выбор функциональной зависимости.
Выбор объясняющих (существенных) переменных проводят
методом пошагового отбора.
1. Из всего набора переменных отбирается (включается в модель)
имеющая наибольший по модулю коэффициент корреляции с
зависимой переменной у.
2. На каждом последующем шаге в модель добавляется та из
переменных, добавление которой максимально увеличивает
скорректированный коэффициент детерминации Radj
если соответствующая t-статистика больше 1 или меньше -1).
Правильная функциональная зависимость (вид функции
уравнения регрессии) должна отражать истинную зависимость
между независимой x и зависимыми у переменными.
2 (только
17
Стр.19
3. АДЕКВАТНОСТЬ РЕГРЕССИОННОЙ МОДЕЛИ
Кроме проверки значимости параметров и качества уравнения
регрессии в целом необходима проверка выполнений условий
Гаусса-Маркова, обеспечивающих несмещенность и эффективность
оценок параметров регрессии.
Оценка параметров регрессии является несмещенной, если
математическое ожидание оценки равняется соответствующей
характеристике генеральной совокупности. А оценка параметров
регрессии будет эффективной, если она является надежной
(точной) с определенным уровнем значимости (р-level), и чем он
меньше, тем меньше вероятность ошибки (функция плотности
вероятности распределения как можно более сжата вокруг
истинного значения, т.е. дисперсия данной оценки минимальна).
Таким образом, если параметры и качество уравнения
регрессии показали значимость уравнения линейной регрессии и
были выполнены все условия Гаусса-Маркова, то такая модель
будет считаться адекватной.
ПРОВЕРКА ВЫПОЛНЕНИЯ УСЛОВИЙ ГАУССА-МАРКОВА
Условия Гаусса-Маркова:
1. Случайность остаточной компоненты C X eov
;
(
M( ) 0e
ar i( )
i , ) 0 ;
i
2. Равенство нулю математического ожидания средней
величины остаточной компоненты
3. Постоянства дисперсии случайного члена
наблюдениях V e Const ;
4. Независимость уровней ряда остатков C ei eov( , ) 0j
e во всех
i
, i ;
j
5. Соответствие ряда остатков закону распределения ie ~ (0, 2
(не обязательное, но часто используемое условие).
N
)
Достоинства:
1. Наиболее простой метод выбора значений a и b, чтобы остатки
были минимальными;
2. При выполнении условий Гаусса-Маркова МНК-оценки будут
наилучшими (наиболее эффективными) линейными (комбинации
yi) несмещёнными оценками параметров регрессии (a и b).
Недостатки: МНК-оценки являются эффективными линейными
несмещёнными ТОЛЬКО при выполнении ВСЕХ условий ГауссаМаркова,
что на практике встречается редко.
18
Стр.20
4. СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА
АППРОКСИМАЦИИ
Для оценки точности регрессионных моделей используется
средняя относительная ошибка аппроксимации
отн
i
показывает среднее отклонение расчетных значений i
фактических i
y
y и рассчитывается по формуле:
ˆ
E н _от i yi
i
1
n
где
E
i
i
n
i1
y 1 % 100
yi
n
1 %00
i
n
i1
y
e
i
Y
e – среднее значение относительной погрешности остатков;
n – количество наблюдений.
Если средняя относительная ошибка аппроксимации
о _ 8 1 %0iтн
, то модель считается точной; если 1 %0
модель считается удовлетворительной.
5. СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ
Средний коэффициент эластичности показывает, на сколько
процентов изменится зависимая переменная i
величины при изменении независимой переменной i
y от своей средней
x на 1% от
своего среднего значения. Формулы расчетов коэффициентов
эластичности для наиболее часто используемых типов уравнений
регрессий приведены в таблице:
Тип регрессии
линейная
степенная
гиперболическая
показательная
Уравнение
регрессии
y xba
y a x
y a b
b
x
y a b
x
Средний
коэффициент
эластичности
y
Э b x
i
Э bi
Эi
i ln
a x b
b
Э x b
i
i
Eотн _ i 1 %5
–
E _ , которая
ˆ от
29
Стр.31
6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОГНОЗНОГО
ЗНАЧЕНИЯ
Интервальный прогноз (ДИ) для среднего значения
ˆ рассчитывается по формуле: y t S
показателя y
где:
t
ˆ
прогноз
(табличные значения t-критерия Стьюдента для
односторонней области при уровне значимости р=0,05); Se –
стандартная ошибка модели;
S
прогноз
n
i
Se
значений (точечный прогноз) i
где: Sпрогноз
n
i
Se
1 1 (xпрогноз. x)
n
ix x)
1
(
2
1 (xпрогноз. x)
n
ix x)
1
(
2
2
.
А соответствующий ДИ для прогнозов индивидуальных
y
ˆ будет рассчитываться по формуле:
прогноз
y t Sˆi
2
7. НЕЛИНЕЙНЫЕ ФОРМЫ ЗАВИСИМОСТИ
Использование линейной зависимости для описания данных
наблюдений часто оказывается недостаточным. Необходимо
использовать и нелинейные формы зависимостей, которые путем
замены переменных можно преобразовать в линейный вид. Из
нелинейных моделей чаще всего используются гиперболическая,
степенная и показательная. Более подробно они описаны в разделе
ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ.
30
Стр.32
ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ
ПРИМЕР 1.
Изучена
еженедельная
заболеваемость острыми
респираторными инфекциями на территории Н. в зимний период (с
декабря по февраль). Установлена корреляционная зависимость
между средней еженедельной температурой в зимний период (X) и
количеством острых респираторных заболеваний (ОРЗ) (Y).
Неделя Кол-во ОРЗ Температура воздуха,
- t оС
1
2
3
4
5
6
7
8
9
10
11
12
30
31
33
34
34
36
38
39
38
36
28
34
20
21
22
23
21
25
25
29
28
23
20
22
Требуется:
1. Найти параметры уравнения линейной регрессии, дать
интерпретацию коэффициента регрессии.
2. Вычислить остатки; найти остаточную сумму квадратов;
оценить дисперсию остатков 2
e
S ; построить график остатков.
3. Проверить выполнение предпосылок МНК.
4. Осуществить проверку значимости параметров уравнения
регрессии с помощью t-критерия Стьюдента (р=0,05). Дать
интервальную оценку параметрам регрессии.
5. Вычислить коэффициент детерминации, проверить
значимость уравнения регрессии с помощью F-критерия Фишера
(р=0,05). Сделать вывод о качестве модели.
6. Найти коэффициент эластичности и среднюю
относительную ошибку аппроксимации линейной регрессии.
7. Составить уравнения нелинейной регрессии:
32
Стр.34
гиперболическую;
степенную;
показательную.
Найти коэффициенты детерминации, коэффициенты
эластичности и средние относительные ошибки аппроксимации.
8. Сравнить модели по всем характеристикам и сделать вывод.
9. Осуществить прогнозирование значения показателя Y при
уровне значимости р=0,05, если прогнозное значение фактора X
составляет 80% от его максимального значения.
Вариант 1. С использованием математических формул
Вариант 2. В программе Excel
Вариант 3. С использованием программы STATISTICA 6.0
33
Стр.35
Решение задачи
Уравнение линейной модели парной регрессии:
y xbaˆ
1. Найти параметры уравнения линейной регрессии, дать
интерпретацию параметра регрессии.
Вариант 1.
Для нахождения параметров уравнения линейной регрессии
(a, b) решим систему нормальных уравнений:
i
a X b Xi X Y
2
a n b X
i
i
уравнений в виде:
a X b X XY
a b X Y
формулам:
b
2
Решение этой системы даем нам найти параметры b и a по
Y
X Y X
2
X X
2
и a Y b X
.
Предварительно, в программе Excel найдем промежуточные
результаты, где Y (результативный признак) – количество острых
респираторных заболеваний (ОРЗ), X (факторный признак) –
средняя еженедельная температура в зимний период (оС) (табл. 1.1):
Таблица 1.1
i
1
2
3
4
5
6
7
8
9
10
11
12
Y i
30
31
33
34
34
36
38
39
38
36
28
34
X i
20
21
22
23
21
25
25
29
28
23
20
22
34
Xi
2
400
441
484
529
441
625
625
841
784
529
400
484
Y X
600
i
651
726
782
714
900
950
1131
1064
828
560
748
СРЗНАЧ 34,250 23,250 548,583 804,500
i
i
Разделив обе части на n, получим систему нормальных
Yi
Стр.36
регрессии:
Далее, найдем по формулам параметры b и a уравнения
04
b
8 ,5 3 ,2 2 ,25354
2
5 ,58348
a 3 , 54 2 1,02082162 ,2 1 , 5169053
2 ,253
1,02082161, 0208;
Вариант 2. В программе Excel строим таблицу (табл. 1.2), где
Y (результативный признак) – количество острых респираторных
заболеваний (ОРЗ), X (факторный признак) – средняя минусовая
еженедельная температура в зимний период (оС).
Таблица 1.2
i
1
2
3
4
5
6
7
8
9
10
11
12
Y i
30
31
33
34
34
36
38
39
38
36
28
34
СРЗНАЧ 34,25
X i
20
21
22
23
21
25
25
29
28
23
20
22
23,25
СУММА 411,00 279,00
Далее, выбираем вкладку Сервис – Анализ данных –
Регрессия, подставляем данные для входного интервала Y и X и
выбираем остатки (рис. 1.1).
Рисунок 1.1.
35
Стр.37
ПРИМЕР 2
Представлены стандартизованные показатели (на 100000
населения) заболеваемости раком легкого с 1990 по 2005 гг. и
выбросы загрязняющих веществ (ЗВ) в атмосферу (тыс. т) за
период с 1985 по 2005 г. в г. N.
Требуется:
1. Установить зависимость влияния загрязнения
атмосферного воздуха (X) на заболеваемость раком легкого (РЛ)
(Y).
2. Найти параметры уравнения линейной регрессии.
Осуществить проверку значимости параметров уравнения
регрессии с помощью t-критерия Стьюдента (р=0,05). Дать
интервальную оценку параметрам регрессии. Дать интерпретацию
коэффициента регрессии.
3. Вычислить остатки; найти остаточную сумму квадратов;
оценить дисперсию остатков 2
e
S ; построить график остатков.
4. Проверить выполнение предпосылок МНК.
5. Вычислить коэффициент детерминации, проверить
значимость уравнения регрессии с помощью F-критерия Фишера
(р=0,05), найти среднюю относительную ошибку аппроксимации и
коэффициент эластичности.
6. Составить уравнения нелинейной регрессии:
гиперболическую;
степенную;
показательную.
Найти коэффициенты детерминации, коэффициенты
эластичности и средние относительные ошибки аппроксимации.
7. Сравнить модели по всем характеристикам и сделать вывод.
8. Осуществить прогнозирование значения показателя Y при
уровне значимости р=0,05, если прогнозное значение фактора X
составляет 80% от его максимального значения.
Решение задачи
1. Установить зависимость влияния загрязнения
атмосферного воздуха (X) на заболеваемость раком легкого (Y).
При решении этого этапа следует учитывать длительность
латентного периода возникновения рака, исходя из общих
представлений о канцерогенезе. Иными словами, необходимо
65
Стр.67
определить промежуток времени (t) между величиной выбросов ЗВ
в атмосферу (X) и показателями заболеваемости РЛ (Y).
Для этого с помощью программы Excel (Сервис – Анализ
данных – Корреляция) найдем тот сдвиг во времени, которому
будет соответствовать статистически значимый коэффициент
корреляции (рис. 2.1.и 2.2).
Рисунок 2.1.
66
Стр.68
Рисунок 2.2.
В данном примере коэффициент корреляции r=0,79.
Значимость r проверим с помощью критического значения
коэффициента корреляции Пирсона rкрит (приложение), при уровне
значимости α=0,05:
rкрит=0,55, при n-2, что меньше r=0,79, следовательно коэффициент
корреляции статистически значим;
и по t-критерия Стьюдента: найдем t рапсч
t
р апсч
1 (0,7 )9
1 23
2
;
n 2
1 rx y
2
,
tкрит=2,20, следовательно,
и сравним с tкрит
(приложение) при (n-2); α=0,05/2 (двусторонняя область). Отсюда
5, 41
говорит о значимости коэффициента корреляции.
Таким образом, выявлена по шкале Чеддока прямая,
высокая корреляционная связь между заболеваемостью РЛ и
выбросами ЗВ в атмосферу в г. N с промежутком во времени 8
лет.
67
tрасч>tкрит, что
Стр.69
Далее составим таблицу для дальнейших расчетов, где
i
1
2
3
4
5
6
7
8
9
10
11
12
13
Y i
48,0
53,0
55,0
48,0
45,0
48,0
51,0
46,0
44,0
40,0
40,0
40,0
39,1
X i
2060,300
2081,500
1894,800
1805,217
1670,194
1679,813
1515,861
1221,827
1416,746
1350,032
1283,300
1254,434
1191,775
2. Найти параметры уравнения линейной регрессии.
Осуществить проверку значимости параметров уравнения
регрессии с помощью t-критерия Стьюдента (р=0,05). Дать
интервальную оценку параметрам регрессии. Дать
интерпретацию коэффициента регрессии.
Параметры уравнения линейной регрессии получили с
помощью программы Excel (Сервис – Анализ данных –
Регрессия), подставив данные для входного интервала Y и X и
выбрав остатки (рис. 2.3).
Y –
i
заболеваемость РЛ на 100000 населения, а iX – выбросы ЗВ в
атмосферу (тыс. т) (табл. 2.1).
Таблица 2.1
68
Стр.70
ПРИМЕР 3
У 25 женщин, преподавателей среднеобразовательной школы,
проведено измерение систолического артериального давления
(САД) (мм.рт.ст.). Получена корреляционная зависимость между
стажем преподавательской работы (X) и уровнем артериального
давления (Y).
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Y i
110
100
110
170
110
115
110
90
115
110
90
110
160
110
100
105
100
130
125
120
110
160
145
100
150
X i
2
4
7
35
4
9
5
7
24
9
8
9
22
30
3
11
8
8
8
13
9
30
32
9
41
Требуется:
1. Найти параметры уравнения линейной регрессии.
Осуществить проверку значимости параметров уравнения
регрессии с помощью t-критерия Стьюдента (р=0,05). Дать
интервальную оценку параметрам регрессии. Дать интерпретацию
коэффициента регрессии.
84
Стр.86
оценить дисперсию остатков 2
e
2. Вычислить остатки; найти остаточную сумму квадратов;
S ; построить график остатков.
3. Проверить выполнение предпосылок МНК.
4. Вычислить коэффициент детерминации, проверить
значимость уравнения регрессии с помощью F-критерия Фишера
(р=0,05), найти среднюю относительную ошибку аппроксимации и
коэффициент эластичности. Сделать вывод о качестве модели.
5. Составить уравнения нелинейной регрессии:
гиперболическую;
степенную;
показательную.
Найти коэффициенты детерминации, коэффициенты
эластичности и средние относительные ошибки аппроксимации.
6. Сравнить модели по всем характеристикам и сделать вывод.
7. Осуществить прогнозирование значения показателя Y при
уровне значимости р=0,05, если прогнозное значение фактора X
составляет 80% от его максимального значения.
85
Стр.87
Решение задачи
1. Найти параметры уравнения линейной регрессии.
Осуществить проверку значимости параметров уравнения
регрессии с помощью t-критерия Стьюдента (р=0,05). Дать
интервальную оценку параметрам регрессии. Дать
интерпретацию коэффициента регрессии.
Параметры уравнения линейной регрессии получили с
помощью программы Excel (Сервис – Анализ данных –
Регрессия), подставив данные для входного интервала Y и X и
выбрав остатки (рис.3.1).
Рисунок 3.1.
Уравнение регрессии имеет следующий вид:
y ˆ 9 ,5797
1,486 x
Параметры регрессии a=97,579 (t=20,864; р=1,919E-16),
b=1,486 (t=5,650; р=9,443E-06) статистически значимы. Параметр b
означает, что при увеличении стажа работы на 1 год уровень
систолического АД увеличивается в среднем на 1,486 мм.рт.ст.
86
Стр.88
2. Вычислить остатки; найти остаточную сумму
квадратов; оценить дисперсию остатков 2
e
Остаточная сумма квадратов SSост и дисперсия остатков 2
e
S ; построить график
остатков.
Остатки получили методом регрессионного анализа (рис. 3.1).
S =MS
составили 4918,004 и 213,826 соответственно.
График остатков строим, используя в Excel надстройку
«Мастер диаграмм»: тип диаграммы – точечная, выбираем столбцы
Наблюдение и Остатки из таблицы ВЫВОД ОСТАТКА (рис.
3.1), где по оси абсцисс – наблюдения; по оси ординат – остатки
(рис. 3.2).
График остатков
10,000
20,000
30,000
40,000
-40,000
-30,000
-20,000
-10,000
0,000
0
Рисунок 3.2.
3. Проверить выполнение предпосылок МНК.
Выполнение предпосылок МНК согласно условиям ГауссаМаркова
включают в себя проверку:
11) случайности остаточной компоненты Cov(Xi,ei)=0 (критерий
поворотных точек);
12) равенства нулю математического ожидания средней величины
остаточной компоненты М(ē)=0;
13) постоянства дисперсии случайного члена
еi во всех
наблюдениях (Var(ei)=Const) (критерий Голдфелда-Квандта,
тест Спирмена);
14) независимости уровней ряда остатков Cov(еi , еj )=0, j≠i
(критерий Дарбина-Уотсона);
15) соответствия ряда остатков закону распределения еi~N(0,σ2)
(R/S-критерий).
87
5
10
15
20
25
Остатки
Стр.89
ПРИЛОЖЕНИЕ
Таблица критических значений коэффициентов корреляции
Пирсона
Для уровня значимости α=0,05; α=0,01
Вероятность р= α
где k – число степеней свободы
α
k = n - 2
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
0,05
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,42
0,41
0,40
0,40
0,39
0,38
0,37
0,01
0,87
0,83
0,80
0,77
0,74
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
0,54
0,53
0,52
0,51
0,50
0,49
0,48
k = n - 2
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
700
900
1000
109
α
0,05
0,37
0,36
0,36
0,35
0,33
0,30
0,29
0,27
0,25
0,23
0,22
0,21
0,20
0,17
0,16
0,14
0,11
0,10
0,09
0,07
0,06
0,06
0,01
0,47
0,046
0,046
0,045
0,42
0,39
0,37
0,35
0,33
0,30
0,28
0,27
0,25
0,23
0,21
0,18
0,15
0,13
0,12
0,10
0,09
0,09
Стр.111
Методические рекомендации
Мун Стелла Андреевна
Глушков Андрей Николаевич
Штернис Татьяна Александровна
Ларин Сергей Анатольевич
Максимов Сергей Алексеевич
РЕГРЕССИОННЫЙ АНАЛИЗ
В МЕДИКО-БИОЛОГИЧЕСКИХ
ИССЛЕДОВАНИЯХ
Разработка макета – Мун С.А.
Ответственный редактор – Мун С.А.
Подписано в печать 27.09.12.
Тираж 100 экз. Формат 2 3 1 201
Условных печатных листов 6,7
Стр.118