Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 629778)
Контекстум
.

Регрессионный анализ в медико-биологических исследованиях (190,00 руб.)

0   0
Первый авторМун
ИздательствоКемГМА
Страниц119
ID190910
АннотацияВ методических рекомендациях представлены современные подходы к организации и проведению корреляционно-регрессионного анализа на примере парной линейной регрессии, а также нелинейных форм связи на примере степенной, показательной и гиперболической моделей. В примерах подробно продемонстрировано пошаговое решение проверки значимости параметров и качества уравнения регрессии, выполнений условий Гаусса-Маркова, как в программе Microsoft® Office Excel®, Statsoft® STATISTICA 6.0, так и с использованием математических формул. Уделено внимание интерпретации результатов и выводов. Настоящие методические рекомендации предназначены для врачей-специалистов, аспирантов, ординаторов и интернов, студентов медицинского вуза.
Мун, С.А. Регрессионный анализ в медико-биологических исследованиях / Мун С.А., Глушков А.Н., Штернис Т.А.; С.А. Мун .— Кемерово : КемГМА, 2012 .— 119 с. — URL: https://rucont.ru/efd/190910 (дата обращения: 26.02.2024)

Предпросмотр (выдержки из произведения)

В методических рекомендациях представлены современные подходы к организации и проведению корреляционно-регрессионного анализа на примере парной линейной регрессии, а также нелинейных форм связи на примере степенной, показательной и гиперболической моделей. <...> В примерах подробно продемонстрировано пошаговое решение проверки значимости параметров и качества уравнения регрессии, выполнений условий Гаусса-Маркова, как в программе Microsoft® Excel®, Statsoft STATISTICA 6.0, так и с использованием математических формул. <...> Доверительные интервалы Коэффициент корреляции Проверка значимости коэффициента корреляции (tкритерий Стьюдента) Коэффициент детерминации Скорректированный коэффициент детерминации. <...> Проверка значимости коэффициента детерминации (F-критерий Фишера) Доверительные интервалы для прогнозного значения СПЕЦИФИКАЦИЯ МОДЕЛИ (ДЛЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ) АДЕКВАТНОСТЬ РЕГРЕССИОННОЙ МОДЕЛИ. <...> ПРОВЕРКА ВЫПОЛНЕНИЯ УСЛОВИЙ ГАУССА-МАРКОВА Случайность остаточной компоненты Cov( X i , ei )  0 Равенство нулю математического ожидания средней величины остаточной компоненты M (e )  0 Постоянства дисперсии случайного члена еi во всех наблюдениях Var(ei )  Const Независимость уровней ряда остатков Cov(ei , e j )  0 , i  j Соответствие ряда остатков закону распределения ei ~ N (0, 2 ) СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА АППРОКСИМАЦИИ СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОГНОЗНОГО ЗНАЧЕНИЯ НЕЛИНЕЙНЫЕ ФОРМЫ ЗАВИСИМОСТИ 3 Стр. <...> 5 7 8 9 10 12 13 15 17 18 19 19 20 23 28 29 29 30 30 ЛИТЕРАТУРА ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ (линейная, степенная, гиперболическая, показательная) ПРИМЕР 1 ПРИМЕР 2 ПРИМЕР 3 ПРИЛОЖЕНИЕ 4 31 32 65 84 109 ВВЕДЕНИЕ В современном обществе нет ни одной сферы человеческой деятельности, где бы ни применялась статистика, будь то экономика, экология, медицина, естественные науки, политология, социология, психология и т.д. <...> Наиболее разработанной в теории статистики является методология так называемой парной корреляции, рассматривающая <...>
Регрессионный_анализ_в_медико-биологических_исследованиях.pdf
Стр.1
Стр.3
Стр.4
Стр.5
Стр.6
Стр.7
Стр.8
Стр.9
Стр.10
Стр.19
Стр.20
Стр.31
Стр.32
Стр.34
Стр.35
Стр.36
Стр.37
Стр.67
Стр.68
Стр.69
Стр.70
Стр.86
Стр.87
Стр.88
Стр.89
Стр.111
Стр.118
Регрессионный_анализ_в_медико-биологических_исследованиях.pdf
ФГБУН Институт экологии человека СО РАН ГБОУ ВПО «Кемеровская государственная медицинская академия» Министерства здравоохранения и социального развития РФ ФГБУ НИИ Комплексных проблем сердечно-сосудистых заболеваний СО РАМН Мун С.А., Глушков А.Н., Штернис Т.А., Ларин С.А., Максимов С.А. РЕГРЕССИОННЫЙ АНАЛИЗ В МЕДИКО-БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ Методические рекомендации Кемерово 2012
Стр.1
Кемерово 2012
Стр.3
УДК [614.2:311](075.8) ББК 51.1 (2) В М904 Мун С.А. Регрессионный В М904 анализ в медико-биологических исследованиях: методические рекомендации / С.А. Мун, А.Н. Глушков, Т.А. Штернис, С.А. Ларин, С.А. Максимов; ГБОУ ВПО КемГМА Минздравсоцразвития России. – Кемерово: КемГМА, 2012. – 115 с. В методических рекомендациях представлены современные подходы к организации и проведению корреляционно-регрессионного анализа на примере парной линейной регрессии, а также нелинейных форм связи на примере степенной, показательной и гиперболической моделей. В примерах подробно продемонстрировано пошаговое решение проверки значимости параметров и качества уравнения регрессии, выполнений условий Гаусса-Маркова, как в программе Microsoft® Excel®, Statsoft STATISTICA 6.0, так и с использованием математических формул. Уделено внимание интерпретации результатов и выводов. Настоящие методические рекомендации предназначены для врачейспециалистов, аспирантов, ординаторов и интернов, студентов медицинского вуза. УДК [614.2:311](075.8) ББК 51.1 (2) Рецензенты: Главный областной специалист по научной работе медицинской службы КО, заместитель директора по научной работе ФГБУ НИИ Комплексных проблем сердечно-сосудистых заболеваний СО РАМН д.м.н., профессор Г.В. Артамонова Директор ФГБУ НИИ Комплексных проблем гигиены и профессиональных заболеваний СО РАМН д.м.н., профессор В.В. Захаренков Рассмотрено и рекомендовано к печати заседанием Ученого совета ИЭЧ СО РАН – 28.08.2012 г.; Ученого совета КемГМА – 27.09.2012 г. © Институт экологии человека СО РАН, 2012 © Кемеровская государственная медицинская академия, 2012 © НИИ Комплексных проблем сердечно-сосудистых заболеваний СО РАМН, 2012
Стр.4
СОДЕРЖАНИЕ ВВЕДЕНИЕ СПИСОК СОКРАЩЕНИЙ 1. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ 1.1. Уравнение регрессии 1.2. Параметры уравнения регрессии Проверка значимости параметров регрессии (tкритерий Стьюдента). Доверительные интервалы 1.3. Коэффициент корреляции Проверка значимости коэффициента корреляции (tкритерий Стьюдента) 1.4. Коэффициент детерминации Скорректированный коэффициент детерминации. Проверка значимости коэффициента детерминации (F-критерий Фишера) 1.5. Доверительные интервалы для прогнозного значения 2. СПЕЦИФИКАЦИЯ МОДЕЛИ (ДЛЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ) 3. АДЕКВАТНОСТЬ РЕГРЕССИОННОЙ МОДЕЛИ. ПРОВЕРКА ВЫПОЛНЕНИЯ УСЛОВИЙ ГАУССА-МАРКОВА 3.1. Случайность остаточной компоненты C X eov ( M( ) 0e i , ) 0 i  3.2. Равенство нулю математического ожидания средней величины остаточной компоненты 3.3. Постоянства дисперсии случайного члена еi во всех наблюдениях V e Const ar i( )  3.4. Независимость уровней ряда остатков C ei eov( , ) 0j e ~ (0, 2 N ) 4. СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА АППРОКСИМАЦИИ 5. СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ 6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОГНОЗНОГО ЗНАЧЕНИЯ 7. НЕЛИНЕЙНЫЕ ФОРМЫ ЗАВИСИМОСТИ 3 , i  j 3.5. Соответствие ряда остатков закону распределения i Стр. 5 7 8 9 10 12 13 15 17 18 19 19 20 23 28 29 29 30 30 
Стр.5
ЛИТЕРАТУРА ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ (линейная, степенная, гиперболическая, показательная) ПРИМЕР 1 ПРИМЕР 2 ПРИМЕР 3 ПРИЛОЖЕНИЕ 31 32 65 84 109 4
Стр.6
ВВЕДЕНИЕ В современном обществе нет ни одной сферы человеческой деятельности, где бы ни применялась статистика, будь то экономика, экология, медицина, естественные науки, политология, социология, психология и т.д. С помощь статистики осуществляется научная обработка, обобщение и анализ информации, характеризующей развитие экономики страны, здравоохранения, политики, культуры и уровня жизни населения. Статистика позволяет выявить взаимосвязи (закономерности), изучить динамику развития, провести анализ для получения обоснованных выводов и принятия правильных решений, которые могут быть применены на практике. Большим шагом в развитии медицинской статистической науки явилось применение математических методов и широкое использование компьютерной техники в анализе медикобиологических явлений. Статистика, как любая наука, требует определения предмета исследования. Предметом статистики выступают размеры и количественные соотношения качественно определенных медикобиологических явлений, закономерности их взаимосвязей и развития в конкретных условиях места и времени. Свой предмет статистика изучает методом обобщающих показателей. Для изучения предмета статистики разработаны и применяются специфические приемы, совокупность которых образует методологию статистики (методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод и др.). Применение в статистике конкретных методов предопределяется поставленными задачами и зависит от характера исходной информации. Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью медико-статистических моделей. В широком смысле модель - это аналог, условный образ (изображение, описание, схема, чертеж и т.п.) какого-либо объекта, процесса или события, приближенно воссоздающий «оригинал». Модель представляет собой логическое или математическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса, дает возможность установить основные закономерности изменения оригинала. В модели оперируют 5
Стр.7
показателями, исчисленными для качественно однородных массовых явлений (совокупностей). Выражение моделей в виде функциональных уравнений используют для расчета средних значений моделируемого показателя по набору заданных величин и для выявления степени влияния на него отдельных факторов. По количеству включаемых факторов модели могут быть однофакторными и многофакторными (два и более факторов). В зависимости от познавательной цели статистические модели подразделяются на структурные, динамические и модели связи. Наиболее разработанной в теории статистики является методология так называемой парной корреляции, рассматривающая влияние вариации факторного признака X на результативный признак Y и представляющая собой однофакторный корреляционный и регрессионный анализ. 6
Стр.8
Y ˆ СПИСОК ОСНОВНЫХ СОКРАЩЕНИЙ результативный признак (показатель) y i X ε rxy а b α β ei R2 m Se Эi Eотн_i ДИ Radj n 2 расчетное значение результативного признака, полученное по уравнению регрессии факторный признак случайная ошибка или случайный член (ошибка измерений) коэффициент корреляции параметр (коэффициент) уравнения регрессии, свободный член параметр (коэффициент) уравнения регрессии оценка параметра (коэффициента) уравнения регрессии оценка параметра (коэффициента) уравнения регрессии полагаемые значения (оценки) ошибок εi коэффициент детерминации скорректированный коэффициент детерминации число наблюдений число параметров стандартная ошибка средний коэффициент эластичности средняя относительная ошибка аппроксимации доверительный интервал МНК метод наименьших квадратов МВНК метод взвешенного наименьшего квадрата AR(1) авторегрессионное преобразование первого порядка 7
Стр.9
1. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Среди статистически взаимосвязанных признаков одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вторые – как следствие, или результат изменения первых. Соответственно, первые – это факторные признаки, а вторые – результативные. Связь между двумя переменными X и Y является функциональной, если определенному значению переменной X соответствует строго определенное значение Y. Это жестко детерминированная связь. Но существует и другая взаимосвязь, при которой взаимно действуют многие факторы, неравномерно влияющие на изменение результативного признака. Такие связи являются стохастическими (вероятностными). Корреляционная связь является частным случаем стохастической связи. Это соотношение, соответствие между средним значением результативного признака и признакамифакторами. При этом если рассматривается связь средней величины результативного показателя Y c одним признаком-фактором X, корреляционная связь называется «парной», а если факторных признаков два и более множественной. По характеру изменений Y, X в парной корреляции различают прямую и обратную взаимосвязи. При прямой связи – с увеличением X возрастает и Y, при обратной – уменьшается. По форме связи она делится на прямолинейные (линейные) и криволинейные (нелинейные). Изучение корреляционных связей сводится к решению следующих задач: 1) выявление наличия или отсутствия корреляционной связи между изучаемыми признаками, эта задача может быть решена на основе параллельного сопоставления (сравнения) значений X и Y y n единиц совокупности, а также с помощью группировок и путем построения и анализа специальных корреляционных таблиц; 2) измерение тесноты связи между двумя и более признаками с помощью специальных коэффициентов (коэффициентов корреляции, rx,y), и эта часть исследований называется «корреляционным анализом»; 3) определение уравнения регрессии – математической модели, в которой среднее значение результативного признака Y рассматривается как функция одной или нескольких переменных факторных признаков X и эта часть исследования носит название 8
Стр.10
2. СПЕЦИФИКАЦИЯ МОДЕЛИ (ДЛЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ) При выборе факторных признаков для включения их в модель чаще всего руководствуются теоретическими представлениями о взаимосвязях факторов. Однако часто встречаются ситуации, когда имеется m число факторов, но нет априорной модели изучаемого фактора и не ясно, какие переменные можно включать в модель. В этом случае проводят спецификацию модели. Смысл понятия «спецификация модели»: это выбор объясняющих (существенных) и зависимых переменных и выбор функциональной зависимости. Выбор объясняющих (существенных) переменных проводят методом пошагового отбора. 1. Из всего набора переменных отбирается (включается в модель) имеющая наибольший по модулю коэффициент корреляции с зависимой переменной у. 2. На каждом последующем шаге в модель добавляется та из переменных, добавление которой максимально увеличивает скорректированный коэффициент детерминации Radj если соответствующая t-статистика больше 1 или меньше -1). Правильная функциональная зависимость (вид функции уравнения регрессии) должна отражать истинную зависимость между независимой x и зависимыми у переменными. 2 (только 17
Стр.19
3. АДЕКВАТНОСТЬ РЕГРЕССИОННОЙ МОДЕЛИ Кроме проверки значимости параметров и качества уравнения регрессии в целом необходима проверка выполнений условий Гаусса-Маркова, обеспечивающих несмещенность и эффективность оценок параметров регрессии. Оценка параметров регрессии является несмещенной, если математическое ожидание оценки равняется соответствующей характеристике генеральной совокупности. А оценка параметров регрессии будет эффективной, если она является надежной (точной) с определенным уровнем значимости (р-level), и чем он меньше, тем меньше вероятность ошибки (функция плотности вероятности распределения как можно более сжата вокруг истинного значения, т.е. дисперсия данной оценки минимальна). Таким образом, если параметры и качество уравнения регрессии показали значимость уравнения линейной регрессии и были выполнены все условия Гаусса-Маркова, то такая модель будет считаться адекватной. ПРОВЕРКА ВЫПОЛНЕНИЯ УСЛОВИЙ ГАУССА-МАРКОВА Условия Гаусса-Маркова: 1. Случайность остаточной компоненты C X eov ; ( M( ) 0e ar i( )  i , ) 0 ; i  2. Равенство нулю математического ожидания средней величины остаточной компоненты 3. Постоянства дисперсии случайного члена наблюдениях V e Const ; 4. Независимость уровней ряда остатков C ei eov( , ) 0j e во всех i , i  ; j 5. Соответствие ряда остатков закону распределения ie ~ (0, 2 (не обязательное, но часто используемое условие). N ) Достоинства: 1. Наиболее простой метод выбора значений a и b, чтобы остатки были минимальными; 2. При выполнении условий Гаусса-Маркова МНК-оценки будут наилучшими (наиболее эффективными) линейными (комбинации yi) несмещёнными оценками параметров регрессии (a и b). Недостатки: МНК-оценки являются эффективными линейными несмещёнными ТОЛЬКО при выполнении ВСЕХ условий ГауссаМаркова, что на практике встречается редко. 18 
Стр.20
4. СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА АППРОКСИМАЦИИ Для оценки точности регрессионных моделей используется средняя относительная ошибка аппроксимации отн i показывает среднее отклонение расчетных значений i фактических i y y и рассчитывается по формуле: ˆ E н _от i   yi i 1 n где E i i n i1 y  1 % 100 yi n   1 %00 i n i1 y e i Y e – среднее значение относительной погрешности остатков; n – количество наблюдений. Если средняя относительная ошибка аппроксимации о _ 8 1 %0iтн , то модель считается точной; если 1 %0 модель считается удовлетворительной. 5. СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ Средний коэффициент эластичности показывает, на сколько процентов изменится зависимая переменная i величины при изменении независимой переменной i y от своей средней x на 1% от своего среднего значения. Формулы расчетов коэффициентов эластичности для наиболее часто используемых типов уравнений регрессий приведены в таблице: Тип регрессии линейная степенная гиперболическая показательная Уравнение регрессии y    xba y a x y a b b    x y a b x Средний коэффициент эластичности y Э b x i Э bi  Эi     i  ln a x b b Э x b i i  Eотн _ i 1 %5 – E _ , которая ˆ от 29  
Стр.31
6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОГНОЗНОГО ЗНАЧЕНИЯ Интервальный прогноз (ДИ) для среднего значения ˆ рассчитывается по формуле: y t S показателя y где: t ˆ прогноз (табличные значения t-критерия Стьюдента для односторонней области при уровне значимости р=0,05); Se – стандартная ошибка модели; S прогноз    n i Se значений (точечный прогноз) i где: Sпрогноз     n i Se 1 1 (xпрогноз.  x) n  ix x) 1 ( 2 1 (xпрогноз.  x) n  ix x) 1 ( 2 2 . А соответствующий ДИ для прогнозов индивидуальных y ˆ будет рассчитываться по формуле: прогноз y t Sˆi 2 7. НЕЛИНЕЙНЫЕ ФОРМЫ ЗАВИСИМОСТИ Использование линейной зависимости для описания данных наблюдений часто оказывается недостаточным. Необходимо использовать и нелинейные формы зависимостей, которые путем замены переменных можно преобразовать в линейный вид. Из нелинейных моделей чаще всего используются гиперболическая, степенная и показательная. Более подробно они описаны в разделе ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ. 30   
Стр.32
ПРИМЕРЫ ПАРНОЙ РЕГРЕССИИ ПРИМЕР 1. Изучена еженедельная заболеваемость острыми респираторными инфекциями на территории Н. в зимний период (с декабря по февраль). Установлена корреляционная зависимость между средней еженедельной температурой в зимний период (X) и количеством острых респираторных заболеваний (ОРЗ) (Y). Неделя Кол-во ОРЗ Температура воздуха, - t оС 1 2 3 4 5 6 7 8 9 10 11 12 30 31 33 34 34 36 38 39 38 36 28 34 20 21 22 23 21 25 25 29 28 23 20 22 Требуется: 1. Найти параметры уравнения линейной регрессии, дать интерпретацию коэффициента регрессии. 2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков 2 e S ; построить график остатков. 3. Проверить выполнение предпосылок МНК. 4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (р=0,05). Дать интервальную оценку параметрам регрессии. 5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F-критерия Фишера (р=0,05). Сделать вывод о качестве модели. 6. Найти коэффициент эластичности и среднюю относительную ошибку аппроксимации линейной регрессии. 7. Составить уравнения нелинейной регрессии: 32
Стр.34
  гиперболическую; степенную;  показательную. Найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. 8. Сравнить модели по всем характеристикам и сделать вывод. 9. Осуществить прогнозирование значения показателя Y при уровне значимости р=0,05, если прогнозное значение фактора X составляет 80% от его максимального значения. Вариант 1. С использованием математических формул Вариант 2. В программе Excel Вариант 3. С использованием программы STATISTICA 6.0 33
Стр.35
Решение задачи Уравнение линейной модели парной регрессии: y    xbaˆ 1. Найти параметры уравнения линейной регрессии, дать интерпретацию параметра регрессии. Вариант 1. Для нахождения параметров уравнения линейной регрессии (a, b) решим систему нормальных уравнений: i     a X b Xi X Y 2 a n b X  i    i уравнений в виде:      a X b X XY a b X Y       формулам: b  2  Решение этой системы даем нам найти параметры b и a по Y   X Y X 2 X X  2 и a Y b X . Предварительно, в программе Excel найдем промежуточные результаты, где Y (результативный признак) – количество острых респираторных заболеваний (ОРЗ), X (факторный признак) – средняя еженедельная температура в зимний период (оС) (табл. 1.1): Таблица 1.1 i 1 2 3 4 5 6 7 8 9 10 11 12 Y i 30 31 33 34 34 36 38 39 38 36 28 34 X i 20 21 22 23 21 25 25 29 28 23 20 22 34 Xi 2 400 441 484 529 441 625 625 841 784 529 400 484 Y X 600 i 651 726 782 714 900 950 1131 1064 828 560 748 СРЗНАЧ 34,250 23,250 548,583 804,500 i     i Разделив обе части на n, получим систему нормальных Yi 
Стр.36
регрессии: Далее, найдем по формулам параметры b и a уравнения 04  b  8 ,5 3 ,2 2 ,25354 2  5 ,58348 a  3 , 54 2 1,02082162 ,2 1 , 5169053  2 ,253  1,02082161, 0208;  Вариант 2. В программе Excel строим таблицу (табл. 1.2), где Y (результативный признак) – количество острых респираторных заболеваний (ОРЗ), X (факторный признак) – средняя минусовая еженедельная температура в зимний период (оС). Таблица 1.2 i 1 2 3 4 5 6 7 8 9 10 11 12 Y i 30 31 33 34 34 36 38 39 38 36 28 34 СРЗНАЧ 34,25 X i 20 21 22 23 21 25 25 29 28 23 20 22 23,25 СУММА 411,00 279,00 Далее, выбираем вкладку Сервис – Анализ данных – Регрессия, подставляем данные для входного интервала Y и X и выбираем остатки (рис. 1.1). Рисунок 1.1. 35
Стр.37
ПРИМЕР 2 Представлены стандартизованные показатели (на 100000 населения) заболеваемости раком легкого с 1990 по 2005 гг. и выбросы загрязняющих веществ (ЗВ) в атмосферу (тыс. т) за период с 1985 по 2005 г. в г. N. Требуется: 1. Установить зависимость влияния загрязнения атмосферного воздуха (X) на заболеваемость раком легкого (РЛ) (Y). 2. Найти параметры уравнения линейной регрессии. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (р=0,05). Дать интервальную оценку параметрам регрессии. Дать интерпретацию коэффициента регрессии. 3. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков 2 e S ; построить график остатков. 4. Проверить выполнение предпосылок МНК. 5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F-критерия Фишера (р=0,05), найти среднюю относительную ошибку аппроксимации и коэффициент эластичности. 6. Составить уравнения нелинейной регрессии:   гиперболическую; степенную;  показательную. Найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. 7. Сравнить модели по всем характеристикам и сделать вывод. 8. Осуществить прогнозирование значения показателя Y при уровне значимости р=0,05, если прогнозное значение фактора X составляет 80% от его максимального значения. Решение задачи 1. Установить зависимость влияния загрязнения атмосферного воздуха (X) на заболеваемость раком легкого (Y). При решении этого этапа следует учитывать длительность латентного периода возникновения рака, исходя из общих представлений о канцерогенезе. Иными словами, необходимо 65
Стр.67
определить промежуток времени (t) между величиной выбросов ЗВ в атмосферу (X) и показателями заболеваемости РЛ (Y). Для этого с помощью программы Excel (Сервис – Анализ данных – Корреляция) найдем тот сдвиг во времени, которому будет соответствовать статистически значимый коэффициент корреляции (рис. 2.1.и 2.2). Рисунок 2.1. 66
Стр.68
Рисунок 2.2. В данном примере коэффициент корреляции r=0,79. Значимость r проверим с помощью критического значения коэффициента корреляции Пирсона rкрит (приложение), при уровне значимости α=0,05: rкрит=0,55, при n-2, что меньше r=0,79, следовательно коэффициент корреляции статистически значим; и по t-критерия Стьюдента: найдем t рапсч t р апсч 1 (0,7 )9 1 23   2  ;  n  2 1 rx y 2 , tкрит=2,20, следовательно, и сравним с tкрит (приложение) при (n-2); α=0,05/2 (двусторонняя область). Отсюда 5, 41 говорит о значимости коэффициента корреляции. Таким образом, выявлена по шкале Чеддока прямая, высокая корреляционная связь между заболеваемостью РЛ и выбросами ЗВ в атмосферу в г. N с промежутком во времени 8 лет. 67 tрасч>tкрит, что
Стр.69
Далее составим таблицу для дальнейших расчетов, где i 1 2 3 4 5 6 7 8 9 10 11 12 13 Y i 48,0 53,0 55,0 48,0 45,0 48,0 51,0 46,0 44,0 40,0 40,0 40,0 39,1 X i 2060,300 2081,500 1894,800 1805,217 1670,194 1679,813 1515,861 1221,827 1416,746 1350,032 1283,300 1254,434 1191,775 2. Найти параметры уравнения линейной регрессии. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (р=0,05). Дать интервальную оценку параметрам регрессии. Дать интерпретацию коэффициента регрессии. Параметры уравнения линейной регрессии получили с помощью программы Excel (Сервис – Анализ данных – Регрессия), подставив данные для входного интервала Y и X и выбрав остатки (рис. 2.3). Y – i заболеваемость РЛ на 100000 населения, а iX – выбросы ЗВ в атмосферу (тыс. т) (табл. 2.1). Таблица 2.1 68
Стр.70
ПРИМЕР 3 У 25 женщин, преподавателей среднеобразовательной школы, проведено измерение систолического артериального давления (САД) (мм.рт.ст.). Получена корреляционная зависимость между стажем преподавательской работы (X) и уровнем артериального давления (Y). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y i 110 100 110 170 110 115 110 90 115 110 90 110 160 110 100 105 100 130 125 120 110 160 145 100 150 X i 2 4 7 35 4 9 5 7 24 9 8 9 22 30 3 11 8 8 8 13 9 30 32 9 41 Требуется: 1. Найти параметры уравнения линейной регрессии. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (р=0,05). Дать интервальную оценку параметрам регрессии. Дать интерпретацию коэффициента регрессии. 84
Стр.86
оценить дисперсию остатков 2 e 2. Вычислить остатки; найти остаточную сумму квадратов; S ; построить график остатков. 3. Проверить выполнение предпосылок МНК. 4. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F-критерия Фишера (р=0,05), найти среднюю относительную ошибку аппроксимации и коэффициент эластичности. Сделать вывод о качестве модели. 5. Составить уравнения нелинейной регрессии:   гиперболическую; степенную;  показательную. Найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. 6. Сравнить модели по всем характеристикам и сделать вывод. 7. Осуществить прогнозирование значения показателя Y при уровне значимости р=0,05, если прогнозное значение фактора X составляет 80% от его максимального значения. 85
Стр.87
Решение задачи 1. Найти параметры уравнения линейной регрессии. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (р=0,05). Дать интервальную оценку параметрам регрессии. Дать интерпретацию коэффициента регрессии. Параметры уравнения линейной регрессии получили с помощью программы Excel (Сервис – Анализ данных – Регрессия), подставив данные для входного интервала Y и X и выбрав остатки (рис.3.1). Рисунок 3.1. Уравнение регрессии имеет следующий вид: y ˆ 9 ,5797 1,486 x Параметры регрессии a=97,579 (t=20,864; р=1,919E-16), b=1,486 (t=5,650; р=9,443E-06) статистически значимы. Параметр b означает, что при увеличении стажа работы на 1 год уровень систолического АД увеличивается в среднем на 1,486 мм.рт.ст. 86
Стр.88
2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков 2 e Остаточная сумма квадратов SSост и дисперсия остатков 2 e S ; построить график остатков. Остатки получили методом регрессионного анализа (рис. 3.1). S =MS составили 4918,004 и 213,826 соответственно. График остатков строим, используя в Excel надстройку «Мастер диаграмм»: тип диаграммы – точечная, выбираем столбцы Наблюдение и Остатки из таблицы ВЫВОД ОСТАТКА (рис. 3.1), где по оси абсцисс – наблюдения; по оси ординат – остатки (рис. 3.2). График остатков 10,000 20,000 30,000 40,000 -40,000 -30,000 -20,000 -10,000 0,000 0 Рисунок 3.2. 3. Проверить выполнение предпосылок МНК. Выполнение предпосылок МНК согласно условиям ГауссаМаркова включают в себя проверку: 11) случайности остаточной компоненты Cov(Xi,ei)=0 (критерий поворотных точек); 12) равенства нулю математического ожидания средней величины остаточной компоненты М(ē)=0; 13) постоянства дисперсии случайного члена еi во всех наблюдениях (Var(ei)=Const) (критерий Голдфелда-Квандта, тест Спирмена); 14) независимости уровней ряда остатков Cov(еi , еj )=0, j≠i (критерий Дарбина-Уотсона); 15) соответствия ряда остатков закону распределения еi~N(0,σ2) (R/S-критерий). 87 5 10 15 20 25 Остатки
Стр.89
ПРИЛОЖЕНИЕ Таблица критических значений коэффициентов корреляции Пирсона Для уровня значимости α=0,05; α=0,01 Вероятность р= α где k – число степеней свободы α k = n - 2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 0,05 0,75 0,71 0,67 0,63 0,60 0,58 0,55 0,53 0,51 0,50 0,48 0,47 0,46 0,44 0,43 0,42 0,41 0,40 0,40 0,39 0,38 0,37 0,01 0,87 0,83 0,80 0,77 0,74 0,71 0,68 0,66 0,64 0,62 0,61 0,59 0,58 0,56 0,55 0,54 0,53 0,52 0,51 0,50 0,49 0,48 k = n - 2 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 700 900 1000 109 α 0,05 0,37 0,36 0,36 0,35 0,33 0,30 0,29 0,27 0,25 0,23 0,22 0,21 0,20 0,17 0,16 0,14 0,11 0,10 0,09 0,07 0,06 0,06 0,01 0,47 0,046 0,046 0,045 0,42 0,39 0,37 0,35 0,33 0,30 0,28 0,27 0,25 0,23 0,21 0,18 0,15 0,13 0,12 0,10 0,09 0,09
Стр.111
Методические рекомендации Мун Стелла Андреевна Глушков Андрей Николаевич Штернис Татьяна Александровна Ларин Сергей Анатольевич Максимов Сергей Алексеевич РЕГРЕССИОННЫЙ АНАЛИЗ В МЕДИКО-БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ Разработка макета – Мун С.А. Ответственный редактор – Мун С.А. Подписано в печать 27.09.12. Тираж 100 экз. Формат 2 3 1 201 Условных печатных листов 6,7
Стр.118

Облако ключевых слов *


* - вычисляется автоматически
.
.