УДК 519.25/.6:004.434R
ББК 22.17с5
Д40
Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р.
Д40 Введение в статистическое обучение с примерами на языке R. Изд. второе, испр.
Пер. с англ. С. Э. Мастицкого – М.: ДМК Пресс, 2017. – 456 с.: ил.
ISBN 978-5-97060-495-3
Книга представляет собой доступно изложенное введение в статистическое
обучение – незаменимый набор инструментов, позволяющих извлечь полезную
информацию из больших и сложных наборов данных, которые начали возникать
в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика
и др. В этой книге описаны одни из наиболее важных методов моделирования
и прогнозирования, а также примеры их практического применения. Рассмотренные
темы включают линейную регрессию, классификацию, создание повторных
выборок, регуляризацию, деревья решений, машины опорных векторов,
кластеризацию и др. Описание этих методов сопровождается многочисленными
иллюстрациями и практическими примерами. Поскольку цель этого учебника
заключается в продвижении методов статистического обучения среди практикующих
академических исследователей и промышленных аналитиков, каждая
глава включает примеры практической реализации соответствующих методов с
помощью R – чрезвычайно популярной среды статистических вычислений с открытым
кодом.
Издание рассчитано на неспециалистов, которые хотели бы применять современные
методы статистического обучения для анализа своих данных. Предполагается,
что читатели ранее прослушали лишь курс по линейной регрессии и не
обладают знаниями матричной алгебры.
УДК 519.25/.6:004.434R
ББК 22.17с5
by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Copyright © Springer Science+Business Media New York 2013
Springer New York is a part of Springer Science+Business Media.
All Rights Reserved.
Translation from the English language edition:
An Introduction to Statistical Learning
This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of
the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now
known or hereafter developed. Exempted from this legal reservation are brief excerpts in connection with
reviews or scholarly analysis or material supplied specifically for the purpose of being entered and executed
on a computer system, for exclusive use by the purchaser of the work.
Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то
Материал, изложенный в данной книге, многократно проверен. Но поскольку вероятность техни
было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских
прав.
нических ошибок все равно существует, издательство не может гарантировать абсолютную точность
и правильность приводимых сведений. В связи с этим издательство не несет ответственности за возможные
ошибки, связанные с использованием книги.
ISBN 978-1-4614-7137-0 (англ.) Copyright © Springer Science+Business Media New York, 2013
ISBN 978-5-97060-495-3 (рус.) © Издание, оформление, перевод, ДМК Пресс, 2017
Стр.5
6
Оглавление
3.4 Маркетинговый план . . . . . . . . . . . . . . . . . . . . . . . 116
3.5 Сравнение линейной регрессии с методом 𝐾 ближайших
соседей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.6 Лабораторная работа: линейная регрессия . . . . . . . . . . . 123
3.6.1 Библиотеки . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.6.2 Простая линейная регрессия . . . . . . . . . . . . . . . 124
3.6.3 Множественная линейная регрессия . . . . . . . . . . 127
3.6.4 Эффекты взаимодействия . . . . . . . . . . . . . . . . 129
3.6.5 Нелинейные преобразования предикторов . . . . . . . 130
3.6.6 Качественные предикторы . . . . . . . . . . . . . . . . 132
3.6.7 Написание функций . . . . . . . . . . . . . . . . . . . . 134
3.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4 Классификация
143
4.1 Общее представление о классификации . . . . . . . . . . . . 143
4.2 Почему не линейная регрессия? . . . . . . . . . . . . . . . . . 144
4.3 Логистическая регрессия . . . . . . . . . . . . . . . . . . . . . 146
4.3.1 Логистическая модель . . . . . . . . . . . . . . . . . . 147
4.3.2 Оценивание регрессионных коэффициентов . . . . . . 149
4.3.3 Предсказания . . . . . . . . . . . . . . . . . . . . . . . 150
4.3.4 Множественная логистическая модель . . . . . . . . . 151
4.3.5 Логистическая регрессия для зависимых переменных
с числом классов > 2 . . . . . . . . . . . . . . . . . . . 154
4.4 Дискриминантный анализ . . . . . . . . . . . . . . . . . . . . 154
4.4.1 Использование теоремы Байеса для классификации . 155
4.4.2 Линейный дискриминантый анализ для 𝑝 = 1 . . . . . 155
4.4.3 Линейный дискриминантный анализ для 𝑝 > 1 . . . . 158
4.4.4 Квадратичный дискриминантный анализ . . . . . . . 166
4.5 Сравнение методов классификации . . . . . . . . . . . . . . . 168
4.6 Лабораторная работа: логистическая регрессия, LDA, QDA
и KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.6.1 Данные по цене акций . . . . . . . . . . . . . . . . . . 172
4.6.2 Логистическая регрессия . . . . . . . . . . . . . . . . . 174
4.6.3 Линейный дискриминантный анализ . . . . . . . . . . 178
4.6.4 Квадратичный дискриминантный анализ . . . . . . . 180
4.6.5 Метод 𝐾 ближайших соседей . . . . . . . . . . . . . . 181
4.6.6 Применение к данным по жилым прицепам . . . . . . 182
4.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5 Методы создания повторных выборок
192
5.1 Перекрестная проверка . . . . . . . . . . . . . . . . . . . . . . 193
5.1.1 Метод проверочной выборки . . . . . . . . . . . . . . . 193
5.1.2 Перекрестная проверка по отдельным наблюдениям . 196
5.1.3 𝑘–кратная перекрестная проверка . . . . . . . . . . . 198
5.1.4 Компромисс между смещением и дисперсией
в контексте 𝑘–кратной перекрестной проверки . . . . 201
5.1.5 Перекрестная проверка при решении задач
классификации . . . . . . . . . . . . . . . . . . . . . . 202
5.2 Бутстреп . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.3 Лабораторная работа: перекрестная проверка и бутстреп . . 209
Стр.7
8
Оглавление
7.4.3 Представление сплайнов с помощью базисных
функций . . . . . . . . . . . . . . . . . . . . . . . . . . 296
7.4.4 Выбор числа и расположения узлов сочленения . . . 298
7.4.5 Сравнение с полиномиальной регрессией . . . . . . . 299
. . . . . . . . 302
7.5 Сглаживающие сплайны . . . . . . . . . . . . . . . . . . . . . 300
7.5.1 Общее представление о сглаживающих сплайнах . . . 300
7.5.2 Нахождение параметра сглаживания 𝜆
7.6 Локальная регрессия . . . . . . . . . . . . . . . . . . . . . . . 304
7.7 Обобщенные аддитивные модели . . . . . . . . . . . . . . . . 307
7.7.1 GAM для регрессионных задач . . . . . . . . . . . . . 307
7.7.2 GAM для задач классификации . . . . . . . . . . . . . 311
7.8 Лабораторная работа: нелинейные модели . . . . . . . . . . . 311
7.8.1 Полиномиальная регрессия и ступенчатые функции . 313
7.8.2 Сплайны . . . . . . . . . . . . . . . . . . . . . . . . . . 317
7.8.3 GAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
7.9 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
8 Методы, основанные на деревьях решений
328
8.1 Деревья решений: основные понятия . . . . . . . . . . . . . . 328
8.1.1 Регрессионные деревья . . . . . . . . . . . . . . . . . . 329
8.1.2 Деревья классификации . . . . . . . . . . . . . . . . . 337
8.1.3 Сравнение деревьев с линейными моделями . . . . . . 339
8.1.4 Преимущества и недостатки деревьев решений . . . . 341
8.2 Бэггинг, случайные леса, бустинг . . . . . . . . . . . . . . . . 342
8.2.1 Бэггинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
8.2.2 Случайные леса . . . . . . . . . . . . . . . . . . . . . . 347
8.2.3 Бустинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
8.3 Лабораторная работа: деревья решений . . . . . . . . . . . . 351
8.3.1 Построение деревьев классификации . . . . . . . . . . 351
8.3.2 Построение регрессионных деревьев . . . . . . . . . . 355
8.3.3 Бэггинг и случайные леса . . . . . . . . . . . . . . . . 356
8.3.4 Бустинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
8.4 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
9 Машины опорных векторов
364
9.1 Классификатор с максимальным зазором . . . . . . . . . . . 364
9.1.1 Что такое гиперплоскость? . . . . . . . . . . . . . . . . 365
9.1.2 Классификация с использованием гиперплоскости . . 365
9.1.3 Классификатор с максимальным зазором . . . . . . . 368
9.1.4 Построение классификатора с максимальным
зазором . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
9.1.5 Случай, когда разделяющая гиперплоскость
не существует . . . . . . . . . . . . . . . . . . . . . . . 370
9.2 Классификаторы на опорных векторах . . . . . . . . . . . . . 371
9.2.1 Общие представления о классификаторах
на опорных векторах . . . . . . . . . . . . . . . . . . . 371
9.2.2 Более подробное описание классификатора
на опорных векторах . . . . . . . . . . . . . . . . . . . 374
9.3 Машины опорных векторов . . . . . . . . . . . . . . . . . . . 377
Стр.9