Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634558)
Контекстум
.

Популярное введение в современный анализ данных в системе STATISTICA: методология и технология современного анализа данных (500,00 руб.)

1   0
Первый авторБоровиков В. П.
ИздательствоМ.: Горячая линия – Телеком
Страниц291
ID214214
АннотацияКнига открывает широкому кругу читателей современный анализ данных в программе STATISTICA. STATISTICA (производитель StatSoft, USA) занимает лидирующее положение среди программ анализа данных и имеет сотни тысяч зарегистрированных пользователей в России и мире. На простых, ясных примерах популярно описаны современные методы анализа данных – визуальный анализ и графическое представление данных, описательные статистики, методы классификации и прогнозирования. Классические методы дополнены самым современным инструментарием, включая нейронные сети и DataMining. Читатель знакомится с методами и компьютерными технологиями анализа данных и учится применять их на практике, основной лейтмотив книги – теория неотделима от практики.
Кем рекомендованоУМО по образованию в области прикладной математики в качестве учебного пособия для студентов вузов, обучающихся по направлению подготовки 230400 "Прикладная математика"
Кому рекомендованоДля широкого круга читателей, желающих познакомиться с современными методами и компьютерными технологиями анализа данных и их применением в различных областях: экономика, маркетинг, финансы, страхование, промышленность, телекоммуникации, медицина и др. Книга будет особенно полезна студентам и преподавателям вузов при проведении учебных и практических занятий.
ISBN978-5-9912-0326-5
УДК004.9:519.25
ББК32.973
Боровиков, В.П. Популярное введение в современный анализ данных в системе STATISTICA: методология и технология современного анализа данных : учеб. пособие / В.П. Боровиков .— Москва : Горячая линия – Телеком, 2013 .— 291 с. : ил. — ISBN 978-5-9912-0326-5 .— URL: https://rucont.ru/efd/214214 (дата обращения: 18.04.2024)

Предпросмотр (выдержки из произведения)

Б83 Популярное введение в современный анализ данных в системе STATISTICA. <...> Книга открывает широкому кругу читателей современный анализ данных в программе STATISTICA. <...> На простых, ясных примерах популярно описаны современные методы анализа данных – визуальный анализ и графическое представление данных, описательные статистики, методы классификации и прогнозирования. <...> ББК 32.973 Адрес издательства в Интернет WWW.TECHBOOK.RU Учебное издание Боровиков Владимир Павлович Популярное введение в современный анализ данных в системе STATISTICA Учебное пособие для вузов Подготовка оригинал-макета Н. В. Дмитриевой Обложка художника В. Г. Ситникова Подписано в печать 15.03.13. <...> Затем использовать разнообразные аналитические процедуры разведочного анализа (группировку, кластерный и дисперсионный анализ, регрессионные модели и др.) позволяющие найти закономерности и сформулировать разумные гипотезы о структуре данных. <...> В самой науке статистика нет ничего сложного; следует напомнить, что первоначально большинство задач статистики возникло из игр: бросание костей, монет, карточных игр, рулетки. <...> 6 Популярное введение в современный анализ данных в системе STATISTICA Известная задача о том, стоит ли ставить на выпадение двух шестерок одновременно при бросании пары костей, возникла во Франции в конце XVII века из наблюдений за игрой. <...> В системе STATISTICA есть замечательное средство – вероятностный калькулятор, пользоваться которым так же просто, как обычным калькулятором. <...> Мы научим вас также генерировать случайные последовательности в STATISTICA, например, последовательности, возникающие при бросании монет. <...> Разбираемые примеры сгруппированы в разделах: • описательный анализ; • визуальный анализ; • разведочный анализ данных; • оценивание зависимостей в данных; • классификация – отнесение объекта к определенной группе – дискриминантный анализ, обобщенный дискриминантный анализ, деревья классификации; • кластерный анализ. <...> Специальные темы <...>
Популярное_введение_в_современный_анализ_данных_в_системе_STATISTICA_методология_и_технология_современного_анализа_данных.pdf
Стр.1
Популярное_введение_в_современный_анализ_данных_в_системе_STATISTICA_методология_и_технология_современного_анализа_данных_(1).pdf
М осква Горячая линия - Телеком 2013
Стр.1
УДК 004.9:519.25 ББК 32.973 Б83 Боровиков В.П. Б83 Популярное введение в современный анализ данных в системе STATISTICA. Учебное пособие для вузов. – М.: Горячая линия – Телеком, 2013. – 288 с., ил. ISBN 978-5-9912-0326-5. Книга открывает широкому кругу читателей современный анализ данных в программе STATISTICA. STATISTICA (производитель StatSoft, USA) занимает лидирующее положение среди программ анализа данных и имеет сотни тысяч зарегистрированных пользователей в России и мире. На простых, ясных примерах популярно описаны современные методы анализа данных – визуальный анализ и графическое представление данных, описательные статистики, методы классификации и прогнозирования. Классические методы дополнены самым современным инструментарием, включая нейронные сети и DataMining. Читатель знакомится с методами и компьютерными технологиями анализа данных и учится применять их на практике, основной лейтмотив книги – теория неотделима от практики. Для широкого круга читателей, желающих познакомиться с современными методами и компьютерными технологиями анализа данных и их применением в различных областях: экономика, маркетинг, финансы, страхование, промышленность, телекоммуникации, медицина и др. Книга будет особенно полезна студентам и преподавателям вузов при проведении учебных и практических занятий. ББК 32.973 Адрес издательства в Интернет WWW.TECHBOOK.RU Учебное издание Боровиков Владимир Павлович Популярное введение в современный анализ данных в системе STATISTICA Учебное пособие для вузов Подготовка оригинал-макета Н. В. Дмитриевой Обложка художника В. Г. Ситникова Подписано в печать 15.03.13. Формат 70×100/16. Усл. изд. л. 24. Изд. № 8015 ISBN 978-5-9912-0326-5 © В. П. Боровиков, 2013 © Издательство «Горячая линия – Телеком», 2013
Стр.2
Оглавление ВВЕДЕНИЕ. ПРИГЛАШЕНИЕ В СОВРЕМЕННЫЙ АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ ..................................................................................................................5 ГЛАВА 1. ПЕРВЫЕ ШАГИ В STATISTICA..........................................................................11 1.1. Запуск программы......................................................................................................11 1.2. Рабочее окно STATISTICA: классическое меню или Лента ....................................12 1.3. Панели инструментов ................................................................................................14 1.4. Аналитические модули STATISTICA ........................................................................16 1.5. Создание файла данных. Пример 1: результаты олимпийских чемпионов .........18 1.6. Пример 2. Импорт газа и топлива в США................................................................25 1.7. Вычисление дескриптивных статистик исходных данных....................................32 1.7.1. Некоторые сведения из элементарной статистики.........................................32 1.7.2. Вычисление описательных статистик в STATISTICA...................................35 1.8. Корреляции: определения и вычисления .................................................................38 1.9. Простейшая визуализация: диаграммы рассеяния и гистограммы........................39 1.9.1. Диаграмма рассеяния........................................................................................39 1.9.2. Гистограмма ......................................................................................................42 ГЛАВА 2. ВЕРОЯТНОСТНЫЙ КАЛЬКУЛЯТОР И ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ.................................................................................................................44 2.1. Вероятностный калькулятор .....................................................................................44 2.1.1. Нормальное распределение..............................................................................46 2.1.2. Распределение хи-квадрат................................................................................52 2.1.3. t-распределение Стьюдента..............................................................................54 2.1.4. Распределение Фишера.....................................................................................58 2.1.5. Логаримфически-нормальное распределение ................................................60 2.2. Биномиальное распределение и игровые задачи.....................................................62 2.2.1. Задача о коровах................................................................................................65 2.2.2. Задача шевалье де Мере ...................................................................................67 2.2.3. Измененная задача шевалье де Мере ..............................................................68 2.2.4. Еще одна задача игрока ....................................................................................70 2.2.5. Задачи для самостоятельного решения...........................................................72 2.2.6. Генуэзская лотерея............................................................................................72 2.3. Генерация случайных чисел в STATISTICA .............................................................74 ГЛАВА 3. ВИЗУАЛЬНЫЙ АНАЛИЗ ДАННЫХ .................................................................76 3.1. Двумерный визуальный анализ данных...................................................................76 3.1.1. Гистограммы......................................................................................................76 3.1.2. Диаграммы рассеяния.......................................................................................83 3.2. Трехмерный визуальный анализ данных .................................................................91 ГЛАВА 4. КЛАССИФИКАЦИЯ ДАННЫХ В STATISTICA ................................................94 4.1. Обзор метода...............................................................................................................94 4.2. Постановка задачи......................................................................................................94 4.3. Пример Фишера: классификация цветов ирисов.....................................................96 4.4. Обобщенный дискриминантный анализ.................................................................108 ГЛАВА 5. КЛАСТЕРИЗАЦИЯ: МОДУЛЬ КЛАСТЕРНЫЙ АНАЛИЗ ............................115 5.1. Обзор метода.............................................................................................................118 5.2. Постановка задачи, обзор методов .........................................................................120
Стр.3
4 Популярное введение в современный анализ данных в системе STATISTICA 5.3. Модуль Кластерный анализ – технология, пошаговый разбор примера.............121 ГЛАВА 6. РЕГРЕССИОННЫЙ АНАЛИЗ В STATISTICA – МОДУЛЬ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ.....................................................................................129 6.1. Описание модели......................................................................................................130 6.2. Метод решения.........................................................................................................131 6.3. Технология регрессионного анализа в STATISTICA..............................................136 6.4. Пошаговые примеры................................................................................................143 6.5. Примеры использования средства кисть для анализа данных ............................150 6.6. Задачи для самостоятельного решения ..................................................................154 ГЛАВА 7. АНАЛИЗ ВЫЖИВАЕМОСТИ В STATISTICA .................................................158 7.1. Таблицы жизни.........................................................................................................160 7.2. Оценки Каплана – Мейера.......................................................................................165 7.3. Сравнение выживаемости в группах ......................................................................168 7.4. Регрессионные модели в анализе выживаемости..................................................169 ГЛАВА 8. АВТОМАТИЗИРОВАННЫЕ НЕЙРОННЫЕ СЕТИ STATISTICA (SANN).....172 8.1. Основные парадигмы нейронных сетей.................................................................173 8.2. Математические модели ..........................................................................................174 8.3. Обучение и кросс-проверка.....................................................................................175 8.4. Модель Розентблатта ...............................................................................................176 8.5. Пошаговый пример: прогнозирование временных рядов с помощью нейронных сетей..............................................................................................................177 ГЛАВА 9. DATA MINING – ДОБЫЧА ДАННЫХ............................................................187 9.1. Этапы работы в Data Mining....................................................................................187 9.2. Меню STATISTICA Data Miner.................................................................................189 9.3. Средства анализа STATISTICA Data Miner .............................................................192 9.4. Пример проекта в STATISTICA Data Miner.............................................................192 ГЛАВА 10. ПОПУЛЯРНОЕ ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ.....................198 10.1. Формула полной вероятности ...............................................................................201 10.2. Формула Байеса......................................................................................................201 10.3. Классическое вероятностное рассуждение ..........................................................204 10.4. Вероятностные модели в биологии.......................................................................207 10.5. Вероятностные модели в телекоме.......................................................................208 10.6. Выборочный контроль качества............................................................................211 10.7. Занимательные вероятностные задачи .................................................................213 10.8. Вероятностный подход к задачам классификации..............................................218 ПРИЛОЖЕНИЕ 1. ЯЗЫК STATISTICA VISUAL BASIC....................................................222 ПРИЛОЖЕНИЕ 2. ПОДКЛЮЧЕНИЕ К БАЗЕ ДАННЫХ.................................................224 ПРИЛОЖЕНИЕ 3. ОПЕРАЦИИ СТЕКИНГ И АНСТЕКИНГ...........................................233 ПРИЛОЖЕНИЕ 4. ГАЛЕРЕЯ ГРАФИКОВ STATISTICA...................................................238 БИБЛИОГРАФИЧЕСКИЙ СПИСОК..................................................................................285 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ.............................................................................................286
Стр.4
Введение. Приглашение в современный анализ данных на компьютере Эта книга посвящена анализу данных – мощному методу исследования окружающего мира, в котором мы существуем и в котором необходимо принимать осознанные решения. Если вы инженер, актуарий, маркетолог, аналитик, врач, то эта книга для вас. В современном информационно организованном мире невозможно обойтись без всестороннего исследования данных и, следовательно, без системы, позволяющей провести этот анализ. STATISTICA является лидером среди программ статистической обработки данных в среде Windows. На простых примерах, взятых из различных областей человеческой деятельности: экономика, бизнес, маркетинг, промышленность, телекоммуникации, медицина и др., мы показываем, как анализируются данные в системе STATISTICA, объединяющей в едином интерфейсе классические и современные методы анализа данных. Лейтмотивом книги является соединение методологии и компьютерной технологии анализа данных. Материал в книге расположен таким образом, что вы можете повторить все описанные действия вслед за нами на собственном компьютере. Упражнения и задачи для самостоятельной работы позволят углубить понимание предмета. Наш опыт показывает, что без самостоятельной работы с данными вы не сможете овладеть анализом данных, так же как не сможете научиться плавать, не входя в воду. Собственно наша цель состоит в том, чтобы научить вас использовать программу STATISTICA в своих целях. Исследование данных имеет свою последовательность: вначале данные нужно загрузить в систему из внешних баз данных. Далее необходимо провести чистку данных, удалить выбросы, заполнить пропуски, визуализировать данные, представить в удобном для исследования виде. Затем использовать разнообразные аналитические процедуры разведочного анализа (группировку, кластерный и дисперсионный анализ, регрессионные модели и др.) позволяющие найти закономерности и сформулировать разумные гипотезы о структуре данных. Именно эта последовательность действий реализована в системе STATISTICA в виде диалоговых окон с предопределенными настройками анализа. STATISTICA позволяет провести эти действия в удобной графической среде, гибко настраиваемой по желанию пользователя. Мы включили в книгу большое количество самых разнообразных примеров, чтобы пользователь повторил вслед за нами действия на компьютере. Именно в повторении действий и выполнении упражнений заключается лейтмотив книги. Если у вас осталось смутное представление о науке статистике после института, не отчаивайтесь: примеры и упражнения подобраны таким образом, что доступны даже школьникам старших классов. Делайте вслед за нами, и вы научитесь решать задачи с помощью STATISTICA самостоятельно! В самой науке статистика нет ничего сложного; следует напомнить, что первоначально большинство задач статистики возникло из игр: бросание костей, монет, карточных игр, рулетки. Близки к ним лотереи и разнообразные задачи на угадывание. Подобные задачи формулируются совершенно просто, «без всяких заумностей». Они доступны любому человеку со здравым мышлением. Математика (гр. mathÛma – знание, понимание) призвана объяснять закономерности, наблюдаемые на опыте, а не затемнять сознание сложными формулами и манипуляциями над числами.
Стр.5
6 Популярное введение в современный анализ данных в системе STATISTICA Известная задача о том, стоит ли ставить на выпадение двух шестерок одновременно при бросании пары костей, возникла во Франции в конце XVII века из наблюдений за игрой. В STATISTICA эта задача может быть решена несколькими щелчками мыши. И мы покажем, как это сделать. В системе STATISTICA есть замечательное средство – вероятностный калькулятор, пользоваться которым так же просто, как обычным калькулятором. Многие элементарные вероятностные задачи могут быть решены с помощью этого средства. Мы научим вас пользоваться вероятностным калькулятором, а также строить разнообразные статистические графики: гистограммы, диаграммы рассеяния, графики типа «ящики с усами», вычислять простейшие статистики: среднее, стандартное отклонение, корреляции, процентные точки и т. д. Мы научим вас также генерировать случайные последовательности в STATISTICA, например, последовательности, возникающие при бросании монет. Мы научим вас решать простейшие игровые задачи, доводя их до численного результата с помощью STATISTICA. Слышали ли вы когда-нибудь о Генуэзской лотерее или о задачах, предложенных Сэмуэлем Пепайсом Ньютону? Если нет, мы расскажем вам об этих задачах и покажем, как они решаются с помощью STATISTICA. В этой книге популярно рассказывается о современном анализе данных, науке статистике и о системе STATISTICA, позволяющей проводить анализ данных на компьютере. Разбираемые примеры сгруппированы в разделах: • описательный анализ; • визуальный анализ; • разведочный анализ данных; • оценивание зависимостей в данных; • классификация – отнесение объекта к определенной группе – дискриминантный анализ, обобщенный дискриминантный анализ, деревья классификации; • кластерный анализ. Специальные темы, относящиеся к доказательной медицине, в частности, анализ выживаемости, собраны в отдельной главе. Анализ выживаемости представляет собой раздел современного анализа данных, объединяющий различные статистические процедуры для построения таблиц жизни, оценки функции выживания и др., наиболее интенсивно используемые в медицинских приложениях, биологии, а также при проведении актуарных расчетов. Кратко опишем основные разделы. В описательном анализе вычисляются самые общие дескриптивные статистики (среднее, стандартное отклонение, медиана и др.), позволяющие компактно описать данные. Эти статистики вычисляются как для всех данных, так и для группированных данных, например, для мужчин и женщин. Очень важным этапом исследования является визуализация данных. Вначале данные нужно увидеть, потом сформулировать разумные гипотезы относительно их природы, уникальные графики STATISTICA позволяют это сделать. Смысл нашего подхода к анализу данных состоит в том, чтобы получать всестороннее визуальное представление данных на всех этапах статистического исследования и на основе этого представления выбирать следующий шаг анализа. Визуализируя данные, вы выдвигаете гипотезы, которые невозможно было бы выдвинуть, имея только численное представление.
Стр.6
Введение. Приглашение в анализ данных 7 В STATISTICA имеются сотни типов графиков, предназначенных для визуализации, разведывательного анализа, графического представления результатов и выбора последующих направлений анализа. Такие уникальные графики, как лица Черного, диаграммы Вороного, матричные графики, позволяющие, например, визуализировать корреляционную матрицу, категоризированные, трассировочные и др. графики, а также большой выбор двухмерных и трехмерных научных и деловых графиков и диаграмм становятся доступными для пользователя. Кроме стандартных типов графиков в STATISTICA имеется большое количество специализированных статистических графиков: «ящиков с усами» с разнообразными опциями по выбору средней точки, граничных значений, подгонки распределений, определения выбросов, разнообразных гистограмм, графиков на нормальной вероятностной бумаге, графиков типа «вероятность-вероятность», «квантиль-квантиль» и т. д. Примеры нескольких графиков приведены на рис. В.1–В.3. Рис. В.1. Лица Чернова – результаты допинг-контроля спортсменов Рис. В.2. Визуализация корреляций Рис. В.3. Диаграмма рассеяния с образами – предпочтения в видах спорта Графики можно уменьшать, увеличивать, накладывать друг на друга, вращать, корректировать перспективу, применять средство «Рентген» в трехмерной графике, чтобы увидеть «очертания дальних гор на фоне ближних», определять собственную палитру цветов, добавлять пользовательский текст, рисунки, стрелки и т. д. В последних версиях системы STATISTICA многие настройки можно осуществлять непосредственно в окне графика, не открывая дополнительных окон. Например, враще
Стр.7