МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ
БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ»
Ю.С. Радченко, В.Н. Верещагин
МЕТОДЫ
ОБРАБОТКИ И ПЛАНИРОВАНИЯ
ЭКСПЕРИМЕНТА
Часть 3
Непараметрические методы обработки данных
Учебно-методическое пособие для вузов
Воронеж
Издательский дом ВГУ
2018
Стр.1
ОГЛАВЛЕНИЕ
Введение
1. Общая характеристика задач непараметрической статистики
Роль априорной информации в статистических задачах
Задачи непараметрической статистики
Примеры задач непараметрической статистики
2. Порядковые статистики, ранги и их статистические свойства
Порядковые статистики
Ранги выборки
Статистические свойства рангов
Информативность рангов и способ ранжировки
3. Ранговая корреляция
Коэффициент ранговой корреляции Спирмена
Сравнение корреляции Пирсона и Спирмена
4. Непараметрические статистические критерии
Задача о сдвиге распределения
Ранговый критерий (Одновыборочный критерий Вилкоксона)
Знаковый критерий
5. Двухвыборочная задача о сдвиге распределения
5.1. Двухвыборочный критерий Вилкоксона
5.2. Критерий ранговой корреляции
6. Многомерные задачи непараметрической статистики
Проверка гипотезы о случайности и независимости элементов выборки
Многовыборочная задача о сдвиге распределения
Влияние связок
Многовыборочная задача о сдвиге распределения для альтернативы с
упорядочиванием
7. Методы множественного сравнения выборок
Отбор выборок, отличающихся друг от друга
Сравнение с контрольной выборкой
Литература
Введение
Данное учебно-методическое пособие является продолжением пособий
«Методы обработки и планирования эксперимента. Часть 1. Оценка
распределений и их параметров» и «Методы обработки и планирования
эксперимента. Часть 2. ПРОВЕРКА ГИПОТЕЗ, АППРОКСИМАЦИЯ РАСПРЕДЕЛЕНИЙ».
В данном учебном пособии рассматриваются задачи проверки
непараметрических гипотез о свойствах выборки, а также подробно
изложены ранговые алгоритмы обработки данных. Некоторые тесты не
входят в классический курс математической статистики. Поэтому изло3
Стр.3
H0 : xp F p
H1
: a)
b)
c)
1() ,
F 1() pp x
F 1() pp x
F 1() pp x
,
,
.
3. Задача о масштабе.
Генеральная совокупность имеет закон распределения вида:
F( , ) ( ) . Здесь - параметр, характеризующий скорость роста
:=1,
x F x
функции распределения, или масштаба распределения.
Основная гипотеза:H0
альтернативы H1
: a) 1,
b) 1,
c) 1.
4
Задача о независимости элементов выборки.
Пусть 12
неизвестной функцией распределения.
Основная гипотеза H0
:
альтернатива
H1
:
F nii
x x x F x
F nii
x x x F x
1
( ,12. . . ) .
()i
1
n
( )
Общий подход при решении непараметрических задач заключается в
преобразовании выборки с целью свести задачу к задаче, в которой фигурируют
известные распределения, т.е. непараметрическую гипотезу свести к
параметрической и простой для основной гипотезы.
Суть преобразований – выявление непараметрических, не зависящих от
распределения фактов, позволяющих решать поставленную задачу. При
этом используются:
1. Закон больших чисел при
2. Внутреннее свойство выборки 12
n 1 .
x , . . nx x .
( ,12. . . ) ,
()i
( )
x , . . nx x - выборка из генеральной совокупности, с некоторой
n
6
Стр.6
Преобразование выборки с целью выявления непараметрических
фактов.
№ Тип преобразований
1 Перестановка элементов
выборки
2 Поэлементное приведение
выборки в интервал [0,1] с
помощью обращения F(x)
3 Упорядочивание элементов
выборки по величине
Используемые непараметрические свойства
Равновероятность
перестановок при
симметричности закона распределения
x x x )
W( 12, . . . )n
Равномерность приведений выборки в
[0,1], в случае, когда
F x F x 0( )
( )
Получаем порядковые статистики, которые
сходятся по вероятности к квантилю
R
распределения
4 Отображение выборки на
пространство ранговых
векторов
n , где n – объем вы1
борки,
R – порядок статистики (ранг), т.е.
положение ее в упорядоченном ряду
Равновероятность ранговых векторов
при симметричности закона распределения
12( , . . . )n
W x x x )
2. Порядковые статистики, ранги и их статистические свойства
Порядковые статистики
Пусть имеется выборка 1,. . , nXX из некоторой генеральной совокупности.
Конкретные значения, полученные в опыте 1,. . , nxx - выборочные значения
или реализация выборки. Упорядочим выборочные значения в порядке возрастания:
дом. ( XX1 ,. . , n ) – последовательность случайных величин. X i
вая статистика, X 1 и nX - экстремальные статистики. X n - 1
xx1 , . . , n , где i i 1
x
зует размах выборки.
Если исходная выборка
(1)
ряде XX,.. n элементы являются зависимыми. Кроме того, распреде
F
x , W x - законы распределения элементов исходной выборки, то плотность
вероятности j – й порядковой статистики (),1jX
n!
ления значений вариационного ряда имеют различный вид. Если
j n имеет вид
W ( x )
j
j
1 ! n j ! F( x )
1
j 1
7
1 F( x ) W( x )
n j
( )
x
X ,.. X является независимой, то в вариационном
1
n
.Такой ряд называется вариационным ря-
порядкоX
характери
Стр.7
На рис.1 приведены графики распределений порядковых статистик их нормально
распределенной выборки
W( x ) exp x / /
0.748
fi x 1(
fi x 2(
fi x 3(
fi x 4(
fi x 5(
f x( )
)
)
)
)
)
0.8
0.6
0.4
0.2
7.358 10 14
0
2 22 при n=5.
3
3
2
1
0
x
Рис. 1
Очевидно, что порядковые статистики имеют негауссовские распределения,
а также различные математические ожидания и дисперсии
( 2)
X m
( )
jj nj
1 !
F u W u du
( )
,
n!
m
j n j!
u F u( ) 1 ( )
2
1
jj nj
j
F u W u du
( )
DjjjX
X ( ) 2
j n j!
2
n!
1 !
u F u( ) 1 ( )
1
где
1
2
3
3
2.2. Ранги выборки. Пусть имеется выборка
XT
0
1
2
3
4
5
Упорядоченная выборка имеет вид
PXT
0
1
2
3
4
6
7
8
9
0 1.561 1.321 1.527 1.049 0.314 2.044 1.879 2.556 4.192 2.809
5
6
7
8
9
0 0.314 1.049 1.321 1.527 1.561 1.879 2.044 2.556 2.809 4.192
Номер элемента iX в упорядоченной выборке PXT и есть ранг iR данного
элемента в исходной выборке. Ранги - целые числа.
8
Стр.8
RXT
0 1 2 3 4 5 6 7 8 9
0 5 3 4 2 1 7 6 8 10 9
Ранг является функцией выборки и представляет собой случайную
величину дискретного типа с возможными значениями 1,2,.., n. Совокупность
рангов выборки называется ранговым вектором. Ранговый вектор -
случайный целочисленный вектор. Реализациями (возможными значениями)
этого вектора являются всевозможные перестановки чисел 1,2,..,n. Число
возможных перестановок n!
Необходимость исследования рангов определяется следующими обстоятельствами.
1.
Ранговый вектор содержит часть информации, содержащейся в исходной
выборке, т.к. с помощью упорядочения исходной выборке {Xi}
ставится в однозначное соответствие пара векторов - вектор порядковых
статистик {X(R)} и ранговый вектор {Ri}. Располагая значениями {X(R)} и
{Ri} можно восстановить исходную выборку.
2. Используя информацию, содержащуюся в рангах, можно строить
статистические процедуры, которые являются достаточно простыми ввиду
целочисленности рангов.
3. Ранговые процедуры обладают свойствами непараметричности
(не требуют знания закона распределения), при определенных условиях являются
весьма эффективными .
4. Ранговые процедуры особенно важны, когда наблюдения носят не
количественный, а качественный (нечисловой) характер и результаты наблюдений
можно упорядочить.
Рангом i
превышающих i
функцию
Тогда C X X k ) , i=1,…,n, определяет случайный ранговый
вектор { iR }. { iR } и i
Ri
C t
n
(
k1
i
X полностью в совокупности содержат всю информацию,
которая находится в исходной выборке.
2.3.Статистические свойства рангов при инвариантности к перестановкам
Рассмотрим
свойства ранговых векторов, когда распределение выборки
инвариантно по отношению к перестановкам аргументов (элементы
выборки независимы и одинаково распределены).
9
R элемента выборки i
X , X X
t
k
t
0, 0
1, 0
.
X называется число значений выборки, не
i .Чтобы посчитать ранг i-го элемента введем
Стр.9
Пусть упорядочивание производится непосредственно по алгебраическим
значениям измеряемых величин. Т.к. {X(R)} и {Ri} находятся во взаимно
однозначном соответствии с исходной выборкой {Xi}, то
f x x x f x , .
x 1 2, ,. . n
r
( )R i
Здесь x(R) и ri - соответственно значения элементов векторов порядковых
статистик и рангового вектора. Ввиду инвариантности плотности вероятности
к перестановке аргументов:
f x r f x x x(n) .
Безусловное распределение рангового вектора является равномерным:
1
, (1) (2),. .
PRi N .
( )R i
,
!
Безусловное распределение порядковой статистики определяется соотношением:
f
Rn,. .
Поэтому можно переписать
!
( )R i
f x r N f x x
, N! (1) (2),. . ,x(n)
1
,
( )
x N f x x
! (1) ( ) .
f x P Ri
(R)
.
Откуда следует формулировка следующей теоремы.
Теорема Гаека. При инвариантности выборки по отношению к перестановкам
упорядоченная статистика и ранговый вектор статистически независимы.
Следствие
1. Для независимых выборочных значений с одинаковыми
, iR тоже независимы и их распределения имеют вид:
n! , f x
X()iR
P s i gn X
,
i 1
n
2
P R
1
(R )
2 f x (R )
n
n!
n
R1
.
Следствие 2. При статистической независимости двух случайных
выборок X и Y их упорядоченные статистики и ранговые векторы, независимые
для каждой из выборок, независимы между собой.
Информативность рангов и способ ранжировки
Важным для обеспечения информативности рангов, а также эффективности
статистических процедур на их основе, является выбор способа
ранжировки. Он зависит от задачи.
10
и симметричными относительно нуля распределениями случайный вектор
{sign(Xi)} и
Стр.10