Обработка результатов эксперимента
Статистическая обработка результатов эксперимента
В этом разделе приведены часто используемые термины, необходимые для понимания изложенного материала.
Числовые характеристики выборки – обобщенные показатели, позволяющие:
- дать количественную оценку эмпирическим распределениям;
- сравнивать выборки между собой.
Статистической гипотезой (гипотезой) называется утверждение относительно истинных значений параметров исследуемой генеральной совокупности.
Нулевая гипотеза (Но) – предположение о том, что между параметрами генеральных совокупностей разница равна нулю и различия между ними носят не систематический, а случайный характер.
Альтернативная гипотеза (Н1) – гипотеза, противоположная нулевой.
Уровень значимости — вероятность отклонения нулевой гипотезы, когда она верна или другими словами вероятность ошибки.
Критерий — метод проверки статистических гипотез.
Критерий хи-квадрат, критерий лямбда Колмогорова–Смирнова – критерии согласия, часто используемые для проверки гипотезы о нормальности распределения.
t – критерий Стьюдента – критерий, позволяющий оценить, насколько статистически существенно различаются средние арифметические двух выборок.
F – критерий Фишера – метод, позволяющий проверить гипотезу, что две независимые выборки получены из генеральных совокупностей X и Y с одинаковыми дисперсиями sx2 и sY2 .
Критерий Манна-Уитни — непарамтерический критерий проверки статистических гипотез. Применяется для независимых выборок.
О методах математической статистики и ее практическом применении можно прочесть в книге «Компьютерная обработка данных экспериментальных исследований»
Критерий Вилкоксона – непараметрический критерий проверки статистических гипотез. Применяется для связанных выборок.
Корреляционный анализ – метод статистической обработки результатов, сущность которого состоит в определении степени взаимосвязи между двумя случайными величинами X и Y.
Лекция 2. Числовые характеристики выборки
В своей статье, опубликованной в 1989 году В.М. Зациорский указал, какие числовые характеристики должны быть представлены в публикации, чтобы она имела научную ценность.
Он писал, что исследователь “…должен назвать: 1) среднюю величину (или другой так называемый показатель положения); 2) среднее квадратическое отклонение (или другой показатель рассеяния) и 3) число испытуемых.
Без них его публикация научной ценности иметь не будет “с. 52.
После проведения эксперимента исследователь получает определенные результаты. Чтобы его результаты можно было сравнить с данными других исследователей, необходимо рассчитать числовые характеристики выборки. Наибольшее практическое значение имеют характеристики положения, рассеивания и асимметрии (табл.1).
Таблица 1 — Название и обозначение числовых характеристик выборки
Характеристики | ||
Положения | Вариативности | Формы распределения |
Среднее арифметическое (М) | Размах вариации (R) | Коэффициент асимметрии (As) |
Мода (Мо) | Дисперсия (S2) | Коэффициент эксцесса (Ex) |
Медиана (Ме) | Стандартное отклонение (S) | — |
Характеристики положения
Среднее арифметическое (М) – одна из основных характеристик выборки. Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.
где: n – объем выборки, xi – варианты выборки.
Среднее арифметическое, вычисленное на основе выборочных данных, как правило, не совпадает с генеральным средним. Чтобы оценить, насколько выборочное среднее арифметическое отличается от генерального среднего, вычисляется ошибка среднего арифметического или ошибка репрезентативности (m).
где: S — стандартное отклонение (см. далее).
В научных публикациях очень часто окончательный результат приводится в следующем виде: М±m. В качестве примера приведем фрагмент таблицы из публикации Г.Г.Лапшиной (табл. 2).
Таблица 2 — Антропометрический и функциональный статусы студенток, n= 83 (по: Г.Г.Лапшиной, 1989)
Показатели | М±m | s |
Длина тела, см | 163,7±0,9 | 5,8 |
Масса тела, кг | 60,8±1,2 | 7,5 |
Медианой (Me) – называется такое значение признака, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Мода (Мо) – представляет собой значение признака, встречающееся в выборке наиболее часто.
Характеристики вариативности
Средние значения не дают полной информации о варьирующем признаке, поэтому наряду со средними значениями вычисляют характеристики вариации.-
Размах вариации (R) вычисляется как разность между максимальным и минимальным значением признака: R= Xmax-Xmin.
Информативность этого показателя невелика, так как распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.
Дисперсия (S2) – средний квадрат отклонений значений признака от среднего арифметического (4):
Наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО (5):
Во многих публикациях этот показатель обозначается s, однако мы рекомендуем применять обозначения, используемые в книге В.С. Иванова (1990): S – выборочное стандартное отклонение, сигма – стандартное отклонение генеральной совокупности. В качестве примера приведем фрагмент таблицы из статьи Л.Н. Жданова (1996).Таблица 3 — Зависимость возраста достижения лучшего результата и количество необходимого для этого времени от возраста начала спортивной специализации у конькобежцев, дистанция 500 м, 225 спортсменов (по: Л.Н.Жданову, 1996).
Возраст начала спортивной специализации, лет | Спортивная квалификация | Мальчики, юноши | ||
Возраст лучшего результата | Количество лет с начала специализации | |||
М | S | |||
10 | МC | 20,0 | 0,5 | 10,0 |
КМС | 17,6 | 0,5 | 7,6 | |
I,II | 15,0 | 0,3 | 5,0 |
Коэффициент вариации (V%). Чтобы сопоставить вариативность признаков, измеренных в различных единицах, используется относительный показатель (6), которы йназывается коэффициентов вариации.
Коэффициент вариации используют для оценки однородности выборки. Если V < 10% – выборка однородна, то есть, получена из одной генеральной совокупности. Очень часто в публикациях приводят четыре показателя: объем выборки, среднее арифметическое, стандартное отклонение и коэффициент вариации (К.А.Ежевская, 1995).
Характеристики асимметрии
Коэффициент асимметрии (As) характеризует “скошенность“ эмпирического распределения.
Коэффициент эксцесса (Ex) определяет характер эмпирического распределения: остро- или плосковершинный.
Лекция 3. Закон нормального распределения
Корректное использование критериев проверки статистических гипотез предполагает знание закона распределения. Так, например, использование t – критерия Стьюдента и F-критерия Фишера требует нормального распределения экспериментальных данных. К сожалению, многие исследователи это не учитывают.
Большинство экспериментальных распределений, полученных при исследованиях в области физической культуры и спорта может быть описано с помощью нормального распределения. График плотности вероятности нормального распределения имеет следующий вид (рис. 1).
Рис. 1
На рис. 1 представлено распределение роста женщин с параметрами: мю (генеральное среднее) – 170 см, s = 5 см.
Нормальное распределение обладает следующими свойствами:
1. Нормальная кривая имеет колокообразную форму, симметричную относительно x = мю.
2. Точки перегиба отстоят от мю на ± сигма .
3. Нормальное распределение полностью определяется двумя параметрами: мю и сигма.
4. Медиана и мода совпадают и равны мю.
5. В интервал мю ± сигма попадают 68 % всех результатов.
В интервал мю ± 2 сигмы попадают 95% всех результатов.
В интервал мю ± 3 сигмы попадают 99 % всех результатов.
Чтобы проверить, соответствует ли распределение нормальному закону, существует много методов. Можно использовать свойства нормального распределения (равенство среднего, моды и медианы). Однако более точные результаты дают критерии согласия. В зависимости от объема выборки (n) следует использовать различные критерии:
если объем выборки небольшой (n = 10) – критерий Шапиро – Уилки;
если объем выборки более 40 — критерий хи-квадрат и критерий Колмогорова-Смирнова;
Лекция 4. Проверка статистических гипотез
Рассчитав числовые характеристики выборки, экспериментатор получает возможность сравнивать свои результаты с данными других исследователей или сравнить результаты, показанные контрольной и экспериментальной группой.
Иногда задача работы состоит в том, чтобы сравнить результат, показанный группой спортсменов до и после эксперимента. В этом случае, чтобы дать ответ, существуют ли достоверные различия в результатах, нужно проверить статистические гипотезы, использовав для этого специальные методы — критерии значимости.
Таким образом, критерий значимости — это метод проверки статистической гипотезы.
При использовании критериев значимости выдвигается нулевая гипотеза(Ho) — предположение о том, что в параметрах генеральных совокупностей из которых получены данные, представленные в выборках, разница равна нулю и различия между ними носят не систематический, а случайный характер. Противоположная гипотеза называется альтернативной (Н1).
поэтому первым условием использования параметрических критериев является нормальное распределение результатов исследования. Вторым условием применения параметрических критериев является статистическая шкала, в которой представлены данные.
Такими шкалами являются интервальная шкала и шкала отношений (данные, представлены в этих шкалах измеряются в кг, м, с и т.д).
Непараметрические критерии (или ранговые критерии) построены по другому принципу и не требуют нормального распределения экспериментальных результатов. Кроме того, эти критерии можно применять к данным, представленным в порядковой шкале (баллы).
Параметрические критерии
К параметрическим критериям относят: критерий Стьюдента для независимых выборок и критерий Стьюдента для связанных выборок.
t–критерий Стьюдента для независимых выборок
Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами μx , μy , σx σy .
Гипотеза: Ho: μx= μy (предполагается равенство средних арифметических генеральных совокупностей).
Альтернатива: H1: μx ≠ μy или H1 μx >μy или H1: μx 0 или H1: md < 0.
Значение t – критерия Стьюдента определяется по формуле (10):
где: `d – среднее арифметическое разностей, Sd` стандартное отклонение.
Непараметрические критерии
Применение параметрических критериев (t – критерия Стьюдента) связано с целым рядом допущений.
Например, сравнивая выборочные средние значения с помощью t – критерия Стьюдента, принимались следующие предположения: обе выборки являются случайными, то есть каждая из них получена в результате независимых измерений, обе выборки получены из генеральных совокупностей, имеющих нормальное распределение, дисперсии генеральных совокупностей равны между собой. На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающих из-за нарушения принятых допущений. В последнее время в математической статистике интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.
Параметрические критерии применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженных в единицах метрических шкал (метры, килограммы, секунды и т.д.).
Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах порядка, например, произвольная нумерация игроков в команде, места, занятые спортсменами в соревнованиях и т.д.
Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.
Сравнение двух независимых выборок (критерий Манна-Уитни для независимых выборок)
Условие применения. Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей никак не оговаривается.Гипотеза: Ho: Mex = Mey (предполагается равенство медиан двух генеральных совокупностей).
Альтернатива: H1: Mex ¹ Mey или H1: Mex > Mey или H1: Mex < Mey (в зависимости от того, что требуется доказать: простое различие медиан или то, что результаты в экспериментальной группе больше чем в контрольной).
Сравнение двух связанных выборок (критерий Вилкоксона для связанных выборок)
Гипотеза: Ho: Med = 0
Альтернатива: H1: Med ¹ 0 или H1: Med > 0 или H1: Med 0,05). Если вычисленное по выборке значение критерия превышает критические значения при a=0,05; a=0,01 или a=0,001, то различия считаются статистически значимыми. Это записывается следующим образом: p
Обработка результатов эксперимента, Метод наименьших квадратов, Регрессионный анализ, Проверка адекватности модели, Проверка значимости коэффициентов
Тщательное, скрупулезное выполнение эксперимента, несомненно, является главным условием успеха исследования. Это общее правило, и планирование эксперимента не относится к исключениям.
Однако нам не безразлично, как обработать полученные данные. Мы хотим навлечь из них всю информацию и сделать соответствующие выводы. Как всегда, мы находимся между Сциллой и Харибдой.
С одной стороны, не извлечь из эксперимента все, что из него следует,– значит пренебречь нелегким трудом экспериментатора.
С другой стороны, сделать утверждения, не следующие из эксперимента, – значит создавать иллюзии, заниматься самообманом.
Статистические методы обработки результатов позволяют нам не перейти разумной меры риска.
Метод наименьших квадратов
Начнем с простого случая: один фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также называть уравнением регрессии) имеет вид
Это хорошо известное уравнение прямой линии. Наша цель – вычисление неизвестных коэффициентов b0и b1. Мы провели эксперимент, чтобы использовать при вычислениях его результаты. Как это сделать наилучшим образом?
Если бы все экспериментальные точки лежали строго на прямой линии, то для каждой из них было бы справедливо равенство
,
где i= 1, 2, …, N– номер опыта. Тогда не было бы никакой проблемы. На практике это равенство нарушается и вместо него приходится писать
,
где – разность между экспериментальным и вычисленным по уравнению регрессии значениями yв i-й экспериментальной точке. Эту величину иногда невязкой.
Мы хотим найти такие коэффициенты регрессии, при которых невязки будут минимальны. Это требование можно записать по-разному. В зависимости от этого мы будем получать разные оценки коэффициентов. Вот одна из возможных записей
,
которая приводит к методу наименьших квадратов.
Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком случае не меньше) опытов, чем число неизвестных коэффициентов. Поэтому система линейных уравнений
оказывается переопределенной и часто противоречивой (т. е. она может иметь бесконечно много решений или может не иметь решений). Переопределенность возникает, когда число уравнений больше числа неизвестных; противоречивость – когда некоторые из уравнений несовместимы друг с другом.
Только если все экспериментальные точки лежат па прямой, то система становится определенной и имеет единственное решение.
МНК обладает тем замечательным свойством, что он делает определенной любую, произвольную систему уравнений. Он делает число уравнений равным числу неизвестных коэффициентов.Для определения двух неизвестных коэффициентов требуется два уравнения. Давайте попробуем их получить.
Минимум некоторой функции, если он существует, достигается при одновременном равенстве нулю частных производных по всей неизвестным, т. е.
.
В явном виде это запишется как
,
.
Окончательные формулы для вычисления коэффициентов регрессии, которые удобно находить с помощью определителей, имеют вид
,
.
Величина называется остаточной суммой квадратов ( – значение параметра оптимизации, вычисленное из уравнения регрессии). МНК гарантирует, что эта величина минимально возможная.
Обобщение на многофакторный случай не связано с какими-либо принципиальными трудностями.
Воспользуемся тем, что матрицы планирования ортогональны и нормированы, т.е.
и
Для любого числа факторов коэффициенты будут вычисляться по формуле
В этой формуле j = 0, 1, 2 …, k– номер фактора. Ноль записан для вычисления b0.
Так как каждый фактор (кроме x0)варьируется на двух уровнях +1 и –1, то вычисления сводятся к приписыванию столбцу yзнаков соответствующего фактору столбца и алгебраическому сложению полученных значений. Деление результата на число опытов в матрице планирования дает искомый коэффициент.
Регрессионный анализ
До сих пор мы пользовались МНК как вычислительным приемом. Нам нигде не приходилось вспоминать о статистике. Но, как только мы начинаем проверять какие-либо гипотезы о пригодности модели или о значимости коэффициентов, приходится вспоминать о статистике. И с этого момента МНК превращается в регрессионный анализ.
А регрессионный анализ как всякий статистический метод, применим при определенных предположениях, постулатах.
Первый постулат. Параметр оптимизации y есть случайная величина с нормальным законом распределения. Дисперсия воспроизводимости – одна из характеристик этого закона распределения.
В данном случае, как и по отношению к любым другим постулатам, нас интересуют два вопроса: как проверить его выполнимость и к чему приводят его нарушения?
При наличии большого экспериментального материала (десятки параллельных опытов) гипотезу о нормальном распределении можно проверить стандартными статистическими тестами (например, – критерием). К сожалению, экспериментатор редко располагает такими данными, поэтому приходится принимать этот постулат на веру.При нарушении нормальности мы лишаемся возможности установления вероятностей, с которыми справедливы те или иные высказывания. В этом таится большая опасность. Мы рискуем загипнотизировать себя численными оценками и вероятностями, за которыми ничего не стоит. Вот почему надо очень внимательно относиться к возможным нарушениям предпосылок.
Второй постулат. Дисперсия y не зависит от абсолютной величины y. Выполнимость этого постулата проверяется с помощью критериев однородности дисперсий в разных точках факторного пространства. Нарушение этого постулата недопустимо.
Всегда существует такое преобразование y,которое делает дисперсии однородными. Увы, его не всегда легко найти. Довольно часто помогает логарифмическое преобразование, с которого обычно начинают поиски.
Третий постулат. Значения факторов суть неслучайные величины. Это несколько неожиданное утверждение практически означает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем сшибка воспроизводимости.
Нарушение этого постулата приводит к трудностям при реализации матрицы планирования. Поэтому оно обычно легко обнаруживается экспериментатором.
Существует еще четвертый постулат, налагающий ограничения на взаимосвязь между значениями факторов. У Нас он выполняется автоматически в силу ортогональности матрицы планирования.
Проверка адекватности модели
Первый вопрос, который нас интересует после вычисления коэффициентов модели, это проверка ее пригодности. Мы будем называть такую проверку проверкой адекватности модели.
Для характеристики среднего разброса относительно линии регрессии вполне подходит остаточная сумма квадратов.
Неудобство состоит в том, чтоона зависит от числа коэффициентов в уравнении: введите столько коэффициентов, сколько вы провели независимых опытов, и получите остаточную сумму, равную нулю.
Поэтому предпочитают относить ее на один «свободный» опыт. Число таких опытов называется числом степеней свободы f.
Числом степеней свободы в статистике называется разность между числом опытов и числом коэффициентов (констант), которые уже вычислены по результатам этих опытов независимо друг от друга.
Остаточная сумма квадратов, деленная на число степеней свободы, называется остаточной дисперсией, или дисперсией адекватности
.
В статистике разработан критерий, который очень удобен для проверки гипотезы об адекватности модели. Он называется F-критерием Фишера и определяется следующей формулой:
.
– это дисперсия воспроизводимости со своим числом степеней свободы.
Удобство использования критерия Фишера состоит в том, что проверку гипотезы можно свести к сравнению с табличным значением.Если рассчитанное значение F-критерия не превышает табличного, то, с соответствующей доверительной вероятностью, модель можно считать адекватной. При превышении табличного значения эту приятную гипотезу приходится отвергать.
Этот способ расчета дисперсии адекватности, подходит, если опыты в матрице планирования не дублируются, а информация о дисперсии воспроизводимости извлекается из параллельных опытов в нулевой точке или из предварительных экспериментов.
Важны два случая: 1) опыты во всех точках плана дублируются одинаковое число раз (равномерное дублирование), 2) число параллельных опытов не одинаково (неравномерное дублирование).
В первом случае дисперсию адекватности нужно умножать на n, где n – число повторных опытов
.
Такое видоизменение формулы вполне естественно. Чем больше число параллельных опытов, тем с большей достоверностью оцениваются средние значения. Поэтому требования к различиям между экспериментальными и расчетными значениями становятся более жесткими, что отражается в увеличении F-критерия.
Во втором случае, когда приходится иметь дело с неравномерным дублированием, положение усложняется. Даже когда экспериментатор задумал провести равное число параллельных опытов, часто не удается по тем или иным причинам все их реализовать. Кроме того, иногда приходится отбрасывать отдельные опыты как выпадающие наблюдения.
При неравномерном дублировании нарушается ортогональность матрицы планирования и, как следствие, изменяются расчетные формулы для коэффициентов регрессии и их ошибок, а также для дисперсии адекватности.
Для дисперсии адекватности можно записать общую формулу
,
где N – число различных опытов (число строк матрицы);
ni – число параллельных опытов в i-й строке матрицы;
– среднее арифметическое из ni параллельных опытов;
– предсказанное по уравнению значение в этом опыте.
Смысл этой формулы очень прост: различию между экспериментальным и расчетным значением придается тем больший вес, чем больше число повторных опытов.Для b-коэффициентов нельзя записать универсальную расчетную формулу. Все зависит от того, какой был план и как дублировались опыты. Всякий раз приходится делать специальные расчеты, пользуясь методом наименьших квадратов.
Проверка значимости коэффициентов
Проверка значимости каждого коэффициента проводится независимо.
Ее можно осуществлять двумя равноценными способами: проверкой по t-критерию Стьюдента или построением доверительного интервала. При использовании полного факторного эксперимента или регулярных дробных реплик доверительные интервалы для всех коэффициентов (в том числе и эффектов взаимодействия) равны друг другу.
Прежде всего, надо найти дисперсию коэффициента регрессии . Она определяется в нашем по формуле
Из формулы видно, что дисперсии всех коэффициентов равны друг другу, так как они зависят только от ошибки опыта и числа опытов.
Теперь легко построить доверительный интервал
Здесь t – табличное значение критерия Стьюдента при числе степеней свободы, с которыми определялась , и выбранном уровне значимости (обычно 0,05); – квадратичная ошибка коэффициента регрессии.
Коэффициент значим, если его абсолютная величина больше доверительного интервала.