Обработка результатов эксперимента

Статистическая обработка результатов эксперимента

Обработка результатов эксперимента

В этом разделе приведены часто используемые термины, необходимые для понимания изложенного материала.

Числовые характеристики выборки – обобщенные показатели, позволяющие:

  • дать количественную оценку эмпирическим распределениям;
  • сравнивать выборки между собой.

Статистической гипотезой (гипотезой) называется утверждение относительно истинных значений параметров исследуемой генеральной совокупности.

Нулевая гипотеза (Но) – предположение о том, что между параметрами генеральных совокупностей  разница равна нулю и различия между ними носят не систематический, а случайный характер.

Альтернативная гипотеза (Н1) – гипотеза, противоположная нулевой.

Уровень значимости  —  вероятность отклонения  нулевой гипотезы, когда она верна или другими словами вероятность ошибки.

Критерий — метод проверки статистических гипотез.

Критерий хи-квадрат, критерий лямбда Колмогорова–Смирнова – критерии согласия, часто используемые для проверки гипотезы о нормальности распределения.

t – критерий Стьюдента – критерий, позволяющий оценить, насколько статистически существенно различаются средние арифметические двух выборок.

F – критерий Фишера – метод, позволяющий проверить гипотезу, что две независимые выборки получены из генеральных совокупностей X и Y  с одинаковыми дисперсиями sx2 и sY2 .

Критерий Манна-Уитни — непарамтерический критерий проверки статистических гипотез.  Применяется для независимых выборок.

О методах математической статистики и ее практическом применении можно прочесть в книге «Компьютерная обработка данных экспериментальных исследований»

Критерий Вилкоксона – непараметрический критерий проверки статистических гипотез. Применяется для связанных выборок.

Корреляционный анализ – метод статистической обработки результатов, сущность которого состоит в определении степени взаимосвязи между двумя случайными величинами X  и Y.

Лекция 2.  Числовые  характеристики выборки

В своей статье, опубликованной в 1989 году В.М. Зациорский указал, какие числовые характеристики должны быть представлены в публикации, чтобы она имела научную ценность.

Он писал, что исследователь  “…должен назвать: 1) среднюю величину (или другой так называемый показатель положения); 2) среднее квадратическое отклонение (или другой показатель рассеяния) и 3) число испытуемых.

Без них его публикация научной ценности иметь не будет “с. 52.

После проведения эксперимента исследователь получает определенные результаты. Чтобы его результаты можно было сравнить с данными других исследователей, необходимо рассчитать числовые характеристики выборки. Наибольшее практическое значение имеют  характеристики  положения, рассеивания и асимметрии (табл.1).

Таблица 1 — Название и обозначение числовых характеристик выборки

Характеристики
Положения Вариативности Формы распределения
Среднее арифметическое (М) Размах вариации (R) Коэффициент асимметрии (As)
Мода (Мо) Дисперсия (S2) Коэффициент эксцесса (Ex)
Медиана (Ме) Стандартное отклонение (S)

Характеристики  положения

Среднее арифметическое  (М) – одна из основных характеристик выборки.  Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.

где: n  – объем выборки, xi   – варианты выборки.

Среднее арифметическое, вычисленное  на основе выборочных данных, как правило, не совпадает с генеральным средним.  Чтобы оценить, насколько выборочное среднее арифметическое отличается от генерального среднего, вычисляется ошибка среднего арифметического или ошибка репрезентативности (m).

где: S — стандартное отклонение (см. далее).

В научных публикациях очень часто окончательный результат приводится в следующем виде:  М±m.  В качестве примера приведем фрагмент таблицы из публикации Г.Г.Лапшиной (табл. 2).

Таблица 2 — Антропометрический  и функциональный статусы студенток, n= 83 (по: Г.Г.Лапшиной, 1989)

Показатели М±m s
Длина тела, см 163,7±0,9 5,8
Масса тела, кг 60,8±1,2 7,5

Медианой (Me) – называется такое значение признака, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.

Мода (Мо) – представляет собой значение признака, встречающееся в выборке наиболее часто.

Характеристики вариативности

Средние значения не дают полной информации о варьирующем признаке, поэтому наряду со средними значениями вычисляют характеристики вариации.-

Размах вариации (R) вычисляется как разность между максимальным и минимальным значением признака: R= Xmax-Xmin.

Информативность этого показателя невелика, так как распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.

Дисперсия (S2) – средний квадрат отклонений значений признака от среднего арифметического  (4):

Наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО (5):

Во многих публикациях этот показатель обозначается s, однако мы рекомендуем применять обозначения, используемые в книге В.С. Иванова (1990): S – выборочное стандартное отклонение, сигма – стандартное отклонение генеральной совокупности. В качестве примера приведем фрагмент таблицы из статьи Л.Н. Жданова (1996).

Таблица 3 — Зависимость возраста достижения лучшего результата и количество необходимого для этого времени от возраста начала спортивной специализации у конькобежцев, дистанция 500 м, 225 спортсменов (по: Л.Н.Жданову, 1996).

Возраст начала спортивной специализации, лет Спортивная квалификация Мальчики, юноши
Возраст лучшего результата Количество лет с начала специализации
М S
10 МC 20,0 0,5 10,0
КМС 17,6 0,5 7,6
I,II 15,0 0,3 5,0

Коэффициент  вариации (V%). Чтобы сопоставить вариативность  признаков, измеренных в различных единицах, используется относительный показатель (6), которы йназывается коэффициентов вариации.

Коэффициент вариации используют для оценки однородности выборки. Если V < 10% – выборка однородна, то есть, получена из одной генеральной совокупности. Очень часто в публикациях приводят  четыре  показателя: объем выборки, среднее арифметическое, стандартное отклонение и коэффициент вариации (К.А.Ежевская, 1995).

Характеристики  асимметрии

Коэффициент асимметрии (As) характеризует “скошен­ность“ эмпирического распределения.

Коэффициент эксцесса (Ex) определяет характер эмпирического распределения: остро- или плосковершинный.

Лекция 3. Закон нормального распределения

Корректное  использование критериев проверки статистических  гипотез предполагает знание  закона распределения. Так, например, использование t – критерия  Стьюдента и  F-критерия Фишера требует нормального распределения экспериментальных данных. К сожалению, многие исследователи это не учитывают.

Большинство экспериментальных распределений, полученных при исследованиях в области физической культуры и спорта может быть описано с помощью нормального  распределения. График плотности вероятности  нормального распределения имеет следующий вид (рис. 1).

Рис. 1

На рис. 1 представлено распределение роста женщин с параметрами:  мю (генеральное среднее) – 170 см, s = 5 см.

Нормальное распределение обладает следующими свойствами:

1. Нормальная кривая имеет колокообразную форму, симметричную относительно  x =  мю.

2. Точки перегиба отстоят от мю  на  ± сигма .

3. Нормальное распределение полностью определяется двумя параметрами: мю и сигма.

4. Медиана и мода  совпадают и равны  мю.

5. В интервал  мю ± сигма     попадают  68 %  всех результатов.

    В интервал  мю ± 2 сигмы  попадают  95%   всех  результатов.

    В интервал  мю ± 3 сигмы  попадают  99 %  всех результатов.

Чтобы проверить, соответствует ли распределение нормальному закону, существует много методов. Можно использовать свойства нормального распределения  (равенство среднего, моды и медианы). Однако более точные результаты дают критерии согласия. В зависимости от объема выборки (n) следует использовать различные критерии:

если объем выборки небольшой (n = 10) – критерий Шапиро – Уилки;

если  объем выборки более 40 — критерий хи-квадрат и критерий Колмогорова-Смирнова;

Лекция 4. Проверка статистических гипотез

          Рассчитав числовые характеристики выборки, экспериментатор получает возможность сравнивать свои результаты с данными других исследователей или сравнить результаты, показанные контрольной и экспериментальной группой.

Иногда задача работы состоит в том, чтобы сравнить результат, показанный группой спортсменов до и после эксперимента.  В этом случае, чтобы дать ответ, существуют ли достоверные различия в результатах, нужно проверить статистические гипотезы, использовав для этого специальные методы —  критерии значимости.

Таким образом, критерий значимости — это метод проверки статистической гипотезы.

          При использовании критериев значимости выдвигается нулевая гипотеза(Ho) — предположение о том, что  в параметрах генеральных совокупностей из которых получены данные, представленные в выборках, разница равна нулю и различия между ними носят не систематический, а случайный характер. Противоположная гипотеза называется альтернативной (Н1).

Для проверки статистических гипотез применяются параметрические и непараметрические критерии. Параметрические критерии включают в формулу расчета параметры распределения, в нашем случае нормального.

поэтому первым условием использования параметрических критериев является нормальное распределение результатов исследования. Вторым условием применения параметрических критериев является статистическая шкала, в которой представлены данные.

Такими шкалами являются интервальная шкала и шкала отношений (данные, представлены в этих шкалах измеряются в кг, м, с и т.д).

  Непараметрические критерии (или ранговые критерии) построены по другому принципу и не требуют нормального распределения экспериментальных результатов. Кроме того, эти критерии можно применять к данным, представленным в порядковой шкале (баллы).

Параметрические критерии

К параметрическим критериям относят: критерий Стьюдента для независимых выборок и критерий Стьюдента для связанных выборок.

t–критерий Стьюдента для независимых выборок

Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами μx , μy , σx  σy .

Гипотеза: Ho: μx= μy  (предполагается равенство средних арифметических генеральных совокупностей).

 Альтернатива: H1: μx ≠ μy или H1  μx >μy  или H1: μx 0 или H1: md < 0.

Значение t – критерия Стьюдента   определяется по формуле (10):

где: `d – среднее арифметическое разностей, Sd`    стандартное отклонение.

Непараметрические критерии

Применение параметрических критериев (t – критерия Стьюдента) связано с целым рядом допущений.

Например, сравнивая выборочные средние значения с помощью t – критерия Стьюдента, принимались следующие предположения: обе выборки являются случайными, то есть каждая из них получена в результате независимых измерений, обе выборки получены из генеральных совокупностей, имеющих нормальное распределение, дисперсии генеральных совокупностей равны между собой. На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающих из-за нарушения принятых допущений. В последнее время в математической статистике интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.

Параметрические критерии применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженных в единицах метрических шкал (метры, килограммы, секунды и т.д.).

Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах порядка, например, произвольная нумерация игроков в команде, места, занятые спортсменами в соревнованиях и т.д.

Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены  и к данным этого типа.

Сравнение  двух независимых выборок (критерий Манна-Уитни для независимых выборок)

 Условие применения. Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей никак не оговаривается.

Гипотеза: Ho: Mex = Mey (предполагается равенство медиан двух генеральных совокупностей).

Альтернатива: H1: Mex ¹ Mey  или H1: Mex  > Mey или H1: Mex  < Mey (в зависимости от того, что требуется доказать: простое различие медиан или то, что результаты в экспериментальной группе больше чем в контрольной).

Сравнение двух связанных выборок (критерий Вилкоксона для связанных выборок)

Гипотеза: Ho: Med = 0

Альтернатива: H1: Med ¹ 0  или H1: Med  > 0  или H1: Med  0,05). Если вычисленное по выборке значение критерия превышает критические значения при   a=0,05; a=0,01 или a=0,001, то различия считаются статистически значимыми. Это  записывается следующим образом: p

Обработка результатов эксперимента, Метод наименьших квадратов, Регрессионный анализ, Проверка адекватности модели, Проверка значимости коэффициентов

Обработка результатов эксперимента

Тщательное, скрупулезное выполнение эксперимента, несомненно, является главным условием успеха исследо­вания. Это общее правило, и планирование эксперимента не относится к исключениям.

Однако нам не безразлично, как обработать полученные данные. Мы хотим навлечь из них всю информацию и сде­лать соответствующие выводы. Как всегда, мы находимся между Сциллой и Харибдой.

С одной стороны, не извлечь из эксперимента все, что из него следует,– значит прене­бречь нелегким трудом экспериментатора.

С другой стороны, сделать утверждения, не следующие из эксперимента, – значит создавать иллюзии, заниматься самообманом.

Статистические методы обработки результатов позво­ляют нам не перейти разумной меры риска.

Метод наименьших квадратов

Нач­нем с простого случая: один фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также называть уравнением регрессии) имеет вид

Это хорошо известное уравнение прямой линии. Наша цель – вычисление неизвестных коэффициентов bb1. Мы провели эксперимент, чтобы использовать при вычис­лениях его результаты. Как это сделать наилучшим обра­зом?

Если бы все экспериментальные точки лежали строго на прямой линии, то для каждой из них было бы справед­ливо равенство

,

где i= 1, 2, …, N– номер опыта. Тогда не было бы никакой проблемы. На практике это равенство нарушается и вместо него приходится писать

,

где  – разность между экспериментальным и вычис­ленным по уравнению регрессии значениями yв iэкспе­риментальной точке. Эту величину иногда невязкой.

Мы хотим найти такие коэффициенты регрессии, при которых невязки будут минимальны. Это требо­вание можно записать по-разному. В зависимости от этого мы будем получать разные оценки коэффициентов. Вот одна из возможных записей

,

которая приводит к методу наименьших квадратов.

Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком случае не меньше) опытов, чем число неизвестных коэффициентов. Поэтому система линейных уравнений

оказывается переопределенной и часто противоречивой (т. е. она может иметь бесконечно много решений или может не иметь решений). Переопределенность возникает, когда число уравнений больше числа неизвестных; противоре­чивость – когда некоторые из уравнений несовместимы друг с другом.

Только если все экспериментальные точки лежат па прямой, то система становится определенной и имеет единственное решение.

МНК обладает тем замечательным свойством, что он делает определенной любую, произвольную систему уравнений. Он делает число уравнений равным чис­лу неизвестных коэффициентов.

Для определения двух неизвестных коэф­фициентов требуется два уравнения. Давайте попробуем их получить.

Мини­мум некоторой функции, если он существует, достигается при одновременном равенстве нулю частных производных по всей неизвестным, т. е.

.

В явном виде это запишется как

,

.

Окончательные формулы для вычисления коэффи­циентов регрессии, которые удобно находить с помощью определителей, имеют вид

,

.

Величина  называется остаточной суммой квадратов ( – значение параметра оптимизации, вычисленное из уравнения регрессии). МНК гарантирует, что эта величина минимально возможная.

Обобщение на многофакторный случай не связано с какими-либо принципиальными трудностями.

Воспользуемся тем, что матрицы планирования ортогональны и нормированы, т.е.

       и         

Для любого числа факторов коэффициенты будут вычисляться по формуле

В этой формуле j = 0, 1, 2 …, k– номер фактора. Ноль записан для вычисления b0.

Так как каждый фактор (кроме x0)варьируется на двух уровнях +1 и –1, то вычисления сводятся к приписыванию столбцу yзнаков соответствующего фактору столбца и алгебраическому сложению полученных значений. Де­ление результата на число опытов в матрице планирова­ния дает искомый коэффициент.

Регрессионный анализ

До сих пор мы пользовались МНК как вычисли­тельным приемом. Нам нигде не приходилось вспоминать о статистике. Но, как только мы начинаем про­верять какие-либо гипотезы о пригодности модели или о значимости коэффициентов, приходится вспоминать о статистике. И с этого момента МНК превращается в рег­рессионный анализ.

А регрессионный анализ как всякий статистический метод, применим при определенных предположениях, постулатах.

Первый постулат. Параметр оптимизации y есть случайная величина с нормальным законом распределения. Дисперсия воспроизводимости – одна из харак­теристик этого закона распределения.

В данном случае, как и по отношению к любым другим постулатам, нас интересуют два вопроса: как проверить его выполнимость и к чему приводят его нарушения?

При наличии большого экспериментального материала (десятки параллельных опытов) гипотезу о нормальном рас­пределении можно проверить стандартными статистичес­кими тестами (например, – критерием). К сожалению, экспериментатор редко располагает такими данными, поэтому приходится принимать этот постулат на веру.

При нарушении нормальности мы лишаемся возмож­ности установления вероятностей, с которыми справедливы те или иные высказывания. В этом таится большая опас­ность. Мы рискуем загипнотизировать себя численными оценками и вероятностями, за которыми ничего не стоит. Вот почему надо очень внима­тельно относиться к возможным нарушениям предпосылок.

Второй постулат. Дисперсия y не зависит от абсо­лютной величины y. Выполнимость этого постулата проверяется с помощью критериев однородности дисперсий в разных точках фак­торного пространства. Нарушение этого постулата недо­пустимо.

Всегда существует та­кое преобразование y,которое делает дисперсии одно­родными. Увы, его не всегда легко найти. Довольно часто помогает логарифмическое преобразование, с которого обычно начинают поиски.

Третий постулат. Значения факторов суть неслу­чайные величины. Это несколько неожиданное утверждение практически означает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем сшибка воспроизводимости.

Нарушение этого постулата приводит к трудностям при реализации матрицы планирования. Поэтому оно обычно легко обнаруживается экспериментатором.

Существует еще четвертый постулат, налагающий ог­раничения на взаимосвязь между значениями факторов. У Нас он выполняется автоматически в силу ортогональ­ности матрицы планирования.

Проверка адекватности модели

Первый вопрос, который нас интересует после вычис­ления коэффициентов модели, это проверка ее пригод­ности. Мы будем называть такую проверку провер­кой адекватности модели.

Для характеристики среднего разброса относительно линии регрессии вполне подходит остаточная сумма квад­ратов.

Неудобство состоит в том, чтоона зависит от чис­ла коэффициентов в уравнении: введите столько коэф­фициентов, сколько вы провели независимых опытов, и получите остаточную сумму, равную нулю.

Поэтому предпочитают относить ее на один «свободный» опыт. Число таких опытов называется числом степеней свобо­ды f.

Числом степеней свободы в статистике называется разность между числом опытов и числом коэффициентов (констант), которые уже вычислены по результатам этих опытов независимо друг от друга.

Остаточная сумма квадратов, деленная на число сте­пеней свободы, называется остаточной диспер­сией, или дисперсией адекватности

.

В статистике разработан критерий, который очень удобен для проверки гипотезы об адекватности модели. Он называется F-критерием Фишера и определяется сле­дующей формулой:

.

 – это дисперсия воспроизводимости со своим числом степеней свободы.

Удобство использования критерия Фишера состоит в том, что проверку гипотезы можно свести к сравнению с табличным значением.

Если рассчитанное значение F-критерия не превы­шает табличного, то, с соответствующей доверительной вероятностью, модель можно считать адекватной. При превышении табличного значения эту приятную гипотезу приходится отвергать.

Этот способ расчета дисперсии адекватности, подходит, если опыты в матрице планирования не дублируются, а информация о дисперсии воспроизводимости извлекается из параллельных опытов в нулевой точке или из предварительных экспериментов.

Важны два случая: 1) опыты во всех точках плана дублируются одинаковое число раз (равномерное дублирование), 2) число параллельных опытов не одинаково (неравномерное дублирование).

В первом случае дисперсию адекватности нужно умножать на n, где n – число повторных опытов

 .

Такое видоизменение формулы вполне естественно. Чем больше число параллельных опытов, тем с большей достоверностью оцени­ваются средние значения. Поэтому требования к различиям между экспериментальными и расчетными значениями становятся более жесткими, что отражается в увеличении F-критерия.

Во втором случае, когда приходится иметь дело с неравномер­ным дублированием, положение усложняется. Даже когда экспе­риментатор задумал провести равное число параллельных опытов, часто не удается по тем или иным причинам все их реализовать. Кроме того, иногда приходится отбрасывать отдельные опыты как выпадающие наблюдения.

При неравномерном дублировании нарушается ортогональность матрицы планирования и, как следствие, изменяются расчетные фор­мулы для коэффициентов регрессии и их ошибок, а также для дис­персии адекватности.

Для дисперсии адекватности можно записать общую формулу

,

где N – число различных опытов (число строк матрицы);

ni – число параллельных опытов в i-й строке матрицы;

 – среднее арифметическое из ni параллельных опытов;

 – предсказанное по уравнению значение в этом опыте.

Смысл этой формулы очень прост: различию между эксперимен­тальным и расчетным значением придается тем больший вес, чем больше число повторных опытов.

Для b-коэффициентов нельзя записать универсальную рас­четную формулу. Все зависит от того, какой был план и как дубли­ровались опыты. Всякий раз приходится делать специальные рас­четы, пользуясь методом наименьших квадратов.

Проверка значимости коэффициентов

Проверка значимости каждого коэффициента прово­дится независимо.

Ее можно осуществлять двумя равноценными спосо­бами: проверкой по t-критерию Стьюдента или построе­нием доверительного интервала. При использовании пол­ного факторного эксперимента или регулярных дробных реплик доверительные интервалы для всех коэффициен­тов (в том числе и эффектов взаимодействия) равны друг другу.

Прежде всего, надо найти дисперсию коэф­фициента регрессии . Она определяется в нашем по формуле

Из формулы видно, что дисперсии всех коэффициентов равны друг другу, так как они зависят только от ошибки опыта и числа опытов.

Теперь легко построить доверительный интервал

Здесь t – табличное значение критерия Стьюдента при числе степеней свободы, с которыми определялась , и выбранном уровне значимости (обычно 0,05);  – квадратичная ошибка коэффициента регрессии.

Коэффициент значим, если его абсолютная величина больше доверительного интервала.

Поделиться:
Нет комментариев

Добавить комментарий

Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.

×
Рекомендуем посмотреть