В предыдущей статье мы узнали о таких показателях, как диапазон вариации, интерквартильный размах и среднее линейное отклонение. В этой статье мы рассмотрим дисперсию, стандартное отклонение и коэффициент вариации.
Дисперсия
Дисперсия случайной величины является фундаментальной мерой в статистике. Это мера разброса данных вокруг среднего арифметического.
Теперь небольшое отступление о теории вероятности, которая является сердцем математической статистики. Как и ожидание, дисперсия является важной характеристикой случайной величины. В то время как ожидание отражает центр случайной величины, дисперсия является характеристикой разброса данных вокруг центра.
Формула для дисперсии в теории вероятностей выглядит следующим образом:
То есть, дисперсия - это математическое ожидание отклонения от математического ожидания.
На практике, при анализе образцов, математическое ожидание обычно не известно. Поэтому вместо него используется оценка - среднее арифметическое. Расчет дисперсии производится по формуле
где
s2 - дисперсия выборки, рассчитанная на основе данных наблюдения
X - индивидуальные значения,
X̅ - среднее арифметическое по выборке.
Следует отметить, что такой расчет дисперсии имеет тот недостаток, что он оказывается смещенным, т.е. его математическое ожидание не равно истинному значению дисперсии. Подробнее об этом можно прочитать здесь. Однако с увеличением объема выборки он все равно приближается к своему теоретическому аналогу, то есть является асимптотически несмещенным.
Проще говоря, дисперсия - это средний квадрат выбросов. То есть сначала рассчитывается среднее значение, затем берется разница между каждым выбросом и средним значением, возводится в квадрат, суммируется, а затем делится на количество значений в популяции. Разница между индивидуальным значением и средним значением отражает меру выброса. Он возводится в квадрат, чтобы все отклонения стали только положительными числами, и чтобы положительные и отрицательные отклонения не отменяли друг друга при сложении. Затем, после выравнивания выбросов, мы просто вычисляем среднее арифметическое. Среднее значение равно квадрату выбросов. Выпадающие значения возводятся в квадрат и рассчитывается среднее значение. Теперь вы знаете, как найти дисперсию.
Расчет дисперсии в Excel
Общую дисперсию и дисперсию выборки легко рассчитать в Excel. Существуют специальные функции: DISP.D и DISP.B, соответственно.
Дисперсия не используется в чистом виде. Это вспомогательный показатель, который необходим в других расчетах. Например, при проверке статистических гипотез или расчете коэффициентов корреляции. Следовательно, полезно знать математические свойства дисперсии.
Свойства дисперсии
Свойство 1. Дисперсия постоянного значения A равна 0 (нулю).
D(A) = 0
Свойство 2. Если случайная величина умножается на константу A, то дисперсия этой случайной величины увеличивается в A2 раз. Другими словами, вы можете убрать постоянный множитель из дисперсии, возведя его в квадрат.
D(AX) = A2 D(X)
Свойство 3. Если к случайной величине добавить (или вычесть) константу A, то дисперсия останется неизменной.
D(A + X) = D(X)
Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.
D(X+Y) = D(X) + D(Y)
Свойство 5. Если X и Y независимы, то дисперсия их разности также равна сумме их дисперсий.
D(X-Y) = D(X) + D(Y)
Среднеквадратичное (стандартное) отклонение
Возьмите квадратный корень из дисперсии, и вы получите стандартное отклонение (стандартное отклонение для краткости). Также используются стандартное отклонение и сигма (от греческой буквы). Общая формула стандартного отклонения в математике выглядит следующим образом:
На практике формула для стандартного отклонения выглядит следующим образом:
Как и в случае с дисперсией, существует несколько иной способ ее расчета. Но по мере увеличения размера выборки разница исчезает.
Расчет cреднеквадратичного (стандартного) отклонения в Excel
Чтобы рассчитать стандартное отклонение, достаточно извлечь квадратный корень из дисперсии. Но в Excel есть и готовые функции: STANDOTCLONE.D и STANDOTCLONE.B (для генеральной совокупности и выборки, соответственно).
Стандартное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому оно сопоставимо с исходными данными.
Коэффициент вариации
Значение стандартного отклонения зависит от масштаба самих данных, что делает невозможным сравнение изменчивости по выборкам. Чтобы устранить эффект масштаба, рассчитайте коэффициент вариации по формуле:
Его можно использовать для сравнения однородности явлений даже при различных масштабах данных. В статистике принято считать, что если значение коэффициента вариации меньше 33%, то популяция считается однородной; если больше 33%, то неоднородной. На самом деле, если коэффициент вариации превышает 33%, с этим ничего не нужно делать. Это информация для общего представления. В целом, коэффициент вариации используется для оценки относительной дисперсии данных в выборке.
Расчет коэффициента вариации в Excel
Коэффициент вариации в Excel также рассчитывается путем деления стандартного отклонения на среднее арифметическое:
= СТАНДАРТНОЕ ОТКЛОНЕНИЕ.В()/ЗНАЧЕНИЕ ВЫБОРКИ()
Коэффициенты вариации обычно выражаются в процентах, поэтому ячейке формулы можно присвоить процентный формат:
Коэффициент осцилляции
Другой мерой распространения данных сегодня является коэффициент осцилляции. Это отношение диапазона изменчивости (разница между максимальным и минимальным значениями) к среднему значению. Здесь нет легкодоступной формулы Excel, поэтому вам придется комбинировать три функции: MAX, MIN, CP-ЗНАЧЕНИЕ.
Коэффициент осцилляции показывает диапазон колебаний относительно среднего значения, что также может быть использовано для сравнения различных наборов данных.
Таким образом, в статистическом анализе существует система соотношений, которые отражают дисперсию или однородность данных.
Вот видео о том, как рассчитать коэффициент вариации, дисперсию, стандартное отклонение и другие показатели вариации в Excel.