Медиана для концентрированных данных
Следовательно, решающее значение имеет правильный выбор границ классов; их следует выбирать так, чтобы значения кодовых чисел соответствовали середине каждого класса. В данном примере для границ классов следует выбрать значения:
-
0.5
0.5
1.5
2.5
3.5
4.5
Ширина класса равна 1.
Следовательно:
n = 2548
m = 3 (так как медиана находится в третьем классе)
u = 1.5
fm = 921
Fm-1 = 109 + 389 = 498
b = 1
Если сравнить это значение со средним значением (2.24), то можно установить следующее правило – оказывается, что при распределении со сдвигом вправо (как в данном случае) медиана больше среднего значения.
Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.
В этом случае мы получим точное значение медианы (2.32).
По определению, медиана – это значение, выше и ниже (правее и левее) которого расположено по 50% всех значений, если они упорядочены по величине. Обобщая эту характеристику, мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10% всех значений (а выше расположено 90% значений). Чаше всего применяются процентили 25% и 75%, называемые также соответственно первым и третьим квартилями.
В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.
Формула вычисления процентиля для любого значения:
Здесь:
n | Класс, в котором находится процентиль |
---|---|
m | Нижняя граница класса т |
P | Процентное значение процентиля |
Нm | Процентная частота в классе m-1 |
Hm-1 | Процентная накопленная частота в классе m-1 |
b | Ширина класса |
Для процентиля 50% (Р = 50) после некоторых преобразований получается формула для медианы, приведенная выше.
В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных используется модифицированный способ расчета (см. раздел 22.1.1).