Скошенность (Skewness): мера асимметрии распределения данных

Что такое скошенность?

В статистике скошенность (Skewness) — это ключевая характеристика, описывающая степень асимметрии распределения вероятностей случайной величины относительно её среднего значения. Проще говоря, она показывает, насколько и в какую сторону «перекошена» форма графика распределения данных. Для наглядного знакомства с концепцией вы также можете обратиться к обучающим видео.

Как измерить скошенность?

Для количественной оценки степени асимметрии используется специальная формула, основанная на моментах распределения. Один из распространённых способов её вычисления представлен ниже.

В этой формуле:
G – коэффициент скошенности,
μ – среднее арифметическое выборки,
Мo – мода (наиболее часто встречающееся значение),
s – стандартное отклонение, характеризующее разброс данных.

Практический пример: анализ данных проката велосипедов

Рассмотрим наглядный пример. Предположим, компания по прокату велосипедов в течение 10 дней фиксировала количество клиентов. Наша задача — проанализировать распределение этой величины и вычислить его скошенность.

Шаг 1: Расчёт необходимых статистик

Для применения формулы нам потребуется определить три ключевых параметра: среднее значение, моду и стандартное отклонение.

  • Среднее значение (μ) вычисляется стандартно: сумма всех наблюдений делится на их количество.
  • Мода (Мo) — это значение, которое встречается в выборке наиболее часто. В нашем примере таким значением является число 3. Важно помнить, что в данных может быть несколько мод или не быть ни одной.
  • Стандартное отклонение (s) — показатель разброса данных вокруг среднего. Его расчёт состоит из нескольких этапов:
    1. Находим среднее значение ряда (в нашем случае 3,7).
    2. Для каждого значения ряда вычисляем разницу со средним, возводим её в квадрат (это устраняет влияние отрицательных знаков) и находим среднее арифметическое этих квадратов.
    3. Извлекаем квадратный корень из полученного среднего. В примере это даёт значение примерно 2,24.

Шаг 2: Вычисление коэффициента скошенности

Теперь, когда все компоненты формулы известны, можно вычислить итоговый коэффициент. Подставив найденные значения (среднее ~3.7, мода = 3, стандартное отклонение ~2.24) в формулу, мы получаем положительное число.

Интерпретация результата: Положительное значение коэффициента G указывает на то, что распределение является положительно скошенным или смещённым влево. На практике это означает, что «хвост» распределения вытянут в сторону меньших значений, а основная масса данных сконцентрирована справа.

Автоматизация расчётов

В реальной аналитике вычисления редко производятся вручную. Для автоматического расчёта скошенности в среде Python можно воспользоваться методом skew() из библиотеки SciPy, что значительно ускоряет и упрощает анализ больших наборов данных.

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Скошенность (Skewness).