Что такое скошенность?
В статистике скошенность (Skewness) — это ключевая характеристика, описывающая степень асимметрии распределения вероятностей случайной величины относительно её среднего значения. Проще говоря, она показывает, насколько и в какую сторону «перекошена» форма графика распределения данных. Для наглядного знакомства с концепцией вы также можете обратиться к обучающим видео.
Как измерить скошенность?
Для количественной оценки степени асимметрии используется специальная формула, основанная на моментах распределения. Один из распространённых способов её вычисления представлен ниже.
В этой формуле:
G – коэффициент скошенности,
μ – среднее арифметическое выборки,
Мo – мода (наиболее часто встречающееся значение),
s – стандартное отклонение, характеризующее разброс данных.
Практический пример: анализ данных проката велосипедов
Рассмотрим наглядный пример. Предположим, компания по прокату велосипедов в течение 10 дней фиксировала количество клиентов. Наша задача — проанализировать распределение этой величины и вычислить его скошенность.
Шаг 1: Расчёт необходимых статистик
Для применения формулы нам потребуется определить три ключевых параметра: среднее значение, моду и стандартное отклонение.
- Среднее значение (μ) вычисляется стандартно: сумма всех наблюдений делится на их количество.
- Мода (Мo) — это значение, которое встречается в выборке наиболее часто. В нашем примере таким значением является число 3. Важно помнить, что в данных может быть несколько мод или не быть ни одной.
- Стандартное отклонение (s) — показатель разброса данных вокруг среднего. Его расчёт состоит из нескольких этапов:
- Находим среднее значение ряда (в нашем случае 3,7).
- Для каждого значения ряда вычисляем разницу со средним, возводим её в квадрат (это устраняет влияние отрицательных знаков) и находим среднее арифметическое этих квадратов.
- Извлекаем квадратный корень из полученного среднего. В примере это даёт значение примерно 2,24.
Шаг 2: Вычисление коэффициента скошенности
Теперь, когда все компоненты формулы известны, можно вычислить итоговый коэффициент. Подставив найденные значения (среднее ~3.7, мода = 3, стандартное отклонение ~2.24) в формулу, мы получаем положительное число.
Интерпретация результата: Положительное значение коэффициента G указывает на то, что распределение является положительно скошенным или смещённым влево. На практике это означает, что «хвост» распределения вытянут в сторону меньших значений, а основная масса данных сконцентрирована справа.
Автоматизация расчётов
В реальной аналитике вычисления редко производятся вручную. Для автоматического расчёта скошенности в среде Python можно воспользоваться методом skew() из библиотеки SciPy, что значительно ускоряет и упрощает анализ больших наборов данных.
Больше интересных статей здесь: Новости науки и техники.
Источник статьи: Скошенность (Skewness).