티스토리 뷰

매치업/통계로 하는 탐색적 데이터분석

왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명

박완희버서커 2025. 7. 7. 15:47

📖 왜도란

정의

왜도(skewness)란 데이터 분포가 평균을 기준으로 좌우 대칭인지 여부와 비대칭의 방향을 나타내는 통계량입니다.

왜도는 데이터의 분포 모양을 수치로 표현하는 지표입니다.
정확히는, 분포가 평균을 기준으로 어느 쪽으로 더 멀리 뻗어 있는지를 나타내며, 분포의 비대칭성을 수량화합니다.
왜도의 값은 다음과 같이 해석합니다.

왜도가 $0$이면 데이터가 대칭 분포임을 의미합니다.
왜도가 양수이면 데이터의 오른쪽 꼬리가 더 길어져 오른쪽으로 치우친 비대칭 분포입니다.
왜도가 음수이면 데이터의 왼쪽 꼬리가 더 길어져 왼쪽으로 치우친 비대칭 분포입니다.

예를 들어, 시험 점수 데이터에서 대부분이 $70$점 근처에 몰려 있지만 몇몇 학생이 $100$점을 받았다면 오른쪽으로 더 길게 늘어져 왜도가 양수가 됩니다.
반대로 대부분이 비슷한 점수를 받았지만 극소수의 학생이 $0$점에 가까운 점수를 받았다면 왼쪽으로 더 길게 늘어져 왜도가 음수가 됩니다.
분포를 사람의 얼굴에 빗대어 생각하면, 좌우가 균형 잡힌 얼굴은 왜도가 $0$이고, 한쪽으로 턱이 더 길어진 얼굴은 양쪽 방향에 따라 양수 또는 음수가 됩니다.
즉, 왜도는 분포의 중심에서 얼마나 한쪽으로 기울어져 있는지를 수치로 표현하는 역할을 합니다.

공식

왜도는 다음과 같이 계산합니다. $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 여기서

$x_i$: 각 데이터 값
$\bar{x}$: 데이터의 평균
$s$: 데이터의 표준편차
$n$: 데이터의 개수

분자는 각 데이터가 평균에서 벗어난 정도를 세제곱한 후 평균을 낸 값입니다.
분모는 표준편차의 세제곱으로, 데이터의 크기와 단위를 보정하여 왜도를 무단위화하고 비교 가능하게 합니다.

편차 세제곱의 필요성

이유
단순한 편차들의 합은 항상 $0$이 되어, 데이터의 좌우 치우침을 측정할 수 없습니다.
왜냐하면 평균이 데이터의 균형점이기 때문입니다.
예를 들어 데이터가 $[5, 5, 5, 5, 20]$일 때, 평균은 $8$입니다.
각 편차의 합은 다음과 같습니다.

$x_i$	$x_i - 8$
$5$	$-3$
$5$	$-3$
$5$	$-3$
$5$	$-3$
$20$	$12$

편차 합: $-3 \times 4 + 12 = 0$
이처럼 대칭 여부에 관계없이 항상 $0$이 되어버립니다.
해결책
편차를 세제곱하면 부호를 유지하면서 크기를 강조할 수 있습니다.
같은 데이터에서 편차를 세제곱하면 다음과 같습니다.

$x_i$	$(x_i - 8)^3$
$5$	$-27$
$5$	$-27$
$5$	$-27$
$5$	$-27$
$20$	$1728$

세제곱합: $-27 \times 4 + 1728 = 1620$
세제곱합이 $>0$이므로, 데이터가 오른쪽으로 치우쳤음을 알 수 있습니다.

표준편차 세제곱으로 나누는 이유

이유
편차를 세제곱하면 단위가 세 번 곱해져서 데이터 단위의 세제곱이 됩니다.
예를 들어 점수 데이터라면 단위가 “점수³”이 되어 크기와 단위에 따라 값이 달라져 버립니다.
이 상태로는 서로 다른 데이터셋 간에 왜도를 비교할 수 없습니다.
해결책
표준편차도 데이터의 단위와 같기 때문에, 이를 세제곱해 나누면 분자와 같은 단위가 되어 소거됩니다.
예를 들어 위 데이터의 표준편차가 약 $6$이라면, $6^3 = 216$으로 나누어 왜도는 $1620/216 \approx 7.5$가 됩니다.
이렇게 하면 크기나 단위에 상관없이 데이터의 모양만을 나타내는 무단위 지표가 됩니다.

공식의 구조 요약

구성 요소	계산식	역할
분자	$\frac{1}{n}\sum(x_i-\bar{x})^3$	비대칭성의 방향과 크기 계산
분모	$s^3$	단위를 표준화, 크기 보정
전체	분자 ÷ 분모	표준화된 3차 적률

📊 왜도 > 0 (오른쪽 꼬리가 긴 경우)

데이터: [4, 5, 6, 7, 20]
이 데이터에는 극단적으로 큰 값 $20$이 하나 포함되어 있습니다.
이 값은 다른 값들보다 훨씬 크기 때문에, 데이터의 전체 분포를 오른쪽으로 끌어당기고, 평균을 왜곡시키며, 전체 분포를 비대칭적으로 만듭니다.
이로 인해 왜도는 양수가 됩니다.
아래에서 단계별로 계산하며 의미를 해석합니다.

1. 평균을 구한다.

왜도 공식 전체는 다음과 같습니다. $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 여기서 평균 $\bar{x}$는 데이터의 중심값으로, 분자와 분모 모두에서 기준점이 됩니다.
극단적으로 큰 값이 포함된 데이터에서는 평균이 극단값 쪽으로 크게 끌려 올라갑니다.
이는 데이터가 더 이상 “중앙”을 정확히 대표하지 못하고, 왜곡된 중심이 된다는 뜻입니다.
계산: $$ \bar{x} = \frac{4+5+6+7+20}{5} = 8.4 $$ 극단값 $20$이 포함되면서 평균이 $6$에서 $8.4$로 크게 증가했습니다.
이로 인해 원래 중앙에 모여 있던 값들이 평균보다 더 낮아지고, 극단값만 평균보다 훨씬 크다는 비대칭적 구조가 만들어졌습니다.

2. 각 데이터에서 평균을 뺀 편차를 계산한다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 여기서 $(x_i - \bar{x})$는 각 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타냅니다.
평균이 극단값 때문에 오른쪽으로 크게 이동했기 때문에, 나머지 값들은 모두 평균보다 낮아 음수 편차를 가지게 되고, 극단값 하나만 큰 양의 편차를 가집니다.

$x_i$	계산식 $x_i - \bar{x}$	값
$4$	$4 - 8.4$	$-4.4$
$5$	$5 - 8.4$	$-3.4$
$6$	$6 - 8.4$	$-2.4$
$7$	$7 - 8.4$	$-1.4$
$20$	$20 - 8.4$	$11.6$

여기서 볼 수 있듯이 극단적으로 큰 값 $20$ 하나만 양의 방향으로 매우 크게 치우쳐 있고, 나머지 값들은 모두 음수 쪽으로 상대적으로 작은 편차를 갖습니다.
이것이 데이터의 비대칭성을 만들어냅니다.

3. 편차를 세제곱한다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 세제곱을 하는 이유는 각 편차의 부호를 유지하면서, 크기를 더욱 강조하기 위함입니다.
특히 극단값의 큰 양의 편차가 세제곱되면 다른 작은 음의 값들을 압도합니다.

$x_i$	계산식 $(x_i - \bar{x})^3$	값
$4$	$(-4.4)^3$	$-85.2$
$5$	$(-3.4)^3$	$-39.3$
$6$	$(-2.4)^3$	$-13.8$
$7$	$(-1.4)^3$	$-2.7$
$20$	$(11.6)^3$	$1560.9$

여기서 극단적으로 큰 값 $20$의 세제곱값이 $1560.9$로 다른 모든 음수 편차의 세제곱합을 압도하며, 전체 합이 크게 양수로 나타납니다.
이것이 오른쪽 꼬리가 길다는 것을 수치로 표현합니다.

4. 세제곱값을 모두 더한다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 각 편차의 세제곱을 합산합니다: $$ -85.2 + (-39.3) + (-13.8) + (-2.7) + 1560.9 \approx 1420 $$ 전체 합이 $1420$으로 크게 양수입니다.
이는 데이터가 평균을 기준으로 오른쪽 방향으로 크게 치우쳐 있음을 보여줍니다.

5. 표준편차를 계산한다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 분모는 표준편차 $s$의 세제곱입니다.
극단값이 포함되면서 데이터의 분산이 커지고, 표준편차도 커집니다. $$ s \approx 6.23 $$ 표준편차가 커지면 분모도 커져 왜도 값이 다소 줄어들지만, 분자 효과가 훨씬 크기 때문에 최종적으로 양수가 됩니다.

6. 분자와 분모를 나눈다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 분자 평균: $$ \frac{1420}{5} \approx 284 $$ 분모: $$ (6.23)^3 \approx 241.8 $$ 비율: $$ \frac{284}{241.8} \approx 1.17 $$

7. 최종적으로 왜도를 해석한다.

왜도 공식: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$ 계산된 왜도는 $+1.17$로 양수입니다.
이는 극단적으로 큰 값이 오른쪽 꼬리를 길게 만들어 데이터가 평균을 기준으로 오른쪽으로 치우쳐 있다는 것을 의미합니다.

📊 왜도 = 0 (대칭 분포, 정규에 가까운 경우)

데이터: [4, 5, 6, 7, 8]
이 데이터는 중앙값과 평균이 일치하며, 좌우가 거의 대칭을 이룹니다.
극단적으로 크거나 작은 값이 존재하지 않고, 값들이 평균을 중심으로 비슷하게 퍼져 있습니다.
이로 인해 왜도는 $0$에 가깝습니다.
아래에서 단계별로 계산하며 왜 대칭적인지 해석합니다.

1️⃣ 평균을 구한다.

왜도 공식 전체: $$ \text{왜도} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{s^3} $$ 여기서 평균 $\bar{x}$는 데이터의 중심을 나타냅니다.
데이터가 대칭적이기 때문에 평균도 중앙에 위치합니다.
계산: $$ \bar{x} = \frac{4+5+6+7+8}{5} = 6 $$ 데이터의 중앙값 또한 $6$이며, 평균과 중앙값이 일치합니다.
이는 데이터가 대칭적으로 분포되어 있다는 중요한 징후입니다.

2️⃣ 각 데이터에서 평균을 뺀 편차 계산

공식의 분자 부분에서는 각 값이 평균에서 얼마나 벗어났는지를 나타냅니다.
데이터가 대칭적이라면, 평균보다 작은 값과 큰 값의 차이가 비슷하게 나타나고, 방향(부호)만 다릅니다.

$x_i$	계산식 $x_i - \bar{x}$	값
$4$	$4 - 6$	$-2$
$5$	$5 - 6$	$-1$
$6$	$6 - 6$	$0$
$7$	$7 - 6$	$1$
$8$	$8 - 6$	$2$

편차가 $-2, -1, 0, +1, +2$처럼 정확히 좌우 대칭입니다.

3️⃣ 편차를 세제곱

$x_i$	계산식 $(x_i - \bar{x})^3$	값
$4$	$(-2)^3$	$-8$
$5$	$(-1)^3$	$-1$
$6$	$0^3$	$0$
$7$	$(1)^3$	$1$
$8$	$(2)^3$	$8$

합산: $$ (-8) + (-1) + 0 + 1 + 8 = 0 $$ 대칭이기 때문에 음의 세제곱 합과 양의 세제곱 합이 서로 상쇄됩니다.

4️⃣ 표준편차 계산

편차 제곱합: $$ (-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2 = 10 $$ 분산: $$ \frac{10}{5} = 2 $$ 표준편차: $$ s = \sqrt{2} \approx 1.41 $$ 세제곱: $$ s^3 \approx 2.8 $$

5️⃣ 최종 왜도 계산

분자 평균: $$ \frac{0}{5} = 0 $$ 분모: $$ 2.8 $$ 비율: $$ 0 $$ 즉, 왜도 = $0$

6️⃣ 해석

왜도 $=0$은 데이터가 평균을 기준으로 좌우 대칭임을 뜻합니다.
극단적으로 큰 값이나 작은 값이 존재하지 않아 꼬리가 어느 쪽으로도 길어지지 않습니다.

📌 1️⃣ 평균에서의 편차 $(x_i - \bar{x})$의 합

데이터 집합의 평균 $\bar{x}$는 모든 값들의 합을 $n$으로 나눈 값입니다.
따라서 평균을 기준으로 한 편차들의 합은 항상 $0$이 됩니다.
수식으로 표현하면 다음과 같습니다. $$ \sum_{i=1}^{n} (x_i - \bar{x}) = 0 $$ 이것은 평균이 데이터의 “균형점”이라는 뜻입니다.
평균보다 큰 값들의 초과분과, 평균보다 작은 값들의 부족분이 서로 정확히 상쇄됩니다.
즉, 평균을 기준으로 한 1차 편차들의 합은 반드시 $0$입니다.

📌 2️⃣ 세제곱한 편차의 합은 왜 $0$이 아닐까?

여기서 중요한 점은, 편차를 세제곱하면 음수와 양수가 서로 정확히 상쇄되지 않는다는 점입니다.
왜냐하면:

평균보다 작은 값들은 음수 편차를 가집니다.
평균보다 큰 값들은 양수 편차를 가집니다.
하지만 데이터가 비대칭이라면, 어느 한쪽에 더 극단적인 값이 존재합니다.
세제곱을 하면 작은 음수는 더 작은 음수가 되지만, 큰 음수는 훨씬 더 큰 음수가 됩니다. 마찬가지로 큰 양수도 세제곱하면 매우 커집니다.

즉, 데이터가 비대칭일 경우 한쪽 꼬리의 영향이 더 크게 나타나면서, 세제곱한 편차들의 합은 $0$이 되지 않습니다.

📌 3️⃣ 왜도에서 세제곱을 쓰는 이유와 관련

평균에서의 편차 합이 $0$인 이유는 대칭 여부와는 상관없고, 단순히 평균의 정의 때문입니다.
하지만 우리는 비대칭성을 알고 싶기 때문에 3제곱을 합니다.
3제곱하면 평균 기준 좌우에 있는 값들의 “방향성”과 “비대칭성”이 그대로 남아, $0$과 달라집니다.
즉:

대칭인 경우에는 세제곱해도 합이 거의 $0$입니다.
오른쪽 꼬리가 긴 경우에는 세제곱한 값의 합이 양수입니다.
왼쪽 꼬리가 긴 경우에는 세제곱한 값의 합이 음수입니다.

📌 4️⃣ 정리

✅ 평균 기준 편차의 합: 반드시 $0$
✅ 평균 기준 편차의 세제곱합: 데이터가 대칭적이지 않다면 $0$이 아님

이 차이를 이용해 왜도를 계산하고, 데이터의 비대칭성을 판단합니다.

요약표

구분	내용
정의	왜도(skewness)란 데이터 분포가 평균을 기준으로 좌우 대칭인지 여부와 비대칭의 방향을 나타내는 통계량입니다.
해석	왜도 = 0 → 대칭 / 왜도 > 0 → 오른쪽 꼬리 / 왜도 < 0 → 왼쪽 꼬리
공식	$\displaystyle \text{왜도} = \frac{\frac{1}{n} \sum (x_i - \bar{x})^3}{s^3}$
세제곱과 표준화 이유	세제곱은 방향과 비대칭성을 강조하고, 표준편차³로 나누어 단위를 없애고 크기 차이를 보정함

'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글

이상치 탐색 방법1: 표준점수를 이용한 이상치 탐색 (0)	2025.07.09
첨도란? 개념 및 공식, 의미 해석 (0)	2025.07.07
범주형 자료란? 개념과 요약 방법 정리 (2)	2025.07.07
데이터 분석의 기초: 자료와 변수의 정확한 이해 (1)	2025.07.05
데이터 분석의 첫걸음: EDA는 왜 필요할까요? (0)	2025.07.05

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

프로그래밍 및 개발 공부하기