티스토리 뷰

반응형

📖 첨도란

정의

첨도(kurtosis)란 데이터 분포가 평균을 기준으로 중심에 얼마나 집중되어 있고, 꼬리가 얼마나 두껍거나 얇은지를 나타내는 통계량입니다.
첨도는 데이터 분포의 모양을 수치로 표현하는 지표입니다.
정확히는, 데이터가 평균 근처에 얼마나 많이 모여 있는지, 그리고 평균에서 멀리 떨어진 꼬리 부분이 얼마나 두꺼운지를 종합적으로 수량화합니다.
첨도의 값은 다음과 같이 해석합니다.
  • 첨도 = $3$ → 정규분포와 같은 형태, 기준값
  • 첨도 > $3$ → 중심이 뾰족하고 꼬리가 두꺼운 분포
  • 첨도 < $3$ → 중심이 평평하고 꼬리가 얇은 분포
첨도는 흔히 분포를 산 모양에 비유하기도 합니다.
정규분포는 표준적인 산 모양으로, 첨도가 $3$입니다.
중심이 더 뾰족하고 꼬리가 두꺼운 산은 첨도가 $3$보다 크고, 중심이 완만하고 꼬리가 얇은 언덕 같은 모양은 첨도가 $3$보다 작습니다.
첨도는 이렇게 중심 집중도와 꼬리의 두께를 함께 보여주는 지표입니다.

📖 첨도의 공식

첨도는 다음과 같이 계산합니다. $$ \text{첨도} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{s^4} $$ 여기서
  • $x_i$: 각 데이터 값
  • $\bar{x}$: 데이터의 평균
  • $s$: 데이터의 표준편차
  • $n$: 데이터의 개수
분자는 각 데이터가 평균에서 얼마나 벗어나 있는지를 $4$제곱한 값의 평균입니다.
분모는 표준편차를 $4$제곱한 값으로, 데이터의 크기와 단위를 표준화합니다.
$4$제곱을 하는 이유는 중심에서 멀리 떨어진 값들의 영향력을 크게 강조하기 위해서입니다.
또한 $4$제곱은 항상 양수이므로 대칭성을 파괴하지 않으면서 중심 집중도와 꼬리 두께를 강조할 수 있습니다.
표준편차를 $4$제곱해 나누는 이유는 계산값을 무단위화해 데이터셋 간 비교가 가능하도록 만들기 위해서입니다.

📖 첨도 > 3 (중심이 뾰족하고 꼬리가 두꺼운 분포)

데이터: `[5, 6, 6, 6, 6, 7, 7]`
이 데이터는 대부분의 값이 평균 근처에 몰려 있고, 평균에서 멀리 떨어진 값도 일정 비율 존재해 꼬리가 두껍습니다.
데이터가 평균에 강하게 집중되어 있어 중심이 뾰족하고 꼬리도 두껍기 때문에 첨도는 $3$보다 큰 값으로 계산됩니다.

1️⃣ 평균 계산

첨도 계산의 기준점이 되는 평균을 구합니다.
평균은 데이터의 균형점으로, 데이터가 평균 근처에 많이 몰려 있으면 중심 집중도가 높습니다. 평균 계산: $$ \bar{x} = \frac{5+6+6+6+6+7+7}{7} = 6.14 $$

2️⃣ 평균과의 편차 계산

각 데이터가 평균에서 얼마나 떨어져 있는지를 구합니다.
데이터가 평균 근처에 많이 몰려 있어 작은 편차가 많고, 상대적으로 큰 편차도 소수 있습니다.
$x_i$ $x_i - \bar{x}$
$5$ $-1.14$
$6$ $-0.14$
$6$ $-0.14$
$6$ $-0.14$
$6$ $-0.14$
$7$ $0.86$
$7$ $0.86$



3️⃣ 편차의 4제곱

편차를 $4$제곱해 계산합니다.
$4$제곱을 하면 중심에 가까운 값들의 영향은 작게 유지되고, 평균에서 멀리 떨어진 값의 영향은 매우 크게 강조됩니다.
데이터가 평균에 과도하게 몰려 있고 꼬리까지 두꺼운 형태이므로 첨도가 크게 나옵니다.
$x_i$ $(x_i - \bar{x})^4$
$5$ $1.7$
$6$ $0.0004$
$6$ $0.0004$
$6$ $0.0004$
$6$ $0.0004$
$7$ $0.55$
$7$ $0.55$



4️⃣ 표준편차의 4제곱으로 나누기

편차의 $4$제곱 평균을 표준편차의 $4$제곱으로 나누어 단위를 없앱니다.
이렇게 하면 데이터의 크기나 단위에 무관한 형태 지표가 됩니다.
계산 결과가 $> 3$이면 중심 집중도가 높고 꼬리가 두꺼운 분포로 해석됩니다.

5️⃣ 해석

첨도가 $> 3$이라는 것은:
  • 데이터가 평균 근처에 과도하게 몰려 있어 중심이 뾰족합니다.
  • 평균에서 떨어진 값들도 일정 비율 존재해 꼬리가 두껍습니다.
  • 정규분포보다 중심 집중도가 높고 꼬리가 무겁습니다.


📖 첨도 < 3 (중심이 평평하고 꼬리가 얇은 분포)

데이터: `[3, 4, 5, 6, 7, 8, 9]`
이 데이터는 평균 근처보다는 멀리 퍼져 있는 값들이 많아 데이터가 넓게 분포하고 중심 집중도가 낮습니다.
그 결과 첨도는 $3$보다 작은 값으로 계산됩니다.

1️⃣ 평균 계산

평균 계산: $$ \bar{x} = \frac{3+4+5+6+7+8+9}{7} = 6 $$

2️⃣ 평균과의 편차 계산

데이터가 평균 근처에 적게 몰려 있고, 평균에서 멀리 떨어진 값들이 많아 큰 편차들이 많습니다.
$x_i$ $x_i - 6$
$3$ $-3$
$4$ $-2$
$5$ $-1$
$6$ $0$
$7$ $1$
$8$ $2$
$9$ $3$



3️⃣ 편차의 4제곱

$x_i$ $(x_i - 6)^4$
$3$ $81$
$4$ $16$
$5$ $1$
$6$ $0$
$7$ $1$
$8$ $16$
$9$ $81$

데이터가 넓게 퍼져 있고 중심 집중도가 낮아 계산 결과가 $< 3$입니다.

4️⃣ 해석

첨도가 $< 3$이라는 것은:
  • 데이터가 평균 근처에 적게 모여 있고 넓게 퍼져 있습니다.
  • 중심이 평평하고 꼬리가 얇아 극단값의 비율이 낮습니다.
  • 정규분포보다 중심 집중도가 낮고 꼬리가 가볍습니다.


📖 중심 집중도와 분산의 관계

분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 지표입니다.
  • 분산이 작으면 데이터가 평균 근처에 모여 있고 중심 집중도가 높습니다.
  • 분산이 크면 데이터가 평균에서 멀리 퍼져 있고 중심 집중도가 낮습니다.
따라서 첨도가 크다는 것은 분산이 상대적으로 작고 평균 근처에 많은 데이터가 집중돼 있음을 뜻합니다.
반대로 첨도가 작다는 것은 분산이 크고 데이터가 평균에서 멀리 퍼져 있음을 뜻합니다.

🔷 요약 표

첨도 값 모양
$>3$ 중심이 뾰족, 꼬리가 두꺼움, 분산 작음
$<3$ 중심이 평평, 꼬리가 얇음, 분산 큼

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/10   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함
반응형