티스토리 뷰
반응형
📖 첨도란
정의
첨도(kurtosis)란 데이터 분포가 평균을 기준으로 중심에 얼마나 집중되어 있고, 꼬리가 얼마나 두껍거나 얇은지를 나타내는 통계량입니다.첨도는 데이터 분포의 모양을 수치로 표현하는 지표입니다.
정확히는, 데이터가 평균 근처에 얼마나 많이 모여 있는지, 그리고 평균에서 멀리 떨어진 꼬리 부분이 얼마나 두꺼운지를 종합적으로 수량화합니다.
첨도의 값은 다음과 같이 해석합니다.
- 첨도 = $3$ → 정규분포와 같은 형태, 기준값
- 첨도 > $3$ → 중심이 뾰족하고 꼬리가 두꺼운 분포
- 첨도 < $3$ → 중심이 평평하고 꼬리가 얇은 분포
정규분포는 표준적인 산 모양으로, 첨도가 $3$입니다.
중심이 더 뾰족하고 꼬리가 두꺼운 산은 첨도가 $3$보다 크고, 중심이 완만하고 꼬리가 얇은 언덕 같은 모양은 첨도가 $3$보다 작습니다.
첨도는 이렇게 중심 집중도와 꼬리의 두께를 함께 보여주는 지표입니다.
📖 첨도의 공식
첨도는 다음과 같이 계산합니다. $$ \text{첨도} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{s^4} $$ 여기서- $x_i$: 각 데이터 값
- $\bar{x}$: 데이터의 평균
- $s$: 데이터의 표준편차
- $n$: 데이터의 개수
분모는 표준편차를 $4$제곱한 값으로, 데이터의 크기와 단위를 표준화합니다.
$4$제곱을 하는 이유는 중심에서 멀리 떨어진 값들의 영향력을 크게 강조하기 위해서입니다.
또한 $4$제곱은 항상 양수이므로 대칭성을 파괴하지 않으면서 중심 집중도와 꼬리 두께를 강조할 수 있습니다.
표준편차를 $4$제곱해 나누는 이유는 계산값을 무단위화해 데이터셋 간 비교가 가능하도록 만들기 위해서입니다.
📖 첨도 > 3 (중심이 뾰족하고 꼬리가 두꺼운 분포)
데이터: `[5, 6, 6, 6, 6, 7, 7]`이 데이터는 대부분의 값이 평균 근처에 몰려 있고, 평균에서 멀리 떨어진 값도 일정 비율 존재해 꼬리가 두껍습니다.
데이터가 평균에 강하게 집중되어 있어 중심이 뾰족하고 꼬리도 두껍기 때문에 첨도는 $3$보다 큰 값으로 계산됩니다.
1️⃣ 평균 계산
첨도 계산의 기준점이 되는 평균을 구합니다.평균은 데이터의 균형점으로, 데이터가 평균 근처에 많이 몰려 있으면 중심 집중도가 높습니다. 평균 계산: $$ \bar{x} = \frac{5+6+6+6+6+7+7}{7} = 6.14 $$
2️⃣ 평균과의 편차 계산
각 데이터가 평균에서 얼마나 떨어져 있는지를 구합니다.데이터가 평균 근처에 많이 몰려 있어 작은 편차가 많고, 상대적으로 큰 편차도 소수 있습니다.
3️⃣ 편차의 4제곱
편차를 $4$제곱해 계산합니다.$4$제곱을 하면 중심에 가까운 값들의 영향은 작게 유지되고, 평균에서 멀리 떨어진 값의 영향은 매우 크게 강조됩니다.
데이터가 평균에 과도하게 몰려 있고 꼬리까지 두꺼운 형태이므로 첨도가 크게 나옵니다.
4️⃣ 표준편차의 4제곱으로 나누기
편차의 $4$제곱 평균을 표준편차의 $4$제곱으로 나누어 단위를 없앱니다.이렇게 하면 데이터의 크기나 단위에 무관한 형태 지표가 됩니다.
계산 결과가 $> 3$이면 중심 집중도가 높고 꼬리가 두꺼운 분포로 해석됩니다.
5️⃣ 해석
첨도가 $> 3$이라는 것은:- 데이터가 평균 근처에 과도하게 몰려 있어 중심이 뾰족합니다.
- 평균에서 떨어진 값들도 일정 비율 존재해 꼬리가 두껍습니다.
- 정규분포보다 중심 집중도가 높고 꼬리가 무겁습니다.
📖 첨도 < 3 (중심이 평평하고 꼬리가 얇은 분포)
데이터: `[3, 4, 5, 6, 7, 8, 9]`이 데이터는 평균 근처보다는 멀리 퍼져 있는 값들이 많아 데이터가 넓게 분포하고 중심 집중도가 낮습니다.
그 결과 첨도는 $3$보다 작은 값으로 계산됩니다.
1️⃣ 평균 계산
평균 계산: $$ \bar{x} = \frac{3+4+5+6+7+8+9}{7} = 6 $$2️⃣ 평균과의 편차 계산
데이터가 평균 근처에 적게 몰려 있고, 평균에서 멀리 떨어진 값들이 많아 큰 편차들이 많습니다.3️⃣ 편차의 4제곱
데이터가 넓게 퍼져 있고 중심 집중도가 낮아 계산 결과가 $< 3$입니다.
4️⃣ 해석
첨도가 $< 3$이라는 것은:- 데이터가 평균 근처에 적게 모여 있고 넓게 퍼져 있습니다.
- 중심이 평평하고 꼬리가 얇아 극단값의 비율이 낮습니다.
- 정규분포보다 중심 집중도가 낮고 꼬리가 가볍습니다.
📖 중심 집중도와 분산의 관계
분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 지표입니다.- 분산이 작으면 데이터가 평균 근처에 모여 있고 중심 집중도가 높습니다.
- 분산이 크면 데이터가 평균에서 멀리 퍼져 있고 중심 집중도가 낮습니다.
반대로 첨도가 작다는 것은 분산이 크고 데이터가 평균에서 멀리 퍼져 있음을 뜻합니다.
🔷 요약 표
반응형
'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글
이상치 탐색2: 클러스터링은 이용한 이상치 탐색 (0) | 2025.07.09 |
---|---|
이상치 탐색 방법1: 표준점수를 이용한 이상치 탐색 (0) | 2025.07.09 |
왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명 (0) | 2025.07.07 |
범주형 자료란? 개념과 요약 방법 정리 (2) | 2025.07.07 |
데이터 분석의 기초: 자료와 변수의 정확한 이해 (1) | 2025.07.05 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 문제풀이
- 파이썬
- 그리디알고리즘
- python 알고리즘
- 코딩테스트
- 프로그래밍
- c++알고리즘
- 알고리즘
- c언어
- dfs
- 동적계획법
- 그리디
- DP
- 문자열처리
- 알고리즘 문제풀이
- 알고리즘문제풀이
- 브루트포스
- 코딩 테스트
- 인접 행렬
- 그래프 탐색
- C++
- C++ 알고리즘
- 알고리즘기초
- Python
- 문제 풀이
- 코딩
- 파이썬코딩
- 백준
- 객체지향
- 동적 계획법
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
반응형