티스토리 뷰
반응형
✨ 표준점수를 이용한 이상치 탐색
📌 이상치란?
이상치(outlier)란 데이터셋 안에서 다른 데이터들과 비교했을 때, 유독 크거나 혹은 유독 작은 값을 뜻합니다.
이상치는 입력 오류나 측정 오류일 수도 있고, 극히 드문 정상적 사건일 수도 있습니다.
하지만 이상치는 데이터의 신뢰성을 해치고 분석 결과를 왜곡하기 때문에 반드시 탐색이 필요합니다.
📌 이상치의 문제
이상치를 방치하면 데이터 분석 결과가 왜곡됩니다.
이상치가 왜 문제인지 이해하기 위해 이상치가 없는 경우와 있는 경우를 비교합니다.
1. 평균 왜곡
- 이상치가 없는 경우
데이터: 1, 2, 3, 4, 5 → 평균: 3 → 데이터의 중심을 잘 나타냄 - 이상치가 있는 경우
데이터: 1, 2, 3, 4, 1000 → 평균: 202 → 데이터의 중심과 동떨어짐
2. 분산 과대추정
- 이상치가 없는 경우
데이터: 10, 11, 12, 12, 13 → 표준편차: 약 1.1 → 안정적 - 이상치가 있는 경우
데이터: 10, 11, 12, 12, 100 → 표준편차: 약 38.5 → 불안정
3. 분석모델 불안정
- 이상치가 없는 경우
데이터가 직선 형태로 분포해 회귀선이 패턴을 잘 설명함 - 이상치가 있는 경우
멀리 벗어난 한 점 때문에 회귀선이 왜곡됨
4. 해석의 혼란
- 이상치가 없는 경우
고객의 평균 소비가 50만원으로 해석 가능 - 이상치가 있는 경우
한 고객이 1억원을 써 평균이 수천만원으로 계산됨 → 잘못된 해석
📌 이상치를 탐지하는 방법: 표준점수
이상치를 탐지하는 방법에는 여러 가지가 있지만, 가장 널리 쓰이는 방법 중 하나가 표준점수(z-score)입니다.
표준점수는 데이터가 평균에서 얼마나 벗어났는지를 표준편차 단위로 나타냅니다.
이때 표준편차가 크면 클수록 데이터가 더 극단적이라는 뜻이며, 특히 표준편차가 3 이상인 값은 통계적으로 매우 드문 값입니다.
표준정규분포를 가정하면, 데이터는 평균을 중심으로 종 모양의 분포를 이루며, 표준편차가 커질수록 그에 해당하는 값이 나타날 확률이 급격히 작아집니다.
따라서 표준점수를 기준으로 ±2를 넘는 값은 이상치 가능성이 높고, ±3을 넘는 값은 이상치일 가능성이 매우 높습니다.
표: 표준편차별 포함 확률
표준편차 범위 | 데이터가 그 범위에 속할 확률 | 이상치 판단 |
---|---|---|
±1 | 약 68% | 정상 범위 |
±2 | 약 95% | 드물지만 가능 |
±3 | 약 99.7% | 매우 드문 값 |
±3 이상 | 약 0.3% 이하 | 극단적, 이상치 가능성 매우 높음 |
표에서 보듯이, ±3을 넘는 값은 전체 데이터의 약 0.3%밖에 되지 않기 때문에 통계적으로는 이상치로 간주합니다.
📌 결론
- 이상치는 데이터의 신뢰성과 해석을 왜곡하기 때문에 반드시 탐색해야 합니다.
- 이상치를 탐지하는 방법 중 표준점수는 간단하면서도 효과적입니다.
- 표준점수는 데이터가 평균에서 얼마나 벗어났는지를 표준화해 보여줍니다.
- 표준편차가 3 이상인 값은 통계적으로 매우 드문 값으로, 이상치로 판단하기 적절합니다.
반응형
'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글
이상치탐색3: 회귀분석으로 이상치 탐색 (0) | 2025.07.09 |
---|---|
이상치 탐색2: 클러스터링은 이용한 이상치 탐색 (0) | 2025.07.09 |
첨도란? 개념 및 공식, 의미 해석 (0) | 2025.07.07 |
왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명 (0) | 2025.07.07 |
범주형 자료란? 개념과 요약 방법 정리 (2) | 2025.07.07 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- C++ 알고리즘
- 백준
- 동적 계획법
- 코딩
- 동적계획법
- 브루트포스
- Python
- 인접 행렬
- c++알고리즘
- 파이썬
- 코딩테스트
- 문제풀이
- 알고리즘기초
- 문자열처리
- 코딩 테스트
- 문제 풀이
- python 알고리즘
- DP
- 파이썬코딩
- 프로그래밍
- 객체지향
- 그리디알고리즘
- 알고리즘문제풀이
- 그래프 탐색
- C++
- 알고리즘
- 알고리즘 문제풀이
- c언어
- dfs
- 그리디
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
반응형