티스토리 뷰
📊 회귀분석 이상치 탐색: 잔차로 찾는 데이터의 숨은 문제
🧐 이상치란?
이상치(outlier)란 전체 데이터의 전반적인 흐름이나 패턴에서 눈에 띄게 벗어난 값입니다.
즉, 대부분의 데이터가 특정한 경향을 따르고 있을 때, 그 흐름과 어울리지 않는 값을 이상치라고 부릅니다.
🔎 예시
사례 | 설명 |
---|---|
학생 키 데이터 | 대부분 160cm 전후인데 220cm가 포함됨 → 이상치 |
시험 점수 | 대부분 70~90점인데, 한 명이 5점 → 이상치 |
회사 연봉 | 대부분 3천만 원인데 한 명이 20억 → 이상치 |
이러한 값들은 단순히 “다르다”가 아니라, 통계적 경향을 왜곡할 수 있기 때문에 중요한 문제입니다.
📌 왜 이상치를 탐지해야 하는가?
- 모델 왜곡: 이상치가 회귀선을 끌어당김
- 해석 오류: 잘못된 데이터로 잘못된 해석 유도
- 정책 실패: 의사결정이 실제 현실을 반영하지 않게 됨
- 신뢰도 저하: 데이터 기반 분석 결과의 설득력 하락
이상치는 무시하면 안 됩니다. 무조건 제거하는 것도 정답이 아닙니다.
정확하게 탐지하고, 그 원인을 파악한 뒤, 목적에 맞게 처리하는 것이 중요합니다.
📐 회귀분석이란?
회귀분석(regression analysis)은 여러 개의 데이터를 관통하면서 가장 잘 설명할 수 있는 ‘하나의 선’을 찾는 방법입니다.
이 선은 데이터의 전반적인 패턴을 대표하며, 이를 통해 미래 값을 예측하거나 변수 간의 관계를 설명할 수 있습니다.
📌 회귀분석의 핵심: 선 하나로 전체를 설명
구성 요소 | 설명 |
---|---|
독립 변수 (X) | 예측에 사용되는 입력 값 (예: 공부 시간) |
종속 변수 (Y) | 예측하고자 하는 결과 값 (예: 시험 점수) |
회귀선 | 전체 데이터의 패턴을 가장 잘 요약한 선 |
예를 들어 “공부 시간이 길수록 시험 점수가 높다”는 경향을 보이는 데이터를 분석하면, 회귀분석은 그 경향을 하나의 직선으로 나타냅니다.
🎯 왜 회귀분석이 이상치 탐지에 적합한가?
- 회귀선은 전체 데이터를 대표하는 기준이므로,
- 그 선에서 멀리 벗어난 데이터는 다른 패턴을 가진 이상치로 볼 수 있습니다.
🔍 회귀분석으로 이상치 탐지
회귀분석에서 이상치를 탐지하는 방법은 간단합니다.
회귀선에서 멀리 떨어진 점을 찾아내는 것입니다.
이때 "얼마나 멀어야 이상치인가?"를 수치로 판단해야 하며, 그 기준이 되는 것이 잔차(residual)입니다.
📏 잔차란?
잔차 = 실제 값 – 회귀선이 예측한 값
잔차는 각 데이터가 회귀선에서 얼마나 멀리 떨어져 있는지를 나타냅니다.
잔차가 작으면 회귀선과 가까운 값, 즉 예측에 잘 맞는 값이고,
잔차가 크면 회귀선에서 멀어진 값, 즉 이상치일 가능성이 높은 값입니다.
📊 잔차 예시
관측값 | 예측값 | 잔차 | 해석 |
---|---|---|---|
85 | 87 | -2 | 거의 일치 (정상) |
90 | 91 | -1 | 정상 |
42 | 85 | -43 | 예측값과 크게 차이 → 이상치 가능성 높음 |
📈 표준화 잔차란?
단순히 잔차의 크기만으로는 이상치를 판단하기 어렵습니다.
왜냐하면 데이터마다 단위가 다르고, 분산도 다르기 때문입니다.
그래서 잔차를 표준화하여 비교 가능한 값으로 만든 것이 표준화 잔차입니다.
표준화 잔차 = 잔차 / 잔차의 표준편차
📌 기준: 표준화 잔차로 이상치 판단
표준화 잔차 범위 | 정규분포 내 비율 | 해석 |
---|---|---|
±2 이하 | 약 95% | 정상 범위 |
±2 초과 ~ ±3 이하 | 약 4% | 경계 이상치 (주의) |
±3 초과 | 약 0.3% | 명확한 이상치 |
✅ 결론
- 이상치란: 전체 데이터 흐름에서 크게 벗어난 값입니다.
- 회귀분석이란: 데이터를 가장 잘 대표하는 하나의 선을 찾는 방법입니다.
- 이상치 탐지는 회귀선에서 멀리 떨어진 데이터를 찾는 것으로 수행됩니다.
- 잔차와 표준화 잔차는 이상치 여부를 판단하는 핵심 도구입니다.
이상치는 단순히 "이상한 값"이 아닙니다.
의미 있는 이상치일 수도 있고, 분석을 망치는 오류 데이터일 수도 있습니다.
그러므로 정확히 탐지하고, 신중히 해석하며, 목적에 따라 처리해야 합니다.
'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글
이상치 탐색2: 클러스터링은 이용한 이상치 탐색 (0) | 2025.07.09 |
---|---|
이상치 탐색 방법1: 표준점수를 이용한 이상치 탐색 (0) | 2025.07.09 |
첨도란? 개념 및 공식, 의미 해석 (0) | 2025.07.07 |
왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명 (0) | 2025.07.07 |
범주형 자료란? 개념과 요약 방법 정리 (2) | 2025.07.07 |
- Total
- Today
- Yesterday
- 동적 계획법
- Python
- 브루트포스
- 알고리즘문제풀이
- dfs
- c언어
- python 알고리즘
- 알고리즘기초
- C++ 알고리즘
- 그래프 탐색
- 문제풀이
- 그리디알고리즘
- 백준
- C++
- 프로그래밍
- 인접 행렬
- c++알고리즘
- 문제 풀이
- 파이썬
- 그리디
- 코딩테스트
- 객체지향
- 파이썬코딩
- 알고리즘
- 코딩
- 동적계획법
- 코딩 테스트
- 문자열처리
- DP
- 알고리즘 문제풀이
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |