📊 회귀분석 이상치 탐색: 잔차로 찾는 데이터의 숨은 문제🧐 이상치란?이상치(outlier)란 전체 데이터의 전반적인 흐름이나 패턴에서 눈에 띄게 벗어난 값입니다.즉, 대부분의 데이터가 특정한 경향을 따르고 있을 때, 그 흐름과 어울리지 않는 값을 이상치라고 부릅니다.🔎 예시사례설명학생 키 데이터대부분 160cm 전후인데 220cm가 포함됨 → 이상치시험 점수대부분 70~90점인데, 한 명이 5점 → 이상치회사 연봉대부분 3천만 원인데 한 명이 20억 → 이상치이러한 값들은 단순히 “다르다”가 아니라, 통계적 경향을 왜곡할 수 있기 때문에 중요한 문제입니다.📌 왜 이상치를 탐지해야 하는가?모델 왜곡: 이상치가 회귀선을 끌어당김해석 오류: 잘못된 데이터로 잘못된 해석 유도정책 실패: 의사결정이 실제..

📊 클러스터링을 이용한 이상치 탐지📌 클러스터링이란 무엇인가클러스터링(clustering)은 데이터를 유사한 특성을 지닌 집단(cluster)으로 묶는 기법입니다.데이터는 보통 일정한 패턴을 이루며, 서로 가까운 것끼리 모이고, 그렇지 않은 데이터는 멀리 떨어집니다.예를 들어, 데이터가 다음과 같이 주어졌다고 가정합니다:\( [1, 2, 3, 4, 5] \)는 서로 가깝기 때문에 하나의 군집으로 묶이고,\( [99, 100] \)은 이들과는 멀리 떨어져 별도의 군집으로 묶입니다.이처럼 데이터는 자연스럽게 몇 개의 덩어리로 나눠지는데, 문제는 “어떻게 이런 군집을 객관적으로 나눌 수 있을까?”라는 점입니다.이 질문에 답하기 위해, 밀도 기반으로 군집을 정의하는 DBSCAN을 사용해 군집을 형성하고 이상..

✨ 표준점수를 이용한 이상치 탐색📌 이상치란?이상치(outlier)란 데이터셋 안에서 다른 데이터들과 비교했을 때, 유독 크거나 혹은 유독 작은 값을 뜻합니다.이상치는 입력 오류나 측정 오류일 수도 있고, 극히 드문 정상적 사건일 수도 있습니다.하지만 이상치는 데이터의 신뢰성을 해치고 분석 결과를 왜곡하기 때문에 반드시 탐색이 필요합니다.📌 이상치의 문제이상치를 방치하면 데이터 분석 결과가 왜곡됩니다.이상치가 왜 문제인지 이해하기 위해 이상치가 없는 경우와 있는 경우를 비교합니다.1. 평균 왜곡이상치가 없는 경우데이터: 1, 2, 3, 4, 5 → 평균: 3 → 데이터의 중심을 잘 나타냄이상치가 있는 경우데이터: 1, 2, 3, 4, 1000 → 평균: 202 → 데이터의 중심과 동떨어짐2. 분산 과..
- Total
- Today
- Yesterday
- 알고리즘 문제풀이
- 알고리즘기초
- 문자열처리
- 프로그래밍
- 동적계획법
- c언어
- DP
- 인접 행렬
- 코딩테스트
- 문제풀이
- 파이썬
- 백준
- Python
- dfs
- c++알고리즘
- 문제 풀이
- 객체지향
- 알고리즘
- 그리디
- 브루트포스
- 그래프 탐색
- 알고리즘문제풀이
- C++
- 코딩
- 코딩 테스트
- 동적 계획법
- 파이썬코딩
- python 알고리즘
- 그리디알고리즘
- C++ 알고리즘
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |