티스토리 뷰
📊 데이터 분석의 기초: 자료와 변수의 정확한 이해
🔷 자료의 정의
관심 있는 대상을 관찰하거나 측정하여 얻은 값들의 집합입니다.
즉, 우리가 알고자 하는 대상을 특정한 속성으로 관찰하거나 질문하여 얻은 결과가 바로 자료입니다.
예를 들어:
- 고객의 나이와 구매금액을 기록한 값
- 학생들의 시험 점수 목록
- 병원 환자의 진단 기록
이처럼 자료는 데이터 분석의 ‘재료’입니다. 이 재료가 잘못되면 분석 결과도 의미가 없어집니다.
자료는 단순한 숫자나 글자가 아니라, 누구를, 무엇을, 어떻게 관찰했는지를 담고 있는 ‘의미 있는 데이터’라는 점을 반드시 이해해야 합니다.
🔷 자료를 정확히 이해해야 하는 이유
자료를 이해하는 것은 분석의 방향을 정하는 데 반드시 필요합니다.
자료를 올바르게 정의하고 이해하지 않으면 분석이 왜곡되고, 잘못된 결론을 낼 위험이 있습니다.
다음은 자료를 정확히 이해해야 하는 이유를 시각적으로 정리한 것입니다.
이유 | 설명 | 사례 |
---|---|---|
📌 분석의 방향 설정 | 자료의 속성을 알아야 분석 목표와 방법을 정할 수 있습니다. | 고객 100명의 연령 조사 → 특정 연령대만 표본 → 전체 고객 평균으로 발표하면 오류 |
📌 오류 방지 | 자료의 맥락을 이해하지 못하면 계산이 의미 없는 값이 됩니다. | 성별(남=1, 여=2) 평균=1.4 → 남녀 비율을 오해 |
📌 신뢰성 확보 | 자료가 적절히 수집·정의됐다는 신뢰가 있어야 결과도 신뢰할 수 있습니다. | 만족도 조사에서 질문의 맥락을 무시한 분석 |
🔷 데이터셋의 정의
자료는 수집된 상태로는 분석하기 어렵습니다.
자료를 보기 좋게 정리한 것이 바로 데이터셋(dataset)입니다.
데이터셋은 관찰 대상과 그 대상의 속성을 표 형태로 정리한 자료입니다.
고객ID | 성별 | 나이 | 구매금액 | 만족도 |
---|---|---|---|---|
001 | 남 | 28 | 120,000 | 높음 |
002 | 여 | 35 | 85,000 | 보통 |
003 | 남 | 42 | 150,000 | 낮음 |
데이터셋의 구성
- 행(row): 관찰 대상 하나 (예: 고객 한 명)
- 열(column): 관찰 대상의 속성, 즉 변수 (예: 성별, 나이, 구매금액)
데이터셋으로 정리하면 자료의 구조가 명확해지고, 누락, 이상값, 중복을 쉽게 찾을 수 있습니다.
즉, 데이터셋은 분석을 위한 준비 작업이자 분석의 언어입니다.
🔷 자료 형태의 구분
자료를 이해하기 위해서는 먼저 변수의 개수에 따른 형태를 구분할 필요가 있습니다.
🔷 일변량 자료
정의: 하나의 변수만 관찰한 자료
✅ 분석 목표
🎯 목표 | 설명 |
---|---|
✅ 대표값 파악 | 평균, 중앙값, 최빈값 계산 |
✅ 분포 형태 파악 | 값이 고르게 퍼졌는지 확인 |
✅ 이상치 점검 | 극단적인 값이 있는지 확인 |
✅ 수집한 데이터
고객ID | 구매금액 |
---|---|
001 | 120,000 |
002 | 85,000 |
003 | 110,000 |
004 | 90,000 |
005 | 95,000 |
006 | 125,000 |
007 | 115,000 |
008 | 130,000 |
009 | 87,000 |
010 | 92,000 |
✅ 목표 달성 과정
📌 1️⃣ 대표값 파악
총합 1,049,000원을 10명으로 나누면 평균은 104,900원입니다.
자료를 정렬해 중간 두 값(105,000과 110,000)의 평균을 구하면 중앙값은 107,500원입니다.
모든 값이 달라 최빈값은 없습니다.
👉 평균과 중앙값이 비슷하므로 자료의 중심은 안정적입니다.
📌 2️⃣ 분포 형태 파악
데이터는 85,000원~130,000원 구간에 균일하게 퍼져 있고, 특정 구간에 쏠림이나 극단적인 치우침은 없습니다.
👉 자료의 패턴은 대칭적이며 고르게 분포합니다.
📌 3️⃣ 이상치 점검
가장 작은 값(85,000원)과 가장 큰 값(130,000원)이 평균과 크게 차이가 나지 않아 극단적인 이상치는 발견되지 않습니다.
👉 데이터는 이상치 없이 신뢰할 수 있습니다.
✅ 결론
일변량 분석 결과, 고객 구매금액은 중심이 뚜렷하고 분포가 균형적이며 이상치가 없는 안정적인 데이터임을 확인했습니다.
이러한 결과는 이후 다변량 분석과 예측 모델링에 활용하기 적합합니다.
🔷 다변량 자료
정의: 둘 이상의 변수를 관찰한 자료
✅ 분석 목표
🎯 목표 | 설명 |
---|---|
✅ 변수 간 관계 파악 | 두 변수 이상의 상호작용과 관계 규명 |
✅ 패턴과 영향 파악 | 변수 간 원인-결과 혹은 상관 패턴 이해 |
✅ 수집한 데이터
고객ID | 나이 | 구매금액 |
---|---|---|
001 | 28 | 120,000 |
002 | 35 | 85,000 |
✅ 목표 달성 과정
📌 1️⃣ 변수 간 관계 파악
자료를 통해 나이가 많아질수록 구매금액이 줄어드는 경향을 확인했습니다.
👉 나이와 구매금액 사이에는 음의 상관관계가 있습니다.
📌 2️⃣ 패턴과 영향 파악
젊은 층의 구매력이 상대적으로 크며, 연령대별 소비 패턴이 다르다는 점이 드러났습니다.
👉 타겟 마케팅 시 연령층별로 전략을 다르게 할 필요가 있습니다.
✅ 결론
다변량 분석을 통해 변수 간의 관계와 패턴을 규명하고, 이를 실무에 적용할 수 있습니다.
🔷 변수의 정의
데이터셋의 열 하나는 변수(variable)입니다.
변수는 관찰 대상의 속성을 수량화한 것입니다.
예: 성별, 나이, 구매금액
변수의 정의를 올바르게 이해하지 못하면 자료를 해석할 수 없습니다.
🔷 변수의 유형
변수는 크게 질적 변수와 양적 변수로 나눌 수 있습니다.
이 구분을 정확히 이해하는 것은 필수적입니다.
왜냐하면 변수의 속성에 따라 적합한 분석 방법이 다르고, 해석 방법도 완전히 달라지기 때문입니다.
🔷 질적 변수
✅ 정의와 특징
질적 변수는 관찰 대상을 범주(카테고리)로 나누어 표현합니다.
즉, 값들의 크기나 수치가 중요한 것이 아니라, 어느 그룹에 속하느냐가 중요한 변수입니다.
변수명 | 예시 |
---|---|
성별 | 남, 여 |
혈액형 | A, B, O |
만족도 | 높음, 보통, 낮음 |
질적 변수는 숫자로 입력되더라도 연산이 불가능합니다.
예를 들어 남=1, 여=2라 하더라도 ‘2가 1보다 크다’고 말할 수 없습니다.
✅ 분석 방법
질적 변수는 각 범주별로 빈도수와 비율을 계산합니다.
결과는 막대그래프나 파이차트로 시각화하는 것이 일반적입니다.
🔷 양적 변수
✅ 정의와 특징
양적 변수는 관찰 대상의 속성을 수치로 측정합니다.
즉, 값들 간의 차이와 비율이 의미가 있으며 연산이 가능합니다.
변수명 | 예시 |
---|---|
나이 | 25, 30, 45 |
구매금액 | 100,000원 |
✅ 분석 방법
양적 변수는 평균, 중앙값, 표준편차, 분포 등을 계산해 자료의 중심과 산포를 이해합니다.
히스토그램, 상자그림 등으로 시각화하기도 합니다.
✅ 정리
- 질적 변수: 범주형 → 빈도/비율 분석
- 양적 변수: 수치형 → 연산과 통계 분석 가능
🔷 마무리
데이터 분석에서 자료와 변수를 이해하는 것은 형식적인 절차가 아니라 분석의 설계 그 자체입니다.
자료는 관찰 결과의 집합이고, 데이터셋으로 표 형태로 정리하면 분석하기 쉽습니다.
변수는 데이터셋의 열이며, 변수의 성격을 올바르게 알아야 적합한 분석 기법을 선택할 수 있습니다.
분석을 시작하기 전 스스로에게 반드시 물어야 합니다.
“이 자료는 무엇을 나타내며, 변수는 어떤 성격을 가지고 있는가?”
이 질문에 답할 수 있다면, 데이터 분석의 올바른 출발점에 서 계신 것입니다.
'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글
이상치 탐색 방법1: 표준점수를 이용한 이상치 탐색 (0) | 2025.07.09 |
---|---|
첨도란? 개념 및 공식, 의미 해석 (0) | 2025.07.07 |
왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명 (0) | 2025.07.07 |
범주형 자료란? 개념과 요약 방법 정리 (2) | 2025.07.07 |
데이터 분석의 첫걸음: EDA는 왜 필요할까요? (0) | 2025.07.05 |
- Total
- Today
- Yesterday
- 객체지향
- 알고리즘
- Python
- python 알고리즘
- 파이썬코딩
- 코딩테스트
- c언어
- 동적계획법
- 알고리즘 문제풀이
- 알고리즘기초
- 프로그래밍
- 코딩 테스트
- 인접 행렬
- 그리디알고리즘
- 문제 풀이
- DP
- C++ 알고리즘
- 브루트포스
- dfs
- 파이썬
- 문제풀이
- 동적 계획법
- 알고리즘문제풀이
- 백준
- c++알고리즘
- 그래프 탐색
- 그리디
- 문자열처리
- C++
- 코딩
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |