데이터 분석의 기초: 자료와 변수의 정확한 이해

티스토리 뷰

매치업/통계로 하는 탐색적 데이터분석

데이터 분석의 기초: 자료와 변수의 정확한 이해

박완희버서커 2025. 7. 5. 16:33

📊 데이터 분석의 기초: 자료와 변수의 정확한 이해

🔷 자료의 정의

관심 있는 대상을 관찰하거나 측정하여 얻은 값들의 집합입니다.

즉, 우리가 알고자 하는 대상을 특정한 속성으로 관찰하거나 질문하여 얻은 결과가 바로 자료입니다.

예를 들어:

고객의 나이와 구매금액을 기록한 값
학생들의 시험 점수 목록
병원 환자의 진단 기록

이처럼 자료는 데이터 분석의 ‘재료’입니다. 이 재료가 잘못되면 분석 결과도 의미가 없어집니다.

자료는 단순한 숫자나 글자가 아니라, 누구를, 무엇을, 어떻게 관찰했는지를 담고 있는 ‘의미 있는 데이터’라는 점을 반드시 이해해야 합니다.

🔷 자료를 정확히 이해해야 하는 이유

자료를 이해하는 것은 분석의 방향을 정하는 데 반드시 필요합니다.

자료를 올바르게 정의하고 이해하지 않으면 분석이 왜곡되고, 잘못된 결론을 낼 위험이 있습니다.

다음은 자료를 정확히 이해해야 하는 이유를 시각적으로 정리한 것입니다.

이유	설명	사례
📌 분석의 방향 설정	자료의 속성을 알아야 분석 목표와 방법을 정할 수 있습니다.	고객 100명의 연령 조사 → 특정 연령대만 표본 → 전체 고객 평균으로 발표하면 오류
📌 오류 방지	자료의 맥락을 이해하지 못하면 계산이 의미 없는 값이 됩니다.	성별(남=1, 여=2) 평균=1.4 → 남녀 비율을 오해
📌 신뢰성 확보	자료가 적절히 수집·정의됐다는 신뢰가 있어야 결과도 신뢰할 수 있습니다.	만족도 조사에서 질문의 맥락을 무시한 분석

🔷 데이터셋의 정의

자료는 수집된 상태로는 분석하기 어렵습니다.

자료를 보기 좋게 정리한 것이 바로 데이터셋(dataset)입니다.

데이터셋은 관찰 대상과 그 대상의 속성을 표 형태로 정리한 자료입니다.

고객ID	성별	나이	구매금액	만족도
001	남	28	120,000	높음
002	여	35	85,000	보통
003	남	42	150,000	낮음

데이터셋의 구성

행(row): 관찰 대상 하나 (예: 고객 한 명)
열(column): 관찰 대상의 속성, 즉 변수 (예: 성별, 나이, 구매금액)

데이터셋으로 정리하면 자료의 구조가 명확해지고, 누락, 이상값, 중복을 쉽게 찾을 수 있습니다.

즉, 데이터셋은 분석을 위한 준비 작업이자 분석의 언어입니다.

🔷 자료 형태의 구분

자료를 이해하기 위해서는 먼저 변수의 개수에 따른 형태를 구분할 필요가 있습니다.

🔷 일변량 자료

정의: 하나의 변수만 관찰한 자료

✅ 분석 목표

🎯 목표	설명
✅ 대표값 파악	평균, 중앙값, 최빈값 계산
✅ 분포 형태 파악	값이 고르게 퍼졌는지 확인
✅ 이상치 점검	극단적인 값이 있는지 확인

✅ 수집한 데이터

고객ID	구매금액
001	120,000
002	85,000
003	110,000
004	90,000
005	95,000
006	125,000
007	115,000
008	130,000
009	87,000
010	92,000

✅ 목표 달성 과정

📌 1️⃣ 대표값 파악
총합 1,049,000원을 10명으로 나누면 평균은 104,900원입니다.
자료를 정렬해 중간 두 값(105,000과 110,000)의 평균을 구하면 중앙값은 107,500원입니다.
모든 값이 달라 최빈값은 없습니다.
👉 평균과 중앙값이 비슷하므로 자료의 중심은 안정적입니다.

📌 2️⃣ 분포 형태 파악
데이터는 85,000원~130,000원 구간에 균일하게 퍼져 있고, 특정 구간에 쏠림이나 극단적인 치우침은 없습니다.
👉 자료의 패턴은 대칭적이며 고르게 분포합니다.

📌 3️⃣ 이상치 점검
가장 작은 값(85,000원)과 가장 큰 값(130,000원)이 평균과 크게 차이가 나지 않아 극단적인 이상치는 발견되지 않습니다.
👉 데이터는 이상치 없이 신뢰할 수 있습니다.

✅ 결론
일변량 분석 결과, 고객 구매금액은 중심이 뚜렷하고 분포가 균형적이며 이상치가 없는 안정적인 데이터임을 확인했습니다.
이러한 결과는 이후 다변량 분석과 예측 모델링에 활용하기 적합합니다.

🔷 다변량 자료

정의: 둘 이상의 변수를 관찰한 자료

✅ 분석 목표

🎯 목표	설명
✅ 변수 간 관계 파악	두 변수 이상의 상호작용과 관계 규명
✅ 패턴과 영향 파악	변수 간 원인-결과 혹은 상관 패턴 이해

✅ 수집한 데이터

고객ID	나이	구매금액
001	28	120,000
002	35	85,000

✅ 목표 달성 과정

📌 1️⃣ 변수 간 관계 파악
자료를 통해 나이가 많아질수록 구매금액이 줄어드는 경향을 확인했습니다.
👉 나이와 구매금액 사이에는 음의 상관관계가 있습니다.

📌 2️⃣ 패턴과 영향 파악
젊은 층의 구매력이 상대적으로 크며, 연령대별 소비 패턴이 다르다는 점이 드러났습니다.
👉 타겟 마케팅 시 연령층별로 전략을 다르게 할 필요가 있습니다.

✅ 결론
다변량 분석을 통해 변수 간의 관계와 패턴을 규명하고, 이를 실무에 적용할 수 있습니다.

🔷 변수의 정의

데이터셋의 열 하나는 변수(variable)입니다.

변수는 관찰 대상의 속성을 수량화한 것입니다.

예: 성별, 나이, 구매금액

변수의 정의를 올바르게 이해하지 못하면 자료를 해석할 수 없습니다.

🔷 변수의 유형

변수는 크게 질적 변수와 양적 변수로 나눌 수 있습니다.

이 구분을 정확히 이해하는 것은 필수적입니다.

왜냐하면 변수의 속성에 따라 적합한 분석 방법이 다르고, 해석 방법도 완전히 달라지기 때문입니다.

🔷 질적 변수

✅ 정의와 특징

질적 변수는 관찰 대상을 범주(카테고리)로 나누어 표현합니다.

즉, 값들의 크기나 수치가 중요한 것이 아니라, 어느 그룹에 속하느냐가 중요한 변수입니다.

변수명	예시
성별	남, 여
혈액형	A, B, O
만족도	높음, 보통, 낮음

질적 변수는 숫자로 입력되더라도 연산이 불가능합니다.

예를 들어 남=1, 여=2라 하더라도 ‘2가 1보다 크다’고 말할 수 없습니다.

✅ 분석 방법

질적 변수는 각 범주별로 빈도수와 비율을 계산합니다.

결과는 막대그래프나 파이차트로 시각화하는 것이 일반적입니다.

🔷 양적 변수

✅ 정의와 특징

양적 변수는 관찰 대상의 속성을 수치로 측정합니다.

즉, 값들 간의 차이와 비율이 의미가 있으며 연산이 가능합니다.

변수명	예시
나이	25, 30, 45
구매금액	100,000원

✅ 분석 방법

양적 변수는 평균, 중앙값, 표준편차, 분포 등을 계산해 자료의 중심과 산포를 이해합니다.

히스토그램, 상자그림 등으로 시각화하기도 합니다.

✅ 정리

질적 변수: 범주형 → 빈도/비율 분석
양적 변수: 수치형 → 연산과 통계 분석 가능

🔷 마무리

데이터 분석에서 자료와 변수를 이해하는 것은 형식적인 절차가 아니라 분석의 설계 그 자체입니다.

자료는 관찰 결과의 집합이고, 데이터셋으로 표 형태로 정리하면 분석하기 쉽습니다.

변수는 데이터셋의 열이며, 변수의 성격을 올바르게 알아야 적합한 분석 기법을 선택할 수 있습니다.

분석을 시작하기 전 스스로에게 반드시 물어야 합니다.

“이 자료는 무엇을 나타내며, 변수는 어떤 성격을 가지고 있는가?”

이 질문에 답할 수 있다면, 데이터 분석의 올바른 출발점에 서 계신 것입니다.

'매치업 > 통계로 하는 탐색적 데이터분석' 카테고리의 다른 글

이상치 탐색 방법1: 표준점수를 이용한 이상치 탐색 (0)	2025.07.09
첨도란? 개념 및 공식, 의미 해석 (0)	2025.07.07
왜도(Skewness)의 정의, 공식 및 계산 방법 상세 설명 (0)	2025.07.07
범주형 자료란? 개념과 요약 방법 정리 (2)	2025.07.07
데이터 분석의 첫걸음: EDA는 왜 필요할까요? (0)	2025.07.05

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

프로그래밍 및 개발 공부하기

티스토리 뷰