Related to: Machine Learning
개요
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란 통계 그래픽 및 기타 데이터 시각화 방법을 사용하여 Dataset을 분석하여 주요 특성을 요약하는 접근 방식입니다.
핵심 개념
EDA란?
- 데이터 분석 이전에 데이터의 구조, 분포, 이상값, 결측치 등을 시각적으로 탐색하는 과정
- 모델링 전 데이터의 특성을 이해하기 위한 필수 단계
- 통계적 방법과 시각화 도구(히스토그램, 박스플롯, 산점도 등)를 조합하여 수행
EDA의 주요 목적
- 데이터 분포 및 패턴 파악
- 이상값(Outlier) 및 결측치(Missing Value) 탐지
- 변수 간 상관관계 파악
- 적합한 모델 및 피처 엔지니어링 방향 결정
관련 개념
- Machine Learning - EDA가 선행되는 머신러닝 프로세스
- Simple ML Flow vs Competition Flow - EDA가 포함된 ML 전체 플로우
- 샘플링(Samiling) - EDA에서 사용되는 샘플링 기법