반응형
🧪 머신러닝 파이프라인 (Machine Learning Pipeline)
머신러닝 파이프라인은 비즈니스 목표 → 데이터 준비 → 모델 훈련 → 배포 → 모니터링까지 이어지는 일련의 연결된 단계들이다.
머신러닝 모델을 개발하면 계속 이 파이프라인 과정을 반복하기 때문에 라이프사이클(lifecycle)이라고 하기도 한다.
🔁 머신러닝 파이프라인 주요 단계 (요약)
이 과정은 지속적으로 반복된다 → 모델 성능이 떨어지면 재훈련하거나 새로운 데이터로 개선해야 된다.
단계 | 설명 |
1. 문제 정의 (Problem Definition) | 비즈니스 목표를 명확히 설정 (성공 기준, 측정 가능한 목표) |
2. 데이터 준비 (Data Preparation) | 적절한 훈련 데이터 확보 (품질, 접근성, 정합성 확인) |
3. 모델 선택 (Model Selection) | 간단한 방법부터 시작해서 점차 복잡한 모델로 확장 |
4. 훈련 (Training) | 데이터로 모델을 훈련함 |
5. 배포 (Deployment) | 서비스로 사용 가능하게 모델 배포 |
6. 모니터링 & 평가 (Monitoring & Evaluation) | 모델의 정확도, 편향, 드리프트 감시. 필요시 다시 훈련 |
✅ 데이터를 어떻게 수집할지 결정하기
- 스트리밍 데이터: 실시간으로 계속 들어오는 데이터 (예: IoT 센서 데이터)
- 배치 데이터: 파일처럼 정해진 시간마다 수집하는 방식 (예: 일정 시간에 저장되는 csv 파일)
데이터를 수집하려면 보통 🔧ETL(Extract, Transform, Load) 과정이 필요하다.
- Extract: 데이터를 가져오고
- Transform: 데이터를 알맞게 변형하고
- Load: 저장소(예: S3 등)에 저장
👉 이 과정은 자동화되어야 한다. 모델은 지속적으로 재학습해야 하기 때문에
✅ 데이터 준비 (Preprocessing & Feature Engineering)
- EDA (탐색적 데이터 분석): 데이터를 시각화해서 전체 흐름을 파악한다
- 이상치, 결측치 처리: 잘못된 데이터를 제거하기 (PII(개인정보)는 꼭 제거하기)
- 데이터를 훈련에 맞게 정규화(Normalization), 인코딩(Encoding) 등을 조합해서 특징(Feature)을 만든다.
- 🎯 좋은 Feature는 모델 성능을 높여준다.
✅ 데이터 분할 (Train / Validation / Test)
- 훈련에 사용하는 데이터: Train (보통 80%)
- 중간 점검용 데이터: Validation (10%)
- 최종 테스트용 데이터: Test (10%)
이렇게 나누는 이유?
→ 모델이 과적합(overfitting) 되지 않도록 성능을 정확히 평가하기 위해!
✅ 데이터 준비(Data Preparation) AWS 서비스
AWS 서비스 | 설명 |
AWS Glue | 완전관리형 ETL 도구. 데이터를 추출→정제→S3에 저장. 자동으로 스키마 추출 가능 |
- Glue Data Catalog | 데이터 메타데이터 저장소 (데이터 위치, 형식, 테이블 정의) |
- Glue DataBrew | 시각적 데이터 정제 도구 (코딩 없이 클릭으로 정리 가능) |
SageMaker Ground Truth | 데이터 라벨링 자동화 도구 (사람 + AI 활용) |
SageMaker Canvas | 시각적으로 Feature Engineering 가능 (코딩 없이) |
SageMaker Feature Store | Feature를 재사용 가능하게 저장하는 중앙 저장소 |
반응형
'클라우드(AWS) > AIF-C01' 카테고리의 다른 글
[AWS] ML 효율성 측정 지표 (0) | 2025.04.24 |
---|---|
[AWS] 머신러닝 모델 학습 과정 (Hyperparameter Tuning) 쉽게 정리 (0) | 2025.04.23 |
RAG (Retrieval-Augmented Generation)란? 쉽게 정리 (0) | 2025.04.21 |
[AI🧠] 머신러닝 용어 쉽게 정리 (Overfitting:과적합, Underfitting:과소적합, Bias:편향) (0) | 2025.04.18 |
딥러닝(Deep Learning)이란? 쉽게 정리 (0) | 2025.04.15 |