Related to: MLOps
MLOps(Machine Learning Operations)는 머신러닝 시스템의 개발(Development) 과 운영(Operations) 을 통합하여, 모델의 배포, 관리, 모니터링, 재학습을 지속적으로 수행할 수 있도록 하는 실무적인 방법론입니다. 이는 소프트웨어 엔지니어링에서의 DevOps 개념을 확장하여, 머신러닝의 불확실성과 반복적 개선 사이클을 다루는 운영 체계로 발전한 것입니다.
핵심 개념
MLOps란 무엇일까?

MLOps는 프로덕션에서 Machine Learning 모델을 안정적이고 효율적으로 배포하고 유지 관리하는 것을 목표로 하는 일련의 사례이며, 이 단어는 “기계 학습”과 DevOps의 합성어입니다.
MLOps를 통해 기업이 달성하고자 하는 목표
- 배포 및 자동화
- 모델 및 예측의 재현성
- 진단
- 거버넌스 및 규정 준수
- 확장성
- 협업
- 상업적 사용
- 모니터링 및 관리
ML Ops Component
What is MLOps? - Databricks
Back to glossary MLOps stands for Machine Learning Operations. https://www.databricks.com/glossary/mlops

등장 배경
전통적인 머신러닝 프로젝트는 다음과 같은 한계를 가졌습니다:
- 실험과 배포 환경 간의 차이
- 수동 프로세스에 의존하는 배포
- 재현성과 버전 관리 부족
- 성능 저하 시 대응 어려움
이를 해결하기 위해 MLOps는 모델을 프로덕션 환경에 신뢰성 있게 통합하고, 지속적인 품질 개선과 자동화된 재학습 루프를 도입합니다.
핵심 구성 요소
-
데이터 파이프라인 관리 데이터 수집 → 정제 → 피처 생성까지 자동화
-
모델 학습 파이프라인 실험 자동화, 하이퍼파라미터 튜닝, reproducibility
-
모델 배포 (Deployment) 서빙 인프라 구축 (REST API, gRPC, batch inference 등)
-
모델 모니터링 (Monitoring) 성능 추적, drift 감지, 로그 수집, 알림 시스템
-
자동 재학습 (Retraining) trigger-based 재학습 + 재배포 자동화
-
CI/CD 파이프라인 GitOps, 자동 테스트, 자동 배포 구성
MLOps의 레벨 구분 (Google 기준)
-
Level 0 - Manual Process
- 수동으로 데이터 준비, 학습, 배포
-
Level 1 - ML Pipeline Automation
- 학습과 배포를 자동화하되 실험 중심
-
Level 2 - CI/CD Automation
- 실험, 학습, 배포, 모니터링, 롤백 등 전체 라이프사이클 자동화
도구 예시
| 영역 | 대표 도구 |
|---|---|
| 실험 추적 | MLflow, Weights & Biases |
| 워크플로우 | Airflow, Kubeflow, Prefect |
| 서빙 | Triton, FastAPI, TorchServe, Seldon |
| 배포/인프라 | Docker, Kubernetes, Terraform, Karpenter |
| 모니터링 | Prometheus, Grafana, Evidently.ai |
MLOps가 해결하는 문제
- 실험 재현이 어려움 → 실험 추적, 버전 관리
- 모델 업데이트 누락 → CI/CD 기반 자동 배포
- 데이터/모델 drift → 지속적인 모니터링 및 alert
- 불완전한 협업 구조 → 데이터팀과 인프라팀 간 자동화된 인터페이스
MLOps 도입 시 고려사항
- 조직 내 ML 수준 (ML팀 성숙도)
- 인프라 복잡도 (클라우드, 온프레미스, 하이브리드)
- 도입 단계 분리 (실험 추적 → 배포 자동화 → 모니터링 순)
관련 개념
- MLOps란 무엇일까 - MLOps 개념 심화
- Machine Learning - MLOps의 기반이 되는 머신러닝
- MLflow - 기본 사용 - 실험 추적 도구 MLflow 사용법
- MLflow - Tracking Server Docker Image 만들기 - MLflow 서버 Docker 구성
- Docker - MLOps 인프라의 핵심 컨테이너 기술
- Kubernetes - MLOps 배포 인프라의 표준 플랫폼
- ONNX(Open Neural Network Exchange) - 모델 포맷 표준화
- ONNX-Runtime - 모델 서빙 엔진
참조
https://blogs.nvidia.com/blog/2020/09/03/what-is-mlops/ https://en.wikipedia.org/wiki/MLOps https://zzsza.github.io/mlops/2018/12/28/mlops/ https://zzsza.github.io/data/2018/01/28/hidden-technical-debt-in-maching-learni Week 8 https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning Machine Learning CD Model Deployment MLflow Kubernetes Data Engineering