Related to: MLOps

MLOps(Machine Learning Operations)는 머신러닝 시스템의 개발(Development)운영(Operations) 을 통합하여, 모델의 배포, 관리, 모니터링, 재학습을 지속적으로 수행할 수 있도록 하는 실무적인 방법론입니다. 이는 소프트웨어 엔지니어링에서의 DevOps 개념을 확장하여, 머신러닝의 불확실성과 반복적 개선 사이클을 다루는 운영 체계로 발전한 것입니다.

핵심 개념

MLOps란 무엇일까?

Untitled 28.png

MLOps는 프로덕션에서 Machine Learning 모델을 안정적이고 효율적으로 배포하고 유지 관리하는 것을 목표로 하는 일련의 사례이며, 이 단어는 “기계 학습”과 DevOps의 합성어입니다.

MLOps를 통해 기업이 달성하고자 하는 목표

  • 배포 및 자동화
  • 모델 및 예측의 재현성
  • 진단
  • 거버넌스 및 규정 준수
  • 확장성
  • 협업
  • 상업적 사용
  • 모니터링 및 관리

ML Ops Component

What is MLOps? - Databricks

Back to glossary MLOps stands for Machine Learning Operations. https://www.databricks.com/glossary/mlops

Untitled 1 22.png

등장 배경

전통적인 머신러닝 프로젝트는 다음과 같은 한계를 가졌습니다:

  • 실험과 배포 환경 간의 차이
  • 수동 프로세스에 의존하는 배포
  • 재현성과 버전 관리 부족
  • 성능 저하 시 대응 어려움

이를 해결하기 위해 MLOps는 모델을 프로덕션 환경에 신뢰성 있게 통합하고, 지속적인 품질 개선과 자동화된 재학습 루프를 도입합니다.

핵심 구성 요소

  • 데이터 파이프라인 관리 데이터 수집 → 정제 → 피처 생성까지 자동화

  • 모델 학습 파이프라인 실험 자동화, 하이퍼파라미터 튜닝, reproducibility

  • 모델 배포 (Deployment) 서빙 인프라 구축 (REST API, gRPC, batch inference 등)

  • 모델 모니터링 (Monitoring) 성능 추적, drift 감지, 로그 수집, 알림 시스템

  • 자동 재학습 (Retraining) trigger-based 재학습 + 재배포 자동화

  • CI/CD 파이프라인 GitOps, 자동 테스트, 자동 배포 구성

MLOps의 레벨 구분 (Google 기준)

  1. Level 0 - Manual Process

    • 수동으로 데이터 준비, 학습, 배포
  2. Level 1 - ML Pipeline Automation

    • 학습과 배포를 자동화하되 실험 중심
  3. Level 2 - CI/CD Automation

    • 실험, 학습, 배포, 모니터링, 롤백 등 전체 라이프사이클 자동화

도구 예시

영역대표 도구
실험 추적MLflow, Weights & Biases
워크플로우Airflow, Kubeflow, Prefect
서빙Triton, FastAPI, TorchServe, Seldon
배포/인프라Docker, Kubernetes, Terraform, Karpenter
모니터링Prometheus, Grafana, Evidently.ai

MLOps가 해결하는 문제

  • 실험 재현이 어려움 → 실험 추적, 버전 관리
  • 모델 업데이트 누락 → CI/CD 기반 자동 배포
  • 데이터/모델 drift → 지속적인 모니터링 및 alert
  • 불완전한 협업 구조 → 데이터팀과 인프라팀 간 자동화된 인터페이스

MLOps 도입 시 고려사항

  • 조직 내 ML 수준 (ML팀 성숙도)
  • 인프라 복잡도 (클라우드, 온프레미스, 하이브리드)
  • 도입 단계 분리 (실험 추적 → 배포 자동화 → 모니터링 순)

관련 개념

참조

https://blogs.nvidia.com/blog/2020/09/03/what-is-mlops/ https://en.wikipedia.org/wiki/MLOps https://zzsza.github.io/mlops/2018/12/28/mlops/ https://zzsza.github.io/data/2018/01/28/hidden-technical-debt-in-maching-learni Week 8 https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning Machine Learning CD Model Deployment MLflow Kubernetes Data Engineering