AWS Inferentia2 PoC

소속: 4by4 Inc. · Pixell Lab 역할: ML Engineer 기간: 2024.03 – 2024.04 산업 도메인: 미디어 AI SaaS (Video Enhancement)

Situation

PMS 운영에서 AWS GPU 인스턴스 비용이 서비스 단가에 매우 큰 영향을 미치고 있었다. GPU 비용을 절감할 수 있는 방안을 모색하던 중, AWS로부터 크레딧을 지원받으면서 AWS Inferentia2(NPU) PoC를 진행하게 되었다.

이전에 Furiosa NPU를 경험했을 때 INT8 변환이 필수였기 때문에 결과물에 열화가 발생하는 한계가 있었는데, Inferentia2는 이러한 제약이 없다는 점이 검토의 주요 동기 중 하나였다.

Task

팀 구성: ML Engineer 1명(본인)
담당 영역:
- PyTorch 모델을 AWS Neuron SDK를 통해 Inferentia2 모델로 변환
- NPU 코어(12코어) 전체 활용 추론 파이프라인 구성
- 인스턴스 구성별 FPS 및 비용($/frame, 시간당) 정량 분석
- GPU 대비 비용 효율성 평가 및 프로덕션 투입 가능성 판단
목표: Inferentia2의 SharpClear 모델 실시간 추론(FHD 30fps) 가능 여부 및 GPU 대비 비용 효율성 검증

Action

기술 스택

분류	기술
Language	Python
Model Conversion	AWS Neuron SDK (TorchScript 기반)
Instance	AWS inf2.48xlarge

핵심 구현 사례

1. PyTorch → Neuron 모델 변환

Inferentia2는 ONNX를 거치지 않고 TorchScript 기반으로 모델을 변환하는 방식을 사용한다. AWS Neuron SDK를 활용하여 SharpClear 모델을 변환했으며, 변환 과정에서 큰 기술적 챌린지는 없었다.

2. 12코어 전체 활용 추론 파이프라인 구성 및 성능 분석

구현: inf2.48xlarge의 12개 NeuronCore를 모두 활용할 수 있도록 추론 파이프라인을 구성했다. FHD 이미지 기준 처리량을 측정한 결과, SharpClear 모델 기준으로 **NPU 사용률 98~100%**를 달성하며 실시간 추론(30fps)이 가능함을 확인했다.

비용 분석: GPU 인스턴스 대비 비용을 $/frame 및 시간당 비용 기준으로 정량 비교한 결과, Inferentia2가 GPU 대비 약 20% 비용 절감 효과가 있다는 결론을 도출했다.

3. 프로덕션 투입 가능성 평가

결론: 프로덕션 미투입.

성능과 비용 면에서는 긍정적이었으나, 프로덕션 투입의 핵심 요소인 인스턴스 프로비저닝 가용성에 문제가 있었다. inf2.48xlarge를 한 자리 수조차 프로비저닝하기 어려운 수준이었다. 실제 사용량이 적어 AWS에서도 인프라를 충분히 확충하지 않은 것으로 추측되었으며, 대량 비디오 처리 시 필요한 수십 대 규모의 스케일아웃이 불가능하다고 판단했다.

Result

기술 성과

PyTorch → Neuron(TorchScript 기반) 모델 변환 완료
NPU 사용률 98~100% 달성
SharpClear 모델 기준 FHD 실시간 추론(30fps) 가능 확인
GPU 대비 약 20% 비용 절감 효과 확인
프로비저닝 가용성 한계로 프로덕션 미투입 결정

비즈니스 임팩트

NPU 기반 비용 절감 가능성을 정량적으로 검증, 향후 인프라 전략 수립의 기초 데이터 확보

회고

잘한 점

1인 단기(약 1개월) PoC로 성능과 비용을 정량적으로 분석하여 명확한 의사결정 근거를 제시했다. 12코어 전체를 활용하는 파이프라인을 구성하여 NPU 사용률 98~100%를 달성한 것은 하드웨어 자원을 최대한 활용하는 파이프라인 설계 역량을 보여주었다.

아쉬운 점 / 다시 한다면

성능과 비용 면에서 긍정적인 결과였음에도, 프로비저닝 가용성이라는 외부 요인으로 프로덕션에 투입하지 못한 것이 아쉽다. 또한 AWS가 제공하는 전용 AMI와 커스터마이즈된 PyTorch를 사용해야 한다는 점은 기존 파이프라인과의 호환성 유지에 부담이 되는 요소였다.

배운 점

NPU 기술 선택 시 순수 성능/비용 외에 프로비저닝 가용성, 에코시스템 호환성(전용 AMI, 커스텀 프레임워크 의존성)까지 종합적으로 평가해야 한다는 것을 배웠다. Furiosa NPU(INT8 필수로 인한 열화)와 Inferentia2(프로비저닝 가용성 부족)를 모두 경험하면서, GPU 대안 기술은 성능뿐 아니라 운영 현실성까지 고려해야 프로덕션에 적용할 수 있다는 것을 체감했다.

HSV

Explorer