Yolo v1(You Only Look Once)

Untitled 64.png

Yolo v1은 GoogLeNet의 변형 구조로, Region Proposal 단계가 없는 최초의 1 Stage Detector입니다. Yolo는 이미지의 Bbox와 Classification을 동시에 예측하는 방식을 사용합니다.

Untitled 1 47.png

Yolo v1 Inference

Yolo v1은 아래 순서로 Inference 됩니다.

입력 이미지를 SxS 그리드 영역으로 나누기
1. 논문 : 7x7 사용
  1. 총 grid 수 : 49
각 그리드 영역마다 B개의 Bounding box와 Confidence score 계산
1. 논문 : B=2 사용
  1. 5개 : 1번 Bonding Box 정보(center x, center y, width, height, confidence score)
  2. 5개 : 2번 Bonding Box 정보(center x, center y, width, height, confidence score)
2. Confidence = Pr(Object) x IOU(truth;pred)
각 그리드 영역마다 C개의 Class에 대한 확률 계산
1. 논문 : C=20
2. Conditional class probability = Pr(Class_i | Object)
Score Thresholding
1. 너무 작은 Score는 0으로 Drop
Sort Descending
1. 내림차순으로 정렬
NMS

네트워크에서 생성되는 총 Bounding Box의 수는 SxSxB = 7x7x2 = 98개 입니다. 그리고 각 Bounding Box는 5개의 차원을 갖습니다. BBox의 차원이 C+5가 아니라 5인 이유는 Yolo에서는 BBox 별로 Class를 예측하지 않고 Grid의 Class를 예측하기 때문입니다.

따라서 Inference 되는 결과 Vector의 차원은 아래와 같습니다.

$M o d e l_{yo l o 1} (x) = y_{p re d} \in R^{S \times S \times (5 B + C)} S \times S \times (5 B + C) = 7 \times 7 \times (10 + 20)$

Yolo v1 장점 vs 단점

장점

Faster R-CNN에 비해 6배 빠른 속도
다른 real-time detector에 비해 2배 높은 정확도
물체의 일반화된 표현을 학습(학습하지 않은 다른 도메인의 이미지에서도 좋은 성능을 보임)

단점

Grid 보다 작은 크기의 물체 검출 불가능
마지막 feature만을 사용

Yolo History(v1~v5)

Yolo v1은 Region Proposal Network(RPN)을 사용하지 않고, 이미지의 전체를 한 번에 처리하기 때문에 다른 모델에 비해 속도가 빠르고, 정확도도 높은 편입니다. 이후 Yolo v2, v3, v4, v5 등의 버전이 출시되면서 기능과 성능이 계속해서 개선되고 있습니다.

Yolo v2부터는 batch normalization과 다양한 기법들이 도입되어 정확도와 신뢰성이 향상되었습니다.

Yolo v3부터는 multi-scale feature maps를 사용하여 더 다양한 크기의 물체들을 인식할 수 있게 되었습니다.

Yolo v4에서는 최신 딥러닝 기술인 BagOf Freebies(BOF)와 Bag of Specials(BOS) 를 사용하여 정확도와 속도가 한층 높아졌습니다.

Yolo v5에서는 크기별로 모델 구성이 가능해져서 다양한 하드웨어에서 유연하게 사용할 수 있게 되었습니다. Yolo는 높은 속도와 정확도를 보장하면서도 단일 네트워크에서 객체 검출 및 분류를 수행할 수 있어서, 실시간 영상 처리나 자율주행 자동차 등에 널리 사용되고 있습니다.

v1 : 이미지의 Bbox와 Classification을 동시에 예측하는 1 Stage Detector 등장
v2 : 빠르고 강력하고 더 좋게 향상
v3 : multi-scale feature maps 사용
v4 : 최신 딥러닝 기술(BagOf Freebies=BOF, Bag of Specials=BOS) 사용
v5 : 크기별로 모델 구성(Small, Medium, Lage, Xlarge)

Yolo Loss Function

Untitled 2 31.png

참조

You Only Look Once: Unified, Real-Time Object Detection

We present YOLO, a new approach to object detection.
https://arxiv.org/abs/1506.02640

Week 10

https://velog.io/@skhim520/YOLO-v1-논문-리뷰-및-코드-구현

HSV

Explorer

Yolo v1(You Only Look Once)