객체 탐지(Object Detection): 개념과 주요 모델

객체 탐지(Object Detection) 개요

컴퓨터 비전 분야(Computer Vision, CV)의 기술 중 하나인 객체 탐지(Object Detection)는 이미지나 비디오에서 특정 객체를 인식하고, 해당 객체의 위치를 바운딩 박스(bounding box)로 표시하는 기술이다. 어떤 객체가 이미지 내에 어디에 있는지를 정확하게 찾아내는 것이 목표이다. 이는 이미지 분할(Image Segmentation)보다 낮은 픽셀 단위의 정보가 요구된다. 이 기술은 자율주행, 의료 영상 분석, 스마트 농업 등 다양한 분야에서 활용되고 있다.

딥러닝 객체 탐지 모델: YOLO(You Only Look Once)

YOLO(You Only Look Once)는 객체 탐지 모델 중 가장 널리 사용되는 모델 중 하나로, 단 한 번의 처리로 객체를 탐지할 수 있다. 이미지 내에서 모든 객체를 한 번에 처리하기 때문에 빠른 속도로 결과를 얻을 수 있다. 입력 이미지를 받아 End-to-End 방식으로 학습하며, 별도의 단게 없이 객체의 클래스와 위치를 동시에 예측한다. 여러 크기의 객체를 효과적으로 탐지하도록 네트워크 구조를 최적화하였다.

객체 탐지 모델 평가 지표

객체 탐지에서는 탐지된 객체의 위치와 클래스가 정확한지를 평가하는 지표가 중요하다. 주요 지표로는 정밀도와 재현율, 그리고 mAP(Mean Average Precision) 등이 있다.

1. 정밀도(Precision) & 재현율(Recall)

정밀도(Precision)는 모델이 예측한 객체 중 실제로 정답인 비율을 나타낸다. 재현율(Recall)은 실제 객체 중 모델이 정확하게 예측한 비율을 나타낸다. 두 지표는 서로 상호 보완적이기 때문에 동시에 높일 수는 없다. 정밀도 또는 재현율을 높이기 위해서는 임계값(Confidence threshold)을 조절해야 한다. 임계값을 높이면 높은 신뢰도 점수를 가진 탐지만을 선택하게 되어 정확한 탐지만 허용하므로 정밀도는 높아진다. 그리고, 모델이 탐지하지 않는 경우가 많아지므로, 실제 객체 중 탐지하지 못하는 경우가 많아져 재현율은 감소한다. 임계값을 낮추면 낮은 신뢰도 점수의 탐지까지 포함하므로 더 많은 객체를 탐지해 재현율이 높아진다. 그리고, 낮은 신뢰도 점수를 가진 탐지가 포함되면서 잘못된 탐지도 늘어날 수 있어 정밀도가 낮아질 수 있다. 두 지표의 조합은 모델이 실제 객체를 얼마나 잘 탐지하면서도 잘못된 예측을 줄이는지 평가하는 데 유용하다.

2. mAP(Mean Average Precision)

mAP는 정밀도-재현율(PR) 곡선 아래 면적의 평균 값을 구한다. AP(Average Precision)은 각 클래스마다 정밀도와 재현율을 바탕으로 계산된 값이며, mAP는 모든 클래스에 대해 AP의 평균을 계산한 것이다. 이 값이 높을수록 모델의 성능이 우수하다는 것이다.

객체 탐지 적용 예시

자율 주행: 자동차 및 보행자 같은 객체를 인식한다.
의료 영상: 의료 이미지에서 질병의 생리적 지표를 식별한다.
보안 및 감시: CCTV 영상에서 의심스러운 행동을 탐지한다.
스마트 농업: 작물과 잡초를 탐지한다.