YOLO 모델 학습 결과 비교 기준과 효율적 평가 방법에 관한 고찰

YOLO 모델 학습을 진행하며 데이터셋 증강, 배치 구성 등의 변수 조작 후 학습 결과 비교를 위한 연구는 매우 중요한 과정입니다. 특히, 논문 작성 시 수정이 가해지지 않은 기본 상태와 고안한 방법을 적용한 상태의 학습 결과를 비교할 때 어떤 모델 파일을 기준으로 할지 고민하는 경우가 많습니다.
YOLO 학습을 400 epoch로 설정할 경우, 일반적으로 두 가지 주요 모델이 저장됩니다:
- best.pt: 학습 도중 최고 성능(예: mAP, validation loss 기준)을 기록한 시점의 모델
- last.pt: 학습이 모든 epoch (여기서는 400회) 종료 후 최종적으로 저장된 모델
이 중 무엇을 논문에서 결과 비교 시 기준으로 삼을지 결정할 때 다음 사항을 고려해야 합니다.
1. best.pt 선택의 의미와 장점
- Validation 기반 최적 성능 모델: 모델이 가장 좋은 성능을 낸 시점의 파라미터를 저장하므로, 최적 성능 결과를 논문 주요 결과로 제시 가능
- 과적합 방지: 일반적으로 validation loss 또는 mAP 기준으로 선택하기 때문에, 과적합 발생 전 최적 상태를 반영
- 현실적 모델 사용 가능성: 실제 서비스나 추론 시에는 보통 best.pt를 사용하여 성능 극대화
2. last.pt 선택의 의미와 단점
- 최종 epoch 모델: 일정 에폭 수를 끝까지 학습한 결과, 항상 최고 성능 보장 X
- 과적합 문제 가능성: 특별한 early stopping 기법 없을 경우, 오히려 성능 악화 혹은 불안정성이 존재할 수 있음
- 학습법 평가 불리: 상대적으로 학습법 개선 효과를 비교하기에 부적절
YOLO뿐만 아니라 딥러닝 모델 학습에서는 validation set에 기반한 early stopping이나 best 모델을 저장하여, 비교 성과 제시 시 best.pt를 사용하는 것이 일반적입니다. 이는 실험 조건 외에 학습 기간(epoch 수)을 동일하게 맞춘 상태에서, 최적화된 모델의 성능을 비교하는 것이므로 공정성을 유지하는 데 유리합니다.
만약 early stopping같은 기법을 도입하지 않는다면, 마지막 epoch까지 학습한 last.pt의 성능이 best.pt보다 낮을 가능성이 높아지므로 이를 기준으로 한 비교는 오히려 수정한 학습 방법의 이점을 정확히 반영하지 못합니다. 따라서 논문 작성 시에는 best.pt를 기준으로 모델 성능을 보고, 필요시 last.pt 성능도 부가적인 참고 자료로 제공하는 방안이 권장됩니다.
추가 팁
- 모델 성능 평가는 YOLO의 mAP(mean Average Precision)을 주 지표로 사용하며, 성능 비교에 충분한 validation 데이터를 갖추어야 합니다.[3]
- 데이터 증강이나 배치 구성 등의 변경 사항이 비교 대상이라면, 모든 실험을 동일한 조건(예: seed 초기화, 학습 데이터 셔플, 하드웨어 환경)에서 반복해 공정성을 확보해야 합니다.
- 논문 작성 시에는 실험 조건을 명확히 기재하고, best.pt 및 last.pt 결과 모두를 표나 그래프로 제시하는 것도 독자 이해를 돕는 좋은 방법입니다.
요약하자면, YOLO 및 일반 딥러닝 학습에서는 보통 validation 기준 최고 성능 모델(best.pt)을 사용해 결과를 비교하는 것이 표준적이고 신뢰할 만한 방법입니다. 이를 기반으로 연구 결과를 발표하면, 여러분의 실험 설계 및 성능 개선이 객관적으로 잘 드러날 것입니다.