☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다.
☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다.
Huma Pose Estimaion에서 사물 혹은 인물에 가려진 Key point, 보이지 않는 key point, 배경이 복잡하여 key point를 정확하게 검출할 수 없는 경우가 존재한다. 때문에 이 논문에서는 이러한 한계를 극복하기 위해 hard key points를 잘 검출하기 위한 CPN을 제안한다. 이 네트워크는 GlobalNet과 RefineNet 두 가지로 만들어졌다. GlobalNet은 feature pyramid network 기반으로 global한 특징을 잡아서 localize하는 네트워크이다. Refine Net은 앞단 GlobalNet에서 localize 시키지 못한 hard keypoint를 hard key point mining loss를 이용하여 localize 하는 네트워크이다.
Cascaded pyramid network
1) Human Detector
Base Object Detector는 FPN(Feature Pyramid Network)이다. 여기에 ROI pooling을 Mask R-CNN의 ROI-Align으로 바꿨다. 그리고 COCO datset을 사용했다.
2) GlobalNet
Global Net은 ResNet기반의 Architecture이다. 때문에 다양한 resolution에서의 Feature map을 얻을 수 있으며, 각 Feature map에 3x3 convolution filter를 이용하여 key point의 heat map을 얻을 수 있다. 하지만 다음과 같은 방식을 이용하면 FPN에서 발생했던 낮은 resoltuon의 feature map과 높은 resolution의 feature map에서 trade off가 발생한다. 때문에 FPN과 똑같이 U자 모양의 구조를 도입해서 Upsampling할때 1x1 convolution으로 채널 수를 맞춰주고 element-wise로 더하는 과정을 진행한다.
3) RefineNet
GlobalNet이 만들어낸 Featrue pyramid에 RefineNet을 붙였다. RefineNet에서는 단순히 모든 pyramid feature를 다 concat한다. 학습이 진행되면 네트워크는 Simple Keypoint에 더 집중하고 Hard Keypoint를 무시하는 경향을 보인다. 이에 두 가지 종류의 Key point의 균형을 맞추도록 online hard keypoint mining을 이용해 hard key point를 학습하도록 하였다.
참고문헌