1. 모바일 넷 (MobileNet)이란? 모바일 넷은 스마트폰 및 기타 모바일 장치와 같이 리소스가 제한된 환경에서 효율적인 계산을 위해 설계된 경량 심층신경망으로 2017년 구글에서 개발했다. 모바일 넷은 depth-wise convolutions을 기반으로 하는 새로운 아키텍처를 사용하여 기존의 CNN에 비해 매개변수 수와 계산 요구 사항을 크게 줄였습니다. 따라서 제한된 장치에 배포가 가능해졌습니다. 모바일 넷은 image classification, object detection, pose estimation, and semantic segmentation을 비롯한 다양한 컴퓨터 비전 작업에 널리 사용되고 있습니다. 2. Depth-wise Separable Convolutions Depth-w..
Abstract CNN을 이용하여 시공간 비디오를 학습하는 것은 어렵다. 몇몇 연구에서는 3D Convolution을 이용하여 비디오의 공간적 차원과 시간적 차원을 모두 학습할 수 있는 접근 방식이라는 것을 보여줬다. 그러나 3D CNN의 경우 네트워크가 깊으면 높은 계산 비용과 메모리가 발생한다. 이에 논문에서는 3D CNN에 기존 2D 네트워크에서 사용된 ResNet을 변형하여 사용한다. 본 논문에서는 3x3x3 Convolution을 대신하는 병렬 또는 cas-caded 방식으로 1x3x3 Convolution 층과 3x1x1 Convolution 층을 조합하여 feature map에 시간적 연결을 구축한다. 이때 저자는 한 가지의 방식을 제안하는 것이 아닌 residual learning fram..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. PASCAL VOC는 대표적인 Object Detection Dataset 중 하나이다. PASCAL Dataset은 기본적으로 홈페이지에서 다운로드 받을 수 있다. 하지만 Pytorch 등과 같이 코드를 통해 간단히 다운로드 받을 수 도 있다. 다운로드 홈페이지는 PASCAL VOC 공식 홈페이지에 접속하여 다운로드 받을 수 있으며 공식 홈페이지에 접속이 안된다면 PASCAL VOC Dataset Mirror 사이트에 방문하여 설치할 수 있다. PASCAL VOC Dataset의 구조는 아래와 같다. Object De..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. 기존의 CNN 모델들은 모두 입력 이미지가 고정된 크기(ex 224x 244)의 입력이 요구되었다. 때문에 신경망을 통과시키기 위해서는 이미지를 고정된 크기로 crop하거나 warp해야 했다. 이에 모델의 정확도가 하락하는 등 모델의 성능에 악영향을 미쳤다. 사실 Convoltuon filter들은 입력 이미지가 고정될 필요가 없다. sliding window 방식으로 작동하기 때문이다. 이미지 크기의 고정이 필요한 이유는 Fully connected layer가 고정된 크기의 입력을 받기 때문이다. 이에 저자는 원본 ..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. Yolo의 문제는 입력 이미지를 nxn 크기의 그리드로 나누고, 각 그리드 별로 Bounding box 예측을 진행하여 그리드 보다 크기가 작은 물체는 잡아내지 못하는 문제가 있다. 또한 신경망을 모두 통과하면서 Convolution과 pooling을 거쳐 coarse한 정보만 남은 마지막 단 feature map만 사용하기 때문에 정확도에 한계가 있다. 이에 SSD는 이전 네트워크의 장점을 모아 yolo의 한계점을 극복한다. 쉽게 이야기 하면 Fully convolutional Network에서 처럼 앞단 Convol..
Basic One-Stage-Detector와 Two-Stage-Detector [Posting] Fine Tuning [Posting] Network Gradient-Based Learning Applied to Document Recognition (LeNet) [Paper] [Posting] [Pytorch] ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) [Paper] [Posting] [Pytorch] Very Deep Convolutional Networks for Large-Scale Image Recognition (VGG) [paper] [Posting] [Pytorch] Going Deeper with ..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. R-CNN은 Image classification을 수행하는 CNN과 localization을 위한 regional proposal알고리즘이 결합된 regions-with-cnn의 약자로 이전의 최고 성능의 네트워크의 mAP보다 30% 높은 53.3%를 달성한 논문이다. object detection 분야에 새로운 방향성을 제시한 네트워크이다. R-CNN은 순차적으로 진행하는 대표적인 two-stage-detector로 딥러닝을 적용한 최초의 Object Detection모델이다. R-CNN은 두 가지 중요한 아이디어를..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. 이미지에 존재하는 다양한 Object를 인식하는 것은 Object Detection의 핵심적인 문제이다. 이전 네트워크에서는 다양한 크기의 물체를 탐지하기 위해 크기를 resize하며 물체를 찾았다. 이런 작업은 메모리와 시간적 측면에서 매우 비효울적이다. 이에 본 논문에서는 FPN을 통해 컴퓨팅 자원을 적게 차지하면서 다양한 크기의 객체를 인식하는 방법을 제안한다. Object Detection 분야에서 영향력이 큰 논문이다. Feature Pyramid FPN을 살펴보기 전에 기존의 모델들이 어떻게 생겼는지에 대한 ..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. Huma Pose Estimaion에서 사물 혹은 인물에 가려진 Key point, 보이지 않는 key point, 배경이 복잡하여 key point를 정확하게 검출할 수 없는 경우가 존재한다. 때문에 이 논문에서는 이러한 한계를 극복하기 위해 hard key points를 잘 검출하기 위한 CPN을 제안한다. 이 네트워크는 GlobalNet과 RefineNet 두 가지로 만들어졌다. GlobalNet은 feature pyramid network 기반으로 global한 특징을 잡아서 localize하는 네트워크이다. R..
☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. 본 논문에서는 이미지의 모든 scale에 대한 정보를 downsapmling과 upsampling과정을 이용하여 pixel-wise output을 생성하는 것을 목표로 한다. 또한 single hourglass를 확장하여 여러 hourglass module을 연속하여 결합한 stacked Hourglass Networks 구조를 소개한다. 이 구조는 여러 scale들에 대해 반복적인 bottom-up, top-down inference를 가능하게 한다. 이에 표준 pose estimation benchmarks에서 확연..