Machine learning/CNN Network


1. 모바일 넷 (MobileNet)이란? 모바일 넷은 스마트폰 및 기타 모바일 장치와 같이 리소스가 제한된 환경에서 효율적인 계산을 위해 설계된 경량 심층신경망으로 2017년 구글에서 개발했다. 모바일 넷은 depth-wise convolutions을 기반으로 하는 새로운 아키텍처를 사용하여 기존의 CNN에 비해 매개변수 수와 계산 요구 사항을 크게 줄였습니다. 따라서 제한된 장치에 배포가 가능해졌습니다. 모바일 넷은 image classification, object detection, pose estimation, and semantic segmentation을 비롯한 다양한 컴퓨터 비전 작업에 널리 사용되고 있습니다. 2. Depth-wise Separable Convolutions Depth-w..


Abstract CNN을 이용하여 시공간 비디오를 학습하는 것은 어렵다. 몇몇 연구에서는 3D Convolution을 이용하여 비디오의 공간적 차원과 시간적 차원을 모두 학습할 수 있는 접근 방식이라는 것을 보여줬다. 그러나 3D CNN의 경우 네트워크가 깊으면 높은 계산 비용과 메모리가 발생한다. 이에 논문에서는 3D CNN에 기존 2D 네트워크에서 사용된 ResNet을 변형하여 사용한다. 본 논문에서는 3x3x3 Convolution을 대신하는 병렬 또는 cas-caded 방식으로 1x3x3 Convolution 층과 3x1x1 Convolution 층을 조합하여 feature map에 시간적 연결을 구축한다. 이때 저자는 한 가지의 방식을 제안하는 것이 아닌 residual learning fram..


☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. PASCAL VOC는 대표적인 Object Detection Dataset 중 하나이다. PASCAL Dataset은 기본적으로 홈페이지에서 다운로드 받을 수 있다. 하지만 Pytorch 등과 같이 코드를 통해 간단히 다운로드 받을 수 도 있다. 다운로드 홈페이지는 PASCAL VOC 공식 홈페이지에 접속하여 다운로드 받을 수 있으며 공식 홈페이지에 접속이 안된다면 PASCAL VOC Dataset Mirror 사이트에 방문하여 설치할 수 있다. PASCAL VOC Dataset의 구조는 아래와 같다. Object De..


☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. 기존의 CNN 모델들은 모두 입력 이미지가 고정된 크기(ex 224x 244)의 입력이 요구되었다. 때문에 신경망을 통과시키기 위해서는 이미지를 고정된 크기로 crop하거나 warp해야 했다. 이에 모델의 정확도가 하락하는 등 모델의 성능에 악영향을 미쳤다. 사실 Convoltuon filter들은 입력 이미지가 고정될 필요가 없다. sliding window 방식으로 작동하기 때문이다. 이미지 크기의 고정이 필요한 이유는 Fully connected layer가 고정된 크기의 입력을 받기 때문이다. 이에 저자는 원본 ..


☞ 문서의 내용은 가장 하단 참고문헌 및 사이트를 참고하여 필자가 보기 쉽도록 정리한 내용입니다. ☞ 틀린 내용 및 저작권 관련 문의가 있는 경우 문의하시면 수정 및 삭제 조치하겠습니다. Yolo의 문제는 입력 이미지를 nxn 크기의 그리드로 나누고, 각 그리드 별로 Bounding box 예측을 진행하여 그리드 보다 크기가 작은 물체는 잡아내지 못하는 문제가 있다. 또한 신경망을 모두 통과하면서 Convolution과 pooling을 거쳐 coarse한 정보만 남은 마지막 단 feature map만 사용하기 때문에 정확도에 한계가 있다. 이에 SSD는 이전 네트워크의 장점을 모아 yolo의 한계점을 극복한다. 쉽게 이야기 하면 Fully convolutional Network에서 처럼 앞단 Convol..