[논문리뷰]Back to Simplicity: How to Train Accurate BNNs from Scratch?

Back to Simplicity: How to Train Accurate BNNs from Scratch? author: Joseph Bethge∗, Haojin Yang∗, Marvin Bornstein, Christoph MeinelHasso Plattner Institute, University of Potsdam, Germany paper: https://arxiv.org/pdf/1906.08637.pdf code: https://github.com/hpi-xnor/BMXNet-v2 핵심정리: BNN을 train할 시에 어떠한 방법을 써야 Accuracy를 보존할 수 있을까? 에 대한 연구 Introduction 메모리 사용과 추론 속도를 높이기 위한 2가지 접근법이 존재 compact network…

더 보기

[잡담] 올해안에 블로그에 리뷰할 논문들.. (아키텍쳐)

ConvNet ImageNet top1 acc ImageNet top5 acc Published In Vgg 76.3 93.2 ICLR2015 GoogleNet – 93.33 CVPR2015 PReLU-nets – 95.06 ICCV2015 ResNet – 96.43 CVPR2015 PreActResNet 79.9 95.2 CVPR2016 Inceptionv3 82.8 96.42 CVPR2016 Inceptionv4 82.3 96.2 AAAI2016 Inception-ResNet-v2 82.4 96.3 AAAI2016 Inceptionv4 + Inception-ResNet-v2 83.5 96.92 AAAI2016 RiR – – ICLR Workshop2016 Stochastic Depth ResNet…

더 보기

[논문리뷰]PACT: PARAMETERIZED CLIPPING ACTIVATION FOR QUANTIZED NEURAL NETWORK

간단하게 이전에 읽은 논문 정리 아주 간단간단 논문은 링크에서 볼 수 있다. What? activation quantization을 accuracy degradation 없이하는 방법에 관한 논문이다. When? Training time How? activation quantization에 적합한 함수를 학습시점에 학습한다. Why? Quantization of weights is equivalent to discretizing the hypothesis space of the loss function with respect to the weight variables 결과 we achieve…

더 보기

[논문리뷰]Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

ICLR2018에 발표된 논문입니다. 이 논문은 분산 학습에서 gradient를 압축하여 보내어 통신 비용을 줄여 그 속도를 높이고자 하는 시도를 담은 논문입니다. 저자는 Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally입니다. 공개된 공식코드는 없으며 논문은 링크에서 확인 가능합니다. 들어가기 전에 Model Parallelism 모델이 하나의 디바이스에서 동작이 힘들시에 모델을 머신별로 짤라서 사용하는 방법(왼쪽) Data Parallelism…

더 보기

[논문리뷰]Lightweight Network Architecture for Real-Time Action Recognition 리뷰

인텔에서 발표한 Action Recognition 에 대한 논문 리뷰입니다. 특징을 요약하면 실시간 (대략 60fps) 실행이 가능하며 sota와 비교시에도 큰 성능 차가 나지 않는 성능을 보여주는  연산량이 적은 Action Recognition 네트워크 입니다. 공식 코드 공개 되어 있으며 링크에서 확인 가능합니다. 논문 또한 arxiv 에서 확인 가능합니다.    Action recognition 이란? Action recognition 은 video clips 에서각기다른행동을식별하는작업입니다. 왼쪽…

더 보기

Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Symmetric Skip Connections

denoising and superresolution 에 적용 가능한 모델 특징 symmetric convolution (convolution-deconvolution) encode-decode 구조 skip connections 을 이용 (U-Net구조) 더 깊은 모델을 생성 가능 구조  input image size 243×243 n개 layer 3×3 stride conv layer n개 deconv layer skip connection 학습 Adam 사용 lr 1e-4 50 × 50 patch Berkeley Segmentation Dataset (BSD)300 이미지를 사용denoise를 위해서는 gaussian…

더 보기

CNN 아키텍쳐 리뷰 (MobileNet)

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 4월에 발표된 모바일 플랫폼에서도 충분하게 활용할 수 있는 가벼운 CNN architecture이다. xception에서 depthwise Separable Convolution을 우리는 접하였다. 하지만 xception에서는 cross-channel correlations and spatial correlations 을 decouping 하기 위한 목적이었다면 mobilenet에서는 약간 다른 목적을 가지고 있다. (순서와 구현 또한 약한 차이가 존재한다) 목적은 무엇일까? CNN의 구조를 바꾸어 성능을 향상…

더 보기

CNN 아키텍쳐 리뷰 (AlexNet)

2012년 이미지넷 대회에서 gpu를 사용하여 괄목할 성과를 내서 CNN의 시대를 열어준 가장 유명한 네트워크 알렉스넷에 대해서 알아 보겠다. 알렉스넷이 이전의 네트워크와의 차이점을 가지는 점은 아래와 같다. Relu Function Momentum Function Trainging on Multiple GPUs(50x than cpu using GTX580x2) Local Normalization Response Normalization Data Augmentation Dropout  Overlapping Pooling Relu Function f(x) = max(0, x) 이 Relu function이다….

더 보기