11/07 세미나 [Decoupled Neural Interfaces using Synthetic Gradients] & [Layer Nomalization]
장소
이번주 토요일 오후2시-4시 세미나 장소 공지
🌟코지모임공간 신촌점 10층 space 7 룸
🌟”2시” 입니다!!
질문
내용 중 답변 하지 못한 질문들
syntheic
기존 backprop은 없나?
리니어 함수가 경사를 어떻게 계산하는가
강화학습과 반대되는 알고리즘
Layer norm
배치 사이즈가1 =>분산0
리스케일링하는 부분이 변하지 않는다.
weight에서 g와 v가 무엇인지?
(6)번식
내용 요약
Decoupled Neural Interface using Synthetic gradients
신경망을 학습할 때에는 3가지 locking이 존재한다. Forward locking, update locking, backwards locking이 그것이다.
해당 논문에서는 이들을 해결할 수 있는 방법론을 제시하며, 특히 Update locking을 해결하는 것을 목표로 했다.
이들의 3가지 locking을 해결하면 분산 데이터 처리에 도움이 될 것이다.
위의 설명과 같이 역전파 시에 synthetic gradient를 사용하여 Loss를 근사하여 실제 Loss가 아님에도 사용할 수 있다고 주장한다. 따라서 Loss를 기다리지 않아도 역전파가 가능해진다.
실제로 어떻게 동작하는지 그래프를 통해서 보여주고 있다.
가장 간단한 순전파 모델을 이용하여 설명한 예시인데, 6페이지의 동작을 이어서 한다고 보면 된다.
RNN에서는 상호간 backprop이 존재하지 않는 Layer에서도 Synthetic Gradient를 사용하여 활용성을 높였다고 주장한다.
하지만 단순히 backprop이 되지 않는 구간을 잇는 것이 아닌, 다음 구간의 값까지 예상하는 synthetic gradient를 만들어 사용할 수 있다고 한다. 이렇게 미래의 gradient를 예상했을 시, 그 성능이 기존의 rnn보다 더 뛰어나다고 주장한다.
FCN, CNN에서 테스트를 진행했는데, 성능은 DNI를 사용했을때가 더 낮았다. 하지만 cDNI를 사용하니 거의 비슷한 성능을 보여주었다. 따라서 이렇게 분리된 네트워크로 분산 환경에서 더 빠르게 학습을 하면서도 정확도를 비슷하게 가져가는 이득을 볼 수 있다.
RNN에서는 더 긴 연속적인 입력에 대해서도 큰 성능향상(23times -> 67times)을 보여주었고, 이 뿐만 아니라 학습 속도 개선에도 도움이 됐다고 한다.
서로 주기가 다르고, 이들을 층을 쌓아 만든 네트워크에 대해서도 동작이 가능하였으며, Synthetic gradients를 사용하는 것이 2개의 층 모두에 도움이 됐다고 한다.
Forward까지 synthetic input 을 사용하므로써 과연 이게 작동이 될까 하는 실험을 해봤다고 한다.
그 결과는 성공적이었으며, 특히 cDNI 사용시 확률적으로 역전파가 안되는 상황에서도 상당히 Robust한 결과를 보여줬다고 한다.
따라서 이런 분리 신경망을 통해 더 빠른 순환 신경망 학습 및 분산 컴퓨팅 환경에서의 잇점을 모두 확인할 수 있었다고 한다.