Deeperent 153

3.5기 3팀 Optimizer

회의날짜 : 01/16 목요일 회의장소 : 능곡역 지노스카페 최적화란? 신경망 학습의 목적은 손실 함수의 값을 가능한 낮추는 매개변수 즉 가중치와 편향을 찾는 것 입니다. 이는 곧 매개변수의 최적값을 찾는 문제이며 이러한 문제를 푸는 것을 최적화라고 합니다. 경사하강법의 종류 전체 training set을 사용하는 것을 Batch Gradient Descent 라고 합니다. 그러나 이렇게 계산을 할 경우 한번 step 을 내딛을 때 전체 데이터에 대해 Loss Function을 계산해야 하므로 너무 많은 계산량이 필요하게 되고 이를 방지하기 위해 보통은 Stochastic Gradient Descent (SGD) 라는 방법을 사용합니다. 전체 데이터(batch) 대신 일부 조그마한 데이터의 모음(mini..

3.5기 3팀 ResNet

스터디일시 : 01/10 금요일 오후 6시 30분 스터디내용 : CNN 과 Fully Network Layer 의 차이점 s는 output featuremap을 의미하고 , x는 input featuremap을 의미한다. fully connected layer의 경우 input이 output featuremap의 픽셀값에 다 반영이 되지만, CNN의 경우 input의 일부만이 반영이 된다. CNN은 weight를 공유한다. 같은 색깔은 같은 weight를 의미한다. ResNet이 왜 나오게 되었는가? 층이 깊어질 수록 vanishing gradient 문제가 발생하여 성능이 오히려 저하된다. 이문제를 해결하기 위해서 기존의 layer를 파라미터 없이 연결하여 성능저하를 막는다. Residual Block..

강화학습 learning running 11월 13일

강화학습 learning running 11월 13일 이번 주 스터디 내용 : 1. RL policy based 강의 수강 및 실습 Policy decent로 policy 최적화 하는 방법에 대하여 수강하고 그 중 REINFORCE 알고리즘과 TD actor critic 예제를 cart pole에서 구현해 본 후, 어떤식으로 코드가 작동하는지 이해함. 2. RL 대신 PID를 이용한 cart pole control system 구현 cart pole 운동 해석 후 제어기를 설계하여,RL과 대비하여 어떤 장단점이 존재하는지 파악함 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ..