강화학습 learning running 11월 13일
강화학습 learning running 11월 13일 이번 주 스터디 내용 : 1. RL policy based 강의 수강 및 실습 Policy decent로 policy 최적화 하는 방법에 대하여 수강하고 그 중 REINFORCE 알고리즘과 TD actor critic 예제를 cart pole에서 구현해 본 후, 어떤식으로 코드가 작동하는지 이해함. 2. RL 대신 PID를 이용한 cart pole control system 구현 cart pole 운동 해석 후 제어기를 설계하여,RL과 대비하여 어떤 장단점이 존재하는지 파악함 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ..