3.5기(200104~)/강화학습 7

강화학습팀 4월 25일 프로젝트 진행상황

발표자 : 김성훈 위 학습데이터는 이번 주에 제가 로컬로 4일정도 돌려서 얻은 결과 입니다. 에피소드는 50000개를 돌렸고, 한 에피소드당 트레인 에포크는 10번이라서 총 에포크는 500000입니다. 최초에 랜덤 폴리시인때는 -800정도의 스코어를 보였는데 이 정도 학습으로는 벽을 피하는 정도로만 보이고, 어떻게는 살아남는 쪽으로 학습된것 같습니다. 그래서 살아남는 동안 마이너스 리워드가 쌓여 익스플로레이션이 막 끝난 참에는 리워드가 -1000에서 -2000 정도를 보여줬습니다. 이 정도 에피소드를 진행하는데 4일이 걸려서, 빠른시일내에 코랩으로 옮겨서 GPU를 사용해야만 할 것 같습니다. 현재 드론에 입력되는 스테이트가 30개 인데, 다이나믹스를 업데이트하기 위해 모두 필요한 값이며, 간편성을 위해서..

강화학습 20.04.16 드론에이전트 & 학습환경 수정

스터디 : 20.04.16 행아웃 작성자 : 김성훈 기존 드론 환경 수정 : 이전에 작성했던 환경은 discrete action에 마추어 구성되어있었다. 이번 주차에 DDPG 알고리즘을 도입하며, contineous action에 걸맞게 Environment step을 수정하게 되었다. 또한 이전엔 드론 시뮬레이션을 나이브한 방식으로 표현했었는에 마침 환경을 수정하게 되어, 드론 시뮬레이션의 퀄리티도 상당부분 손보게 되었다. 우선 기존엔 드론은 앞으로만 나가알 수 있었기에 라이다센서를 전방에만 배치했는데, 이제부턴 드론의 앞뒤 구분을 없애어 90도 간격으로 라이더를 결합한 형태로 수정하였다. 그리고 액션의 종류와 액션을 통한 다이나믹스를 변경하였다. 실제 드론은 위치이동을 하기위해선 inner contr..

강화학습팀 20.04.11 DDPG

발표자 : 김성훈 스터디 : 20.04.09 상암 탐앤탐스 DDPG 논문리딩 강화학습에서 커리큘럼 순서상 여러가지 기준을 세워 나눈다면 다음과 같다, 1단계는 Model based 방법으로 모든 MDP의 정보가 알려져 있을 때 모든 정보를 한번에 업데이트하는 DP에 대한 방법들이다. 2단계는 unknown MDP. 즉 model free 방법으로 finite state, finite action을 대상으로하는 policy iteration과 value interation 까지 배우게 된다. 마지막으로 state의 개수가 무한한 경우를 처리하기 위하여 인공신경망을 접목한 것부터 시작하여, low dimension action을 처리하는 DQN, high dimension action까지 확장한 Policy..

강화학습 4주차 Actor-Critic 개념과 Agent 코드

작성자: 김종헌 회의: 2020-03-26 (상암 탐앤탐스) Actor-Critic은 그 명칭에 걸맞도록 Actor와 Critic에 해당하는 학습의 대상이 각각 하나씩 총 2개의 학습 시킬 대상이 있다. Action-value function의 parameter인 w를 업데이트하는 것을 Actor의 영역, policy parameter인 θ를 업데이트하는 것을 Critic의 영역으로 생각할 수 있다. 위 식과 같이 π가 학습되면 그에 상응하는 평가를 Q가 내리고 결국 Q가 학습되어 π는 그 값을 통해 학습할 수 있다. 이같이 평가와 개선을 아래 모형같이 반복하게 된다. Monte-Carlo, TD, TD(lambda)등 원하는 policy evaluation을 통해 Q를 학습시키고, policy-grad..

3주차 강화학습 전반적인 개념정리 및 Project 드론 환경 분석

작성자: 정성헌 강화학습의 전반적인 이해를 돕기 위해 용어 정리와 쓰임에 대해 설명한다. 수식이 나오는 원리, 적용되는 원리와 같은 수학적인 부분보다는 개념적인 부분에 대해 설명한다. 강화학습의 목표는 episode가 끝날때 까지 reward를 받는양이 최대가 되는 policy(행동규칙)을 만드는 것이 목표다. 강화학습의 개념에 들어가기 앞서 필요 용어부터 정리해야한다. • Observation : Environment에서 받아서 State를 설명할 수 있는 정보 O_t • Action : State를 보고 Agent가 Policy를 따라 선택하여 행하는 행위 A_t • Reward : action에 대한 scaler feedback sign R_t • State : O_t, A_t, R_t 들이 모여 ..

20.03.13 강화학습 1팀 스터티 / DQN agent 소개

발표자 : 김성훈 DQN은 Deep Q network의 약자로서 강화학습에서 상당히 큰 의미를 가지고 있는 개념이다. 이 논문은 2015년도에 등재되었다. 이전엔 RL에 DNN는 사용되지 않고, 오로지 룩업테이블이나 리니어 피쳐를 활용한 구조가 사용되었다. 그 이유는 뉴럴넷과 같은 비선형모델은 강화학습을 불안정하게 만드는 것 뿐만 아니라 종종 학습을 발산시키게 된다. 그러던중 deep mind 에서 연구한 DQN은 DNN에 RL을 접목시켜 사람 수준의 제어를 가능케 하는 2가지 학습 테크닉을 도입하였다. 앞으로 소개할 개념은 deep RL 에서 대부분 사용되며, 강화학습을 공부한다면 필수적으로 알고 있어야할 것이다. DQN에서 사용한 학습 대상은 아타리 게임이다. 게임 화면의 RGB채널을 input으로 ..

Model free Prediction/Control

MDP의 모든 요소(state, tansition probability, reward, discount factor, action)들을 다 알고 있을 때 dynamic programming을 사용하여 optimal value function과 policy를 구했었다. MDP에서 transition matrix를 모르는 상태, 즉 Model free한 상황에서 agent가 value와 policy를 어떻게 학습시킬 수 있을까? 2가지 모델을 통해 그 방법을 자세히 알아보도록 하겠다. 1.Monte Carlo(MC) 1)Prediction -MC prediction에서는 agent가 model free한 상황, 즉 transition probability를 모르는 상황에서 value function 값을 구..