3.5기(200104~)

3.5기 4팀 강화학습 스터디

KAU-Deeperent 2020. 2. 23. 21:35

20.02.20 홍대 커피빈

강화학습 스터디 진행 

 

1. 강화학습 온라인 강의 수강 후 질의 응답 (강의명 : Reinforcement Learning UCL, 강사 :  David silver)

 

1강 Introduction to Reinforcement Learning

 

강화학습에 대한 전반적인 설명과, 주로 사용되는 학습 용어의 소개

State, Action, Transition, Reward, Discount factor, Value function, Action value function, Policy 

 

2강 Markov Decision Processes

 

강화학습의 문제가 정의되는 Markov의 정의와 간단한 문제의 소개 

Markov Decision Processes는 줄여서 MDP로 표현한다.

MDP의 구성요소는 어떤 상태를 말하는 State, 그 state에서 취할 수 있는 Action, 하나의 action을 취한 이후 다른상태들로 도착할 확률 분포를 나타내는 Transition, 상태의 가치를 미래지향적으로 볼 것인지 가까운 상태를 중점으로 볼 것인지를 나타내는 요소인 Discount factor, 마지막으로 다른 state로 이동하거나 어떤 action을 취할 때 얻는 Reward, 이상 5가지로 표현한다.

여기서 Markov하다 란 이전 1스텝만으로 현재 상태를 표현하는것과 이전 모든 스텝으로 현재 상태를 표현하는것이 동일하다는 의미. 즉, 현재 상태가 History에 독립적인 것을 수학적으로 정의 한 것.

 

또한 Value function 은 현재 상태부터 episode 가 종료될 때 까지 얻을것으로 예상되는 Reward 의 합계

이것은 Bellman expectation equation으로 다르게 표현할 수 있다.

 

이 식에 따라 Value function은 다른 state로 이동하며 얻은 Reward와 그 다른 state의 Value function의 합으로 표현 할 수 있다.

 

3강 Planning by Dynamic Programming

 

Planning이란 위에서 말한 MDP를 푸는 것이며, 다르게 말하면 MDP에서 reward를 가장 많이 받을 수 있는 Optimal policy를 찾는 것이다.

이 장에선 MDP의 모든 구성요소가 fully observable 한 경우에서 Model based 방법을 통해 문제를 푸는 방법을 제시한다.

 

1. Value evaluation + Policy iteration

2. Value iteration

known MDP에 대해선 위 두 방법을 통하여 문제를 풀 수 있지만 이런 정의는 모든 State의 정보가 나타나 있는 경우 이므로 실제환경에 맞지 않는다.

4강부터는 3강에서 배운 문제를 푸는 두 방법을 응용하여, 좀더 실제환경에 맞는 문제를 풀기위한 방법을 배운다. 

 

2. 향후 프로젝트 목표와 프로젝트 계획과 적용이론의 상세 소개

       

구현 목표는 드론 자율 주행.

Lidar, GPS, gyro를 통한 센싱데이터와 목표지점의 좌표를 state로 표현.

드론 1 system좌표계의 X방향 속력과 드론의 Psi각속도를 action으로 취함

이 경우 State와 Action의 경우의 수가 무수히 많기 때문에 인공신경망으로 State와 action을 FC로 연결하여 Policy decent 방법을 적용할 것이다. 그 중에서도 Actor-Critic 을 사용하기 위해 강의 7강까지 수강하는 것을 목표로 할 것.

     

X1_dot과 Psi_dot가 결정되면 두 값을 드론의 입력값으로 하여 PID제어를 통해 각도제어, 모터 출력제어를 할 것입니다. 이 경우 실제 feedback loop를 제작해도 되지만 시중에 나와있는 드론엔 이미 구현이 되어있기 때문에 그대로 가져다 쓸것 같습니다.