주제변경
1주동안 팀워들끼리 고민한 결과, 수치예측은 상당히 어려운 주제라 생각되어 자율주행 자동차로 주제를 바꿨다(근데 주식보다 어려워진 느낌...). 저번학기 드론 주행의 연장선상이라 생각하면 될 것 같다.
훈련환경
아무 훈련 없이 바로 모델을 훈련시키는 것은 너무 어려울 것 같아, Airsim에서 Pre-training이후 실제 모델을 제작할 것 같다. 라즈베리파이를 통해 이미지 인식과 강화학습 에이전트를 돌리게 될텐데, 실제 라즈베리파이의 연산이 부족하지 않을지 염려스러운 부분도 있다. 다만 이부분은 실제로 해봐야 아는 부분이라 일단 프로젝트는 진행하기로 했다.
사용할 알고리즘
-DQN
-Stereo RCNN
구글 딥마인드가 개발한 알고리즘으로 해당 알고리즘의 논문을 바탕으로 간략하게 설명해보자면 강화학습 가능한 심층 신경망을 이용하여 아타리2600 게임들을 스스로 학습하여 플레이할 수 있는 인공지능이다.
High dimensional data를 입으로 받아 고득점을 내는 것을 목표로 설정하고 플레이하도록 놔두면 스스로 게임에서 고득점을 내는 방법을 이해하고 목표를 달성한다.
(왼쪽그림) 논문에서는 심층망을 평가하기 위해 t-SNE라는 방법을 사용해 심층강화 학습이 잘 동작하는지 검증하였다.
그림에서 점들은 DQN representation이고 각 점별로 게임화면 창이 보여지는데 점과 점 사이가 가까울수록 화면도 유사한 것을 알 수 있다는 점에서 심층강화학습이 상황에 대해서 군집화를 이루면서 학습하는 것을 찾아낼 수 있다.
(오른쪽 그림) 이 그림은 프레임 변화에 따른 Q value를 보이는 그림이다. 벽돌깨기 게임에서 공이 벽돌과 가까이 있거나 많은 벽돌을 깰 수있는 상황에 놓이면 높은 Q value를 부여받는다. 아래 그래프는 심층 강화학습이 얼마나 잘 학습되었나를 보여준다.
3D object detection은 Lidar에 의존하는데 cost가 높고 낮은 지각 범위와 밀도가 낮은 정보를 갖는다는 단점이 있다.
Stereo RCNN은 이러한 단점들이 개선된 모델로써 스테레오 이미지에서 희소성, 밀도, 기하학적 정보를 완전히 활용한 자율주행을 위한 3D 객체 검출 방법을 제안한다.
해당 알고리즘은 왼쪽 오른쪽 이미지에서 객체를 동시에 검출하여 stereo region proposal network를 추가하여 희소한 특징과 시점 및 객체 차원을 예측하고 왼-오 이미지 박스를 결합하여 한개의 3D 객체 바운딩 박스를 계산한다. 다음으로 왼-오 관심 영역을 사용하여 영역 기반 photometric alignment로 3D 바운딩 박스를 보정한다.
이 방법은 깊이 정보나 3D 위치 정보가 필요하지 않지만 기존의 supervised 이미지 기반 방법의 성능을 능가한다.
'4기(20200711) > 강화학습' 카테고리의 다른 글
DDPG 코드 리딩 (0) | 2020.08.07 |
---|---|
자율주행 가상환경과 Architecture (1) | 2020.07.31 |
강화학습과 RNN을 이용한 주식 프로그램 개요 (0) | 2020.07.17 |