4기(20200711)/강화학습 4

DDPG 코드 리딩

-발표자 조민성 이론 이미 지난 학기에 DDPG 이론관련하여 블로그에 써놓은 글이 있어, 해당 글을 첨부한다. https://kau-deeperent.tistory.com/68?category=846170 강화학습팀 20.04.11 DDPG 발표자 : 김성훈 스터디 : 20.04.09 상암 탐앤탐스 DDPG 논문리딩 강화학습에서 커리큘럼 순서상 여러가지 기준을 세워 나눈다면 다음과 같다, 1단계는 Model based 방법으로 모든 MDP의 정보가 알려져 �� kau-deeperent.tistory.com 코드 상세 내용은 세미나 날에 에어심 드론비행을 발표하면서 같이 상세히 설명할 계획이다.

자율주행 가상환경과 Architecture

-발표자 조민성 Virtual Environment 지난 드론 프로젝트때 airsim을 사용한 것처럼, 이번 역시 새로운 가상환경이 필요했다. 사실 airsim을 사용해본 결과, 단점들이 좀 많았다. 일단 Python API를 불러올 때, sync의 문제도 있었고, airsim을 도시에 접목시키려면 unreal engin marketplace에서 새로운 맵을 사거나 만들어야 하기도 했다. 이외에도 여러가지 버그나 이용에 있어서 문제가 상당수 있었기에 새로운 가상환경을 찾아봤다. 이번에 사용해볼 환경은 Carla라고 하는 오픈소스 시뮬레이터다. airsim과 같이 UE4기반이며, 조금이지만 약간 테스트를 해본 결과 airsim보다 전반적으로 전문적인 분위기가 느껴진다. airsim은 드론과 자동차 둘다 조..

라즈베리파이를 이용한 Auto Driving

주제변경 1주동안 팀워들끼리 고민한 결과, 수치예측은 상당히 어려운 주제라 생각되어 자율주행 자동차로 주제를 바꿨다(근데 주식보다 어려워진 느낌...). 저번학기 드론 주행의 연장선상이라 생각하면 될 것 같다. 훈련환경 아무 훈련 없이 바로 모델을 훈련시키는 것은 너무 어려울 것 같아, Airsim에서 Pre-training이후 실제 모델을 제작할 것 같다. 라즈베리파이를 통해 이미지 인식과 강화학습 에이전트를 돌리게 될텐데, 실제 라즈베리파이의 연산이 부족하지 않을지 염려스러운 부분도 있다. 다만 이부분은 실제로 해봐야 아는 부분이라 일단 프로젝트는 진행하기로 했다. 사용할 알고리즘 -DQN -Stereo RCNN 구글 딥마인드가 개발한 알고리즘으로 해당 알고리즘의 논문을 바탕으로 간략하게 설명해보자면..

강화학습과 RNN을 이용한 주식 프로그램 개요

-발표자 조민성 주식예측 머신러닝을 공부하다보면, 주식가격 예측에 관한 글들을 많이 보게 됩니다. ANN의 꽃이라고도 불리는 RNN 기법은 Linear Regression으로 해결하지 못했던 시퀀스데이터 예측을 가능케 하는데요, 이번 프로젝트에서는 단순 시세 예측이 아닌, 매수/매도 프로그램을 만들어볼 계획입니다. NN Architecture 갑자기 왜 강화학습이 나왔는지 의아해 하실 수도 있을 것 같습니다. 그 이유는, 매수 / 매도때문입니다. 주식 시세는 RNN만으로도 해결 가능합니다. 지금도 구글에 검색하면, RNN으로 주식 시세를 예측한 글들이 상당히 많이 보이죠. 하지만, RNN만으로는 매크로를 만들기가 힘듦니다. 왜냐면 RNN은 수치 예측을 할 뿐, 행동을 결정하지 못하기때문입니다. 예를 들어..