강화학습 3

자율주행 가상환경과 Architecture

-발표자 조민성 Virtual Environment 지난 드론 프로젝트때 airsim을 사용한 것처럼, 이번 역시 새로운 가상환경이 필요했다. 사실 airsim을 사용해본 결과, 단점들이 좀 많았다. 일단 Python API를 불러올 때, sync의 문제도 있었고, airsim을 도시에 접목시키려면 unreal engin marketplace에서 새로운 맵을 사거나 만들어야 하기도 했다. 이외에도 여러가지 버그나 이용에 있어서 문제가 상당수 있었기에 새로운 가상환경을 찾아봤다. 이번에 사용해볼 환경은 Carla라고 하는 오픈소스 시뮬레이터다. airsim과 같이 UE4기반이며, 조금이지만 약간 테스트를 해본 결과 airsim보다 전반적으로 전문적인 분위기가 느껴진다. airsim은 드론과 자동차 둘다 조..

강화학습과 RNN을 이용한 주식 프로그램 개요

-발표자 조민성 주식예측 머신러닝을 공부하다보면, 주식가격 예측에 관한 글들을 많이 보게 됩니다. ANN의 꽃이라고도 불리는 RNN 기법은 Linear Regression으로 해결하지 못했던 시퀀스데이터 예측을 가능케 하는데요, 이번 프로젝트에서는 단순 시세 예측이 아닌, 매수/매도 프로그램을 만들어볼 계획입니다. NN Architecture 갑자기 왜 강화학습이 나왔는지 의아해 하실 수도 있을 것 같습니다. 그 이유는, 매수 / 매도때문입니다. 주식 시세는 RNN만으로도 해결 가능합니다. 지금도 구글에 검색하면, RNN으로 주식 시세를 예측한 글들이 상당히 많이 보이죠. 하지만, RNN만으로는 매크로를 만들기가 힘듦니다. 왜냐면 RNN은 수치 예측을 할 뿐, 행동을 결정하지 못하기때문입니다. 예를 들어..

3주차 강화학습 전반적인 개념정리 및 Project 드론 환경 분석

작성자: 정성헌 강화학습의 전반적인 이해를 돕기 위해 용어 정리와 쓰임에 대해 설명한다. 수식이 나오는 원리, 적용되는 원리와 같은 수학적인 부분보다는 개념적인 부분에 대해 설명한다. 강화학습의 목표는 episode가 끝날때 까지 reward를 받는양이 최대가 되는 policy(행동규칙)을 만드는 것이 목표다. 강화학습의 개념에 들어가기 앞서 필요 용어부터 정리해야한다. • Observation : Environment에서 받아서 State를 설명할 수 있는 정보 O_t • Action : State를 보고 Agent가 Policy를 따라 선택하여 행하는 행위 A_t • Reward : action에 대한 scaler feedback sign R_t • State : O_t, A_t, R_t 들이 모여 ..