3.5기(200104~)/강화학습

강화학습팀 4월 25일 프로젝트 진행상황

KAU-Deeperent 2020. 4. 25. 04:10

발표자 : 김성훈

 

위 학습데이터는 이번 주에 제가 로컬로 4일정도 돌려서 얻은 결과 입니다. 에피소드는 50000개를 돌렸고, 한 에피소드당 트레인 에포크는 10번이라서 총 에포크는 500000입니다. 최초에 랜덤 폴리시인때는 -800정도의 스코어를 보였는데 이 정도 학습으로는 벽을 피하는 정도로만 보이고, 어떻게는 살아남는 쪽으로 학습된것 같습니다. 그래서 살아남는 동안 마이너스 리워드가 쌓여 익스플로레이션이 막 끝난 참에는 리워드가 -1000에서 -2000 정도를 보여줬습니다. 이 정도 에피소드를 진행하는데 4일이 걸려서, 빠른시일내에 코랩으로 옮겨서 GPU를 사용해야만 할 것 같습니다.

 

현재 드론에 입력되는 스테이트가 30개 인데, 다이나믹스를 업데이트하기 위해 모두 필요한 값이며, 간편성을 위해서 모든 값들을 nn의  input으로 사용하고 있긴 한데, 아마 스테이트 너무 많기에 어떤것이 불필요한 정보인지 판단하는 것이 네트워크 학습에 부담을 주는 것 같습니다. 이러한 경향은 저번 DQN에이전트 때도 동일하게 보여 주었고, 그 때도 nn에게 꼭 필요한 정보만 입력해주니 빠르게 학습이 완료 되었었습니다.

 

그리고 이번 주에 Airsim drone과 저희  Agent를 연결하기 위해서 코드를 좀 보고 있는데, 방위각에 대한 문제가 생겼습니다. airsim에서 주는 방위각은 쿼토니온인데 저희가 사용하고 있던 방위각은 오일러 입니다. 쿼토니온에 대해선 따로 배워본적이 없어 이번 주는 이런 걸 공부하느라 시간을 더 보냈습니다. 쿼토니온에 대해선 세미나때는 잠깐 언급은 하겠으나, 블로그에 올리기엔 내용이 적절하지 않을 것 같아서 생략하겠습니다.

 

ppt파일을 올리고 싶은데 10mb를 초과한다고 해서 올라가질 않네요...