발표자 : 김성훈 위 학습데이터는 이번 주에 제가 로컬로 4일정도 돌려서 얻은 결과 입니다. 에피소드는 50000개를 돌렸고, 한 에피소드당 트레인 에포크는 10번이라서 총 에포크는 500000입니다. 최초에 랜덤 폴리시인때는 -800정도의 스코어를 보였는데 이 정도 학습으로는 벽을 피하는 정도로만 보이고, 어떻게는 살아남는 쪽으로 학습된것 같습니다. 그래서 살아남는 동안 마이너스 리워드가 쌓여 익스플로레이션이 막 끝난 참에는 리워드가 -1000에서 -2000 정도를 보여줬습니다. 이 정도 에피소드를 진행하는데 4일이 걸려서, 빠른시일내에 코랩으로 옮겨서 GPU를 사용해야만 할 것 같습니다. 현재 드론에 입력되는 스테이트가 30개 인데, 다이나믹스를 업데이트하기 위해 모두 필요한 값이며, 간편성을 위해서..