안녕하세요?


지난번 포스팅에서 이제야 제대로 된 모델을 만들어 보았다는 이야기를 했는데, 문제는 첫 시도에서는 수익이 나지 않았습니다. 그래서 수익을 내기 위해서 계속해서 trial & error를 통해서 상황을 개선해 나가고자 합니다.



먼저 강화학습의 시작 부분에서 위 스크린샷처럼 지연보상 임계치를 20%에서 0.02라는 2%로 교체를 하도록 합니다.



그리고 혹시나 해서 한번 정책 학습기에서도 교체를 한번 더 해주도록 합니다.



이제 강화학습에 들어가 보도록 해 봅니다.



이번에는 거의 4시간 가까이 걸리는 것을 확인할 수 있었습니다.




일단 이 경우에 있어서는 초반 에포크에서는 엄청난 독박을 쓰는 경향을 보여주고 있습니다.



일단 에포크가 진행이되면 될수록 수익은 올리는데, 무언가 이전에 개미 투자자라면 대다수를 한강으로 가게 만들 수준으로 좀 심각한 급락에 여기서는 여지없이 당하는 경향을 보여주고 있습니다.



그래도 일단 기계학습을 1000번한 결과를 정리한 것이고, 이 데이터를 바탕으로 다음 단계로 이어나가도록 합니다.



일단 방금 생성된 지연보상 임계치 2%의 모델을 가지고서 한번 투자 시뮬레이션에 들어가 보도록 합니다.




기간도 제대로 테스트용 기간으로 정해 주도록 해 봅니다.



그리고 코드에서 학습을 하는 부분을 주석 처리를 하도록 하고, 나머지 부분을 활성화 시키도록 합니다.



실제로 투자 시뮬레이션에 들어가본 결과.......



이번에는 완전히 수익이 나고 안 나고가 주가의 일봉차트와 완전히 일치하는 것을 볼 수 있습니다. 그래서 아무래도 과적합이라고 해서 overfit이 된 것이 아닌가 하는 의심이 드는데, 일단 의심에 합리적인 근거는 없기는 합니다. 그래서 직관적으로 생각해낸 것이기에, 일단 다음 번에는 11%라는 지연보상 임계치를 가지고서 실험을 해보고자 합니다.

+ Recent posts