본문 바로가기
무모한 도전-주식 인공지능 만들기

1000에포크로 다시한번 강화학습 5회를 한 결과

by 인터넷떠돌이 2019. 3. 5.
반응형

안녕하세요?


일단 지난번 포스팅에서는 100회의 강화학습을 시켜 보았습니다만, 무언가 학습의 내용이 부족한 것인지 백 테스트 결과 전혀 수익을 내지 못하는 것을 보았습니다. 그래서 이게 강화학습의 횟수를 늘리는 김에 확실하게 늘려보자는 생각을 해서 한번 1000회로 늘려서 강화학습을 5회 하고, 강화학습의 모델들을 백테스트에 들어가 보았습니다.



먼저 위 스크린샷과 같이 yellowoperation에 가서, 100회로 되어 있던 것을 1000회로 더 올려주도록 합니다. 그리고 나서 구글 드라이브에 업로드 해 줍니다.



일단 강화학습의 횟수가 많아져서 이런 건지는 몰라도, 강화학습에 걸린 시간이 모두 3시간 가까이 걸리는 것을 확인할 수 있었습니다.




일단 이렇게 강화학습을 연속해서 진행을 하니, 점점 강화학습에 걸리는 시간이 처음에는 3시간이 걸렸는데, 어느순간 강화학습에 2시간 조금 넘게 걸리는 것으로 시간이 짧아진 것을 확인할 수 있었습니다.



이제 모든 강화학습이 5회 끝났기 때문에 구글 드라이브에 저장되어 있는 파일들을 하드 디스크로 다운로드 받은 다음에, 위 스크린샷처럼 RLTrader를 실행시켜서 백테스트에 들어가 보도록 합니다.



일단 첫번째 백테스트 결과인데, 제 기대와는 다르게 크게 손해를 보는 것으로 나오는 것을 볼 수 있었습니다.



이렇게 총 5개의 강화학습으로 나온 모델들을 모두 백테스트에 들어가 보았습니다만, 수익이 나온 모델은 하나도 없다는 것을 확인할 수 있었습니다.




실제로 위 스크린샷을 보시면, 모든 강화학습의 모델이 수익을 전혀 내지 못하고 결정을 하면 할수록 오히려 PV가치를 바닥으로 곤두박질 치는 것을 볼 수 있습니다.



일단 첫번째 강화학습의 중간과정입니다. 이 중간과정을 보시면, 10에포크에서 조금 수익이 나온 지점이 있기는 있습니다만, 이런 지점이 강화학습에 전혀 반영이 되지 않은 듯 합니다.



다음으로는 두번째 강화학습의 모델인데, 이 모델에서는 어떻게 된 것인지 전혀 강화학습을 하는 동안 수익을 올린 적이 없다는 것을 보여주고 있습니다.



세번재 강화학습의 중간과정은 위 스크린샷과 같이 중간에 수익이 크게 나온 부분이 있는데, 이 부분이 강화학습에 전혀 반영이 되지 않고, 그대로 무시가 되었다는 생각이 듭니다.



네번째 강화학습의 모델인데, 여기서는 중간에 있는 200과 600에포크를 보면, 초반에는 수익을 내는 것을 볼 수 있습니다. 다만 이 부분이 학습에 반영이 되지 않은 것인지, 1000에포크에서는 마지막에 아무런 반영없이 그냥 무한정 PV값이 내려가는 것을 볼 수 있습니다.



마지막 강화학습의 과정입니다. 여기서도 초반에는 수익이 나는 결정을 어떻게 하기는 했는데, 문제는 이런 수익을 내는 지점이 전혀 강화학습에 반영이 되지 않았다는 것 입니다. 어떻게 이런 결과가 나온 것인지 모르겠습니다만, 일단 0.1%의 지연보상 임계치가 문제가 아닌가 해서 이를 더 높여서 한번 강화학습에 들어가 보고자 합니다.

반응형