본문 바로가기
무모한 도전-주식 인공지능 만들기

100에포크 강화학습과 부딪친 한계

by 인터넷떠돌이 2019. 2. 24.
반응형

안녕하세요?


이번 포스팅에서는 지난번 포스팅에서 200에포크에서도 여전히 과적합이 된 것이 아닌가 하는 의문이 들어서, 한번 100에포크로 더욱더 강화학습의 횟수를 내려서 한번 강화학습으로 모델을 6개 생성해 보았으며, 여기서 나온 결과를 바탕으로 백 테스트까지 해 보았습니다.



먼저 yellowoperation이라는 프로젝트로 가서, 위 스크린샷에서 보이는 것처럼 총 학습에 사용이 될 에포크의 숫자를 100으로 확 줄이도록 합니다.



그리고 100에포크로 줄었더니 강화학습에 걸린 시간이 20분도 걸리지 않은 것을 확인할 수 있었습니다.



2번째 강화학습에서는 위 스크린샷에서 보이는 것처럼 22분이 걸린 것을 볼 수 있었습니다.



3번째 강화학습에서는 시간이 조금 덜 걸려서 20분이 걸렸는데, 200에포크에서도 1시간 정도 걸린 것을 생각해 보면, 정말 비약적으로 짧아진 것을 확인할 수 있었습니다.




4번째 강화학습에서는 21분이 걸린 것을 확인할 수 있었습니다.



5번째 강화학습에서는 좀 더 시간이 걸려서 22분이 걸린 것을 확인할 수 있었습니다.



마지막 강화학습에서는 20분 정도만 걸린 것을 확인할 수 있었습니다.



6개의 강화학습을 완료해서 모델을 얻는데 성공했기 때문에, 여기서는 위 스크린샷에 보이는 것처럼 한번 RLTrader를 작동시켜 보도록 합니다.




그런데 여기서도 똑같이 패턴으로 2가지 종류가 나오는 것을 확인할 수 있었습니다. 진짜로 2가지 종류만 나온 것이 맞는지 한번 그래프를 보도록 하겠습니다.



여기서는 딱 2가지 종류만으로 나와있는 것을 볼 수 있습니다. 그래서 여기서도 강화학습의 결과로 나온 모델이 패턴이 나오는 것을 확인할 수 있기는 있는데, 문제는 수익을 올리기는 올렸습니다.



일단 첫번째 모델의 강화학습 과정입니다. 여기서는 대체적으로 첫 판단을 할 정도로 데이터가 모이기 전 까지는 전혀 나오지 않다가, 첫 판단에서 판매를 지시한 이후 계속해서 그냥 주식을 보유만 하는 것을 볼 수 있습니다.



2번째 강화학습의 과정인데, 여기서는 보유해서 그냥 마냥 기다리고 있는 것을 볼 수 있었습니다. 일단 제가 기대한 것은 여기서 여러가지 변화가 나오는 것인데, 그건 CS 홀딩스 주식에서는 안 나오는 듯 합니다.




3번째 강화학습에서도 위 스크린샷을 보시면, 첫번째와 두번째 강화학습과는 다른 패턴을 보여주고 있는 것을 볼 수 있습니다. 다만 여기서는 다양한 양상으로 나와주기는 하는데, 이게 백 테스트에서는 왜 이리도 2가지 종류만 나오는지 모르겠습니다.



4번째 모델의 강화학습 경향인데, 여기서는 2번재 강화학습과 비슷한 양상을 보이기는 합니다만, action을 결정하는 패턴을 보면, 다른 듯 하기도 합니다.



5번째 강화학습의 경우인데, 이 경우에는 첫번재 강화학습과 마찬가지로 첫 결정을 내리기 전까지 매수 명령을 내리다가, 여기서, 모두 주식을 팔아 버리고 그대로 기디리기만 하는 것을 볼 수 있었습니다.



마지막 강화학습의 학습과정인데, 이것도 5번째와 상당히 유사해 보이기는 합니다. 다만 유사하다는 것이지, 완전히 같지 않으므로 일단 50에포크로 줄이는 것은 그다지 큰 의미는 없지 않을까 합니다. 대신 지난번에 1분봉 차트에서 변화량이 300이상을 보였는 종목중에 하나를 가지고서 한번 강화학습에 들어가 보고자 합니다.


반응형