안녕하세요?


지난번 포스팅에서는 원숭이 투자자(MT)가 10개 작동시켜 보니 평균 2.38%의 수익을 올렸다는 것을 보여주었습니다. 그래서 앞으로 수익모델을 또 찾아 보기는 보는데, 적어도 이 원숭이 투자자 보다는 훨씬 더 나오는 모델을 찾아야 한다는 것 입니다.



먼저 지연보상 임계치를 15%로 주어서, 이전에 42.9%의 수익이 나왔는 모델의 학습조건과 동일하게 만들어서, 한번 더 모델을 만드는 과정에 들어가 보고자 합니다.



혹시나 잘못되지는 않을까 해서,정책 학습기 모듈에서도 역시 지연보상 임계치를 같이 맞추어 주도록 합니다.



이제 강화학습에 들어가 보도록 합니다.



그리 길지 않은 시간-1시간 30분이 좀 지나고 나서는 강화학습이 완료가 되는 것을 볼 수 있었습니다.



일단 10 에포크에서는 준수한 성과를 냈는 것 같은데, 200에포크에서는 어느정도 손해를 후반부에 보는 것을 확인할 수 있었습니다.



그리고 1000에포크에 가까워 질수록 랜덤한 확률의 행동이 줄어들고, 후반부의 손실도 어느정도 덜 보는 형태로 진행이 되는 것을 볼 수 있었습니다.



일단 에포크가 진행이 되면 될수록 PV의 가치도 올라가는 것을 볼 수 있는데, 초반 10 에포크에 정말 큰 수익을 내고서, 이후에 떨어졌다가 1000에포크에서 회복을 하는 것을 볼 수 있었습니다.




그리고 방금 만들어진 모델을 가지고서 한번 투자 시뮬레이션에 들어가 보도록 합니다.



기간도 역시 남은 25%에 해당을 하는 기간을 지정을 해서 제대로 테스트가 일어나도록 해 봅니다.



그리고 코드 역시 주석처리 부분을 바꾸어서 한번 제대로 투자 시뮬레이션이 진행이 되도록 만들어 봅니다.



그런데 제 기대와는 다르게 손해가 나오는 것을 볼 수 있었습니다. 분명히 같은 조건에서 학습을 시킨 모델을 가지고서 진행을 한 것인데, 이렇게 손해를 보는 모델이 나오는 것을 보니, 무어라 할말이 없어 집니다.



그리고 이번에는 한번 실험을 해 보기 위해서 17% 지연보상 임계치에 discount factor를 0.1로 지정을 하고서 강화학습을 시작하도록 합니다.



기계학습에 지정된 조건으로 진행이 되는 것을 확인하며 기다려 보도록 합니다.



이번에도 1시간 넘는 시간이 걸리고 나서, 기계학습이 완료가 된 것을 확인할 수 있었습니다.




10 에포크에서 손해를 잔득 보다가 어느정도 수익을 내는 것을 보았으며



1000에포스에서 큰 수익을 내는 것을 볼 수 있었습니다.



그리고 10, 200, 600, 1000회 결과를 요약한 로그의 내용입니다.



강화학습이 끝났으니까, 이번에는 한번 방금만든 모델을 가지고서 투자 시뮬레이션에 들어가 보도록 합니다.



기간도 제대로 투자 시뮬레이션을 위한 테스크 셋의 기간으로 지정을 하도록 합니다.



코드 역시 투자 시뮬레이션을 위한 것으로 바꾸어 보도록 합니다.



결과는 수익이 아니라 미미한 손해가 나는 것을 봤습니다. 나온다고 해도, 10회의 원숭이 투자자의 수익이 2.38%임을 생각해 보면, 이 이상의 수익을 의미있게 내지 못한다면... 글쎄요. 무슨 관계가 있다고 말할 수 있을 까요? 아무튼 이렇게 된 김에 계속해서 다른 시도를 연속해서 하도록 하겠습니다.

+ Recent posts

티스토리 툴바