본문 바로가기
무모한 도전-주식 인공지능 만들기

다시한번 시도해 본 평균회귀 테스트와 발견한 오류

by 인터넷떠돌이 2019. 9. 1.
반응형

안녕하세요?

 

어제 늦은 시간에 올린 포스팅에서 종목 1개만 가지고서 한번 테스트 해본 결과, ADF test와 half-life 테스트에서 차이가 발생한 것을 발견할 수 있었습니다. 그런데 이게 그냥 차이만 있고, 최종적인 선별에는 아무런 차이가 없다면 별 문제가 없겠지만, 그게 그렇게 되는 것인지 아닌지 확인해 볼 필요가 있다는 생각이 듭니다.

 

먼저 첫번째 노트북에서는 6시간 동안 시간이 걸려 가면서 원래대로 최신 데이터가 가장 아랫쪽으로 가는 식으로 데이터를 정렬해서 평균회귀 테스트의 결과를 얻을 수 있었습니다.

 

그리고 나서 2번째 노트북에서는 위 스크린샷과 같이 기존에 하던 오류대로 가장 최신의 데이터가 가장 윗쪽에 가는 식으로 데이터를 처리해 보고자 합니다.

 

이제 정위치라고 해야 할까요? 아무튼 가장 최신의 데이터가 아랫쪽으로 가도록 정렬을 한 txt파일 결과를 한번 비교 분석을 해 보도록 합니다.

 

이렇게 해서 일련의 파케이 형식의 파일을 얻을 수 있었습니다. 이제 이 결과들을 얻었으니, 다음의 단계로는 역순이라고 해야 할까요? 가장 최신의 데이터가 가장 상위에 오는 데이터로 만든 평균회귀 테스트 결과들을 비교 분석해 보도록 해야 합니다.

 

그래서 TextComparer를 작동시켜서 이 폴더를 지정하도록 만들어 준 다음에, 위 스크린샷과 같이 한번 만들어 주도록 만들어 줍니다.

 

 

이렇게 해서 잘못된 순서로 만들어진 데이터를 바탕으로 한 결과도 정렬하는 데 성공할 수 있었습니다. 이렇게 해서 이제 엑셀파일에 옮기도록 합니다.

 

일단 제대로 최신 데이터가 가장 아랫쪽으로 가도록 해서 만들어 낸 결과는 위 스크린샷과 같이 만들어 지는 것을 볼 수 있었습니다.

 

일단 엑셀에서 조건부 서식을 이용해서 위 스크린샷과 같이 일단 3가지 테스트를 모두 통과한 결과들 중에서 겹치는 것이 있다는 것은 알 수 있었습니다.

 

일단 제대로 데이터를 찾아보지 않고 코드만 일치하는 지 종목코드만 비교해서 보니까, 위 스크린샷과 같이 27개의 종목만이 일치하고, 나머지는 다르다는 것을 알 수 있었습니다.

 

문제는 reverse라고 해서 기존의 잘못된 방법으로 해서는 더 적은 양의 데이터가 나오는 것을 볼 수 있었습니다. 그리고 그 나마도 겹치는 것이 여전히 같지만........ 글쎄요, 원래대로 했다면 선택할 수 있는 양질의 종목을 놓치게 된다는 의미가 되는 듯 합니다.

 

일단 이렇게만 해서는 제대로 알 수 없기 때문에, 평균회귀 테스트에서 각각 half-life의 값이 30미만인 종목만을 추려서 한번 보도록 합니다.

 

여기서도 문제가 나오는데, 가장 큰 문제는 Half-Life test결과, 원래대로 최신 데이터가 가장 하위로 가는 식으로 정렬한 데이터를 가지고서 계산을 했으면, 위 스크린샷과 같이 가장 상위에 있는 종목들은 전혀 겹치지 않는 다는 것 입니다! 즉, 택도 없는 종목들이 선택될 가능성이 크다는 것 입니다.

 

그나마 하위에 있는 종목들은 서로 겹치는 것이 많아서, 그나마 종목의 선택에는 큰 영향을 안 미칠 수 있다는 생각이 들기는 듭니다.

 

그래서 그냥 할 수는 없어서 Information hunter를 작동 시켜서 한번 펀드로 되어 있는 종목들을 무조건 탈락을 시키고, 한번 겹치는 종목이 있는지 없는지 알아보도록 엑셀에서 조건부 서식을 이용, 알아보았습니다.

 

일단 정확하게 했어야 했는 식으로 계산을 했으면 코스피에서는 전체 36종목을 선택할 수 있었고, 26종목이 겹치는 것을 알 수 있었습니다. 이는 제대로 계산을 하지 않은 테스트에서도 겹치는데, 문제는 33종목 중에서 저렇게 7종목이 원래라면 선택되지 말아야 하는데 선택이 되었다는 것 입니다. 즉, 왜 매수를 하고 나서 계속해서 떨어지고 있는 종목이 있다고 하면.......... 저 7종목 때문일 가능성이 크다는 소리가 됩니다.

반응형