본문 바로가기
무모한 도전-주식 인공지능 만들기

새로운 시도를 해서 데이터를 해석해 보기 -1-

by 인터넷떠돌이 2020. 4. 12.
반응형

안녕하세요?

 

이제까지 해서 어떻게 그렇게까지 의미가 있어 보이는 듯한 데이터를 그렇게 건지지는 못했지만, 가만히 생각을 해 보니까, 무언가 중대한 실수를 했다는 느낌이 들기도 합니다. 일단 제가 코스피에서 종목을 806개 추려냈는데, 그건 전부 펀드를 제외한 종목이었습니다. 그런데 여기서도 평균수익을 잡으면서 든 생각이, 제가 아무리 잘해도 806개나 되는 종목을 모두 다 커버할 수는 없습니다. 즉, 이익이 나는 종목에 한해서 어떻게 다루어 보는 것이 좋을 것이라는 생각이 들어서 한번 이렇게 종목별로 나누어서 데이터를 정리해 보는 작업을 해 보고자 합니다.

 

먼저 이익의 평균이라는 항목은 이익을 냈는 종목만 추려서 얘네들이 얼마나 평균적으로 이익을 보았으며, 그 표준편차도 구하는 것 입니다. 그리고 나서 그 이익을 낸 종목들에서 나온 이익금을 모두 합산한 것이 바로 이익의 합계입니다. 그럼 반대로 손해를 본 종목도 나오는 법인데, 여기서 나온 손해를 모아서 평균을 낸 것이 손해의 평균과 표준편차입니다. 그리고 그 손해본 액수를 모두 모았는 것이 바로 손해의 합계입니다.

 

일단 특정한 조건에 맞는 평균을 어떻게 구하느냐 하면, 이건 간단하게도 엑셀에 있는 함수인 AVERAGEIF()라는 함수를 이용해서 조건에 맞는 값만 골라서 평균을 쉽게 구할 수는 있었습니다.

 

그런데 문제는 바로 표준편차라고 할 수 있었습니다. 일단 얘네들은 그냥 함수하나 구해서 어떻게 할 수는 없고, 우선 위 스크린샷에서 보이는 것처럼 수익이라고 하는 항목 = 표준편차를 구하고 싶은 종목의 조건을 따로 구해야 하는 난제가 있었습니다.

 

 

그래서 어떠한 함수를 쓰느냐 하면, DSTDEV라고 하는 함수를 쓰는데, 여기서 중요한 것이 바로 규칙입니다. 일단 규칙상 맨 처음에는 표준편차를 구하고자 하는 데이터 베이스 전체 범위를 지정해야 합니다. 거기서 나오는 column의 이름을 그 다음에 입력을 하고 나서, 어떤 조건을 다룰 것인지에 대한 조건을 다음 범위에서 설정해 주어야만 합니다. 이런 까다로운 작업을 하고 나서야 어떻게 작업이 가능하기는 합니다.

 

그리고나서 특정한 조건에 해당하는 데이터에 대해서만 어떻게 합계를 구하는 것도 그렇게 어렵지 않게 되기는 되었습니다. 일단 여기서는 sumif라는 함수를 이용해서 합계를 구할 데이터의 범위와 그 조건만 입력하면 되기는 되는 것을 확인할 수 있었습니다.

 

이렇게 해서 일단 기존의 데이터 표에서 새로 추가된 데이터를 하나 다 추가를 하도록 합니다. 이렇게 하는 것으로 일단 작업이 하나 완료 되기는 되었습니다.

 

일단 행렬 변환을 통해서 데이터를 정렬한 다음에, 데이터를 한번 더 다듬어서 그래프로 그를 수 있도록 한번 작업을 하도록 해야 합니다.

 

그런데 그래프를 그리기 앞서서 한가지 문제가 생겼습니다. 손해의 평균과 합계는 특성상 마이너스 값이 나올 수 밖에 없는데, 그 값을 그냥 봐서는 직관적으로 분석하기에는 어렵습니다.

 

그래서 다음으로 해야 하는 작업으로는 ABS()함수를 써서 마이너스 값으로 되어 있는 데이터를 플러스 값으로 바꾸어 주도록 합니다. 이렇게 해서 일단 데이터 분석을 하기 위한 기본적인 준비는 되었는데, 우선 120분 계산기간과 60분 계산기간을 가지고서 나온 데이터를 가지고서 일단 비교하는 과정까지 가 보고 나서, 계속해서 할 가치가 있는지 없는지 알아 보도록 하겠습니다.

반응형