안녕하세요?
11일날 하루종일 연달아서 포스팅을 올리면서 이상치에 대한 언급을 하기는 했었습니다. 그리고 이번에 올라오는 포스팅에서는 이에 대해서 한번 처리를 하고 나서, 다음으로 평균을 다시금 내 보도록 했습니다. 미리 알여주는 결과지만, 이상치를 제거한 것 만으로 상당한 차이가 나왔습니다.
일단 평균을 내고서 표준점수라고 Z-score를 만들어 내는 것으로 normalize를 한다는 것은 알았는데, 자료를 찾아보니 이걸 이용해서 어떻게 절대값으로 얼마 이상의 경우에는 이상치로 분류한다는 것을 보여주고 있습니다.
이걸 하기 위해서 먼저 model01에서 나온 결과에 적용시켜 보도록 합니다. 일단 여기서 알아볼 수 있는 것으로는 먼저, 평균과 표준편차 - 그것도 모집단의 표준편차라고 stdev.P라고 따로 지정해서 어떻게 표준편차를 구해야 합니다.
그렇게 해서 일단 1보다 큰 경우를 이상치로 잡으면 너무 많은 값들이 이상치로 나와서 쓸모가 없다는 것을 알 수 있었습니다.
그래서 절대값이 2 이상인 경우를 이상치로 잡아서 어떻게 작업을 해 보려고 했는데, 아무튼 이를 위해서 처리했더니, 저렇게 이상치가 각각 하나씩 나오는 것을 확인할 수 있었습니다.
일단 이렇게 해서 이상치를 제거한 다음에 나온 결과를 보았습니다. 이상치가 있고 없고에 따라서 평균에 차이가 나기 때문에, 이를 무시한다는 것은 어불성설이 아닌가 합니다.
실제로 이상치가 있고 없고에 따라서 거의 0.1수준의 상당히 큰 차이가 나온다는 것을 확인할 수 있었습니다. 이제 이런 차이가 나온다는 것을 알게되었으니, 어떻게 해서 다음 다른 model02와 model03에 대해서도 한번 알아보는 것을 해야 겠다는 생각이 듭니다.
'무모한 도전-주식 인공지능 만들기' 카테고리의 다른 글
드디어 시작한 웹 크롤링 첫걸음 -1- (0) | 2022.04.13 |
---|---|
모델의 변형 & 적용 -8- (0) | 2022.02.12 |
모델의 변형 & 적용 -6- (0) | 2022.02.11 |
모델의 변형 & 적용 -5- (0) | 2022.02.11 |
모델의 변형 & 적용 -4- (0) | 2022.02.11 |