본문 바로가기
무모한 도전-주식 인공지능 만들기/통계학 공부

사분위수, 편차와 분산, 그리고 표준편차

by 인터넷떠돌이 2019. 10. 27.
반응형

안녕하세요?

 

이래저래 데이터를 처리하기 위해서 필요한 통계학을 공부하고 있는데, 가지가지로 일이 있어서 공부의 진도는 그렇게 빨리 나가지는 못하고 있는 중입니다. 하지만 그래도 공부한 내용을 제것으로 만들기 위해서는 이렇게 포스팅을 하는 것이 가장 좋은 방법이기도 하고, 해서 이번 포스팅에서는 알만한 분들은 모두 아시겠지만, 그래도 새로이 소개하는 차원에서 사분위수, 편차와 분산, 그리고 표준편차에 대해서 설명하겠습니다.

 

먼저  소개할 것은 사분위수 (Quartile)입니다. 원래는 분위수라는 것은 k분위수라고 해서 몇번이든 데이터를 '가장 작은 값에서 가장 큰 값으로 나열'한 다음에, k등분하는 것입니다. 여기서 사분위수가 왜 중요하냐 하면, 이 사분위수가 가장 많이 사용이 되며, 여기서 나오는 제2분위수는 중앙값 (median)이라고 해서 평균과는 다른 방법으로 많이 사용이 되는 값입니다.

 

그럼 여기서 사분위 범위라는 개념도 나오게 되는데, 이 개념은 제1분위수와 제3분위수 간의 차이를 말합니다. 이 두수의 차이가 작으면 작을 수록, 데이터가 중앙에 집중이 되어 있다는 의미가 됩니다. 그렇게 해서 여기서 다음과 같은 개념이 나오게 됩니다.

 

 

 

편차 = 관측값 - 평균값

 

이 편차를 절대값으로 바꾸어서 큰 값이 많으면 많을 수록, 분산의 크기가 큰 데이터 세트라고 할 수 있습니다. 이 편차를 왜 언급했느냐 하면, 바로 분산 (variance) 을 구하는데 필요적인 값이기 때문입니다.

 

상당히 복잡한 공식이라고 할 수 있는데, 결국 간단하게 정리를 하자면, 각각의 편차를 제곱한 다음에, 이 값들을 모두 더한 다음에 데이터의 전체 가지수로 나누어서 구하는 값이라고 할 수 있습니다. 그럼 여기서 궁금해 지는 것이 표준편차가 무엇이냐고 할 수 있는데, 의외로 간단하게 구할 수 있습니다.

 

그냥 분산이라는 값을 2 제곱근만 해서 구할 수 있는 값이기는 값입니다. 이렇게 해서 왜 억지로 표준편차(standard deviation)를 구하느냐 하면, 바로 데이터와 단위가 같다는 이유로 자주 사용이 됩니다. 얼마나 데이터가 평균에서 멀리 흩어져 있는지 정도는 분산으로 보여줄 수도 있지만, 표준편차 자체는 각각의 데이터와 같은 데이터의 단위 - 예를 들면 km같은 거리면 거리, 아니면 돈의 단위면 돈 단위같은 것이 같다는 장점이 있습니다.

반응형