본문 바로가기

통계학4

확률분포의 균일분포 안녕하세요? 이번 포스팅에서는 다른게 아니라 오랫만에 통계학 도감이라는 책을 보고서 포스팅할 만한 분량을 겨우 확보했기에 한번 그 내용을 포스팅 해 보고자 합니다. 여기서 먼저 언급해야 하는 것은 확률에 대한 이야기 입니다. 예를 들어서 주사위를 던지면 일반적으로 6개의 눈중에 하나가 나오는데, 만약 주사위를 던져서 1의 눈이 나왔다면 이 나왔는 1이라는 눈이 '사상'이라고 하는 실험이나 관측등에 행위에 의한 결과라고 할 수 있습니다. 그럼 확률이 무엇이냐 하면, 바로 이 사상이 일어나기 얼마나 쉬운지를 수치화한 것 입니다. 그리고 지난번 포스티에서 다루었는 변수라는 개념에서 실행해 봐야만 비로서 결과를 알 수 있는 이 변수를 '확률변수'라고 합니다. 대표적으로 룰렛을 돌리게 되는데, 룰렛을 실제로 돌리.. 2020. 2. 25.
변동계수, 상관계수, 순위상관계수 안녕하세요? 이래저래 사정이 있어서 이 통계학 포스팅도 많이 늦어졌는데, 아무튼 어찌저찌해서 이번 포스팅에서는 변동계수, 상관계수, 그리고 순위상관계수에 대해서 한번 포스팅을 하고자 합니다. 먼저 언급해야 하는 것으로 변동계수 (coefficient of variation)을 언급하고자 합니다. 먼저 관측 데이터 A와 B에 대해서 한번 이야기를 하도록 해 보겠습니다. 일단 A와 B는 데이터의 크기가 서로 다르다는 것을 얼핏 보면 보입니다. 그래서 산술평균과 표준편차를 구하면, 위 스크린샷과 같은 결과를 얻을 수 있습니다. 일단 표준편차가 크다고 해서, 단순히 관측 데이터 A가 평균에서 데이터가 더 많이 분산이 되었다고 할 수 있느냐 하면, 그건 아니라고 할 수 있습니다. 왜냐하면 데이터의 전체적인 관측값.. 2019. 11. 7.
사분위수, 편차와 분산, 그리고 표준편차 안녕하세요? 이래저래 데이터를 처리하기 위해서 필요한 통계학을 공부하고 있는데, 가지가지로 일이 있어서 공부의 진도는 그렇게 빨리 나가지는 못하고 있는 중입니다. 하지만 그래도 공부한 내용을 제것으로 만들기 위해서는 이렇게 포스팅을 하는 것이 가장 좋은 방법이기도 하고, 해서 이번 포스팅에서는 알만한 분들은 모두 아시겠지만, 그래도 새로이 소개하는 차원에서 사분위수, 편차와 분산, 그리고 표준편차에 대해서 설명하겠습니다. 먼저 소개할 것은 사분위수 (Quartile)입니다. 원래는 분위수라는 것은 k분위수라고 해서 몇번이든 데이터를 '가장 작은 값에서 가장 큰 값으로 나열'한 다음에, k등분하는 것입니다. 여기서 사분위수가 왜 중요하냐 하면, 이 사분위수가 가장 많이 사용이 되며, 여기서 나오는 제2분위.. 2019. 10. 27.
통계적인 차이라는 말의 의미 안녕하세요? 이번 포스팅에서는 Newton 2017년 12월호에 싣려 잇던 기사인 [통계적으로 차이가 있다는 말은 어떤 의미일까?]라는 기사를 읽어 보니, 유용한 정보가 기사안에 많이 담겨져 있는 것을 확인할 수 있었습니다. 그래서 이번 포스팅에서는 이 기사를 읽어보고 나서, 그 내용을 리뷰해 보고자 합니다. 먼저 통계의 가장 기초가 되는 지식인 '정규분포'에 대해서 기사는 설명에 들어가고 있습니다. 먼저 우리 주변의 많은 현상이 이 정규분포를 이룬다는 것을 언급하면서, 통계학에서 어떤 현상이 일어나는 범위를 '신뢰구간(confidence interval)'이라고 하며, 이 신뢰구간 안에 포함되는 일이 일어날 확률이 '신뢰도'라는 것을 언급하고 있습니다. 그럼 위 그림에서 묘사가 되고 있는 이 신뢰구간 .. 2017. 12. 2.