안녕하세요?


이번 포스팅에서는 Newton 2017년 12월호에 싣려 잇던 기사인 [통계적으로 차이가 있다는 말은 어떤 의미일까?]라는 기사를 읽어 보니, 유용한 정보가 기사안에 많이 담겨져 있는 것을 확인할 수 있었습니다. 그래서 이번 포스팅에서는 이 기사를 읽어보고 나서, 그 내용을 리뷰해 보고자 합니다.



먼저 통계의 가장 기초가 되는 지식인 '정규분포'에 대해서 기사는 설명에 들어가고 있습니다. 먼저 우리 주변의 많은 현상이 이 정규분포를 이룬다는 것을 언급하면서, 통계학에서 어떤 현상이 일어나는 범위를 '신뢰구간(confidence interval)'이라고 하며, 이 신뢰구간 안에 포함되는 일이 일어날 확률이 '신뢰도'라는 것을 언급하고 있습니다.



그럼 위 그림에서 묘사가 되고 있는 이 신뢰구간 밖의 일이 일어날 확률도 있는데, 기사에서 예시로 든 것이 바로 '주사위'입니다. 즉, 보통의 주사위라고 생각하고 던졌는데, 100번 던진 결과가 95% 신뢰구간 밖으로 나오는 것을 예시로 들었습니다. 즉, 95%의 일반적인 신뢰 구간에서 떨어진 나머지 5%의 범위에 포함되는 결과가 나오는 경우가 있는데, 이럴 때 '원래의 상정과는 다르다'라고 해서 '유의미한 차이가 있다'라고 한다고 합니다.




이처럼 신뢰구간을 벗어난 범위를 '유의수준'이라고 하며, 이러한 기법-유의수준에서 나오는 값이 있는지 없는지를 보는 것으로 가설인 A와 B사이는 차이가 없다는 것을 검증하는 방법을 '가설 검증'이라고 합니다. 그런데 기사에서는 이런 장황한 설명을 늘어 놓고 나서, '신뢰구간'이라는 것을 항상 95%가 아니라, 더 엄격한 기준을 적용해서 99%인 경우도 있다고 합니다.



그러면서 기사는 통계를 사용해서 투표결과를 예측하거나, 소립자 물리학에서 '미지의 소립자'를 발견하는 작업에도 이 통계의 개념이 사용이 된다고 합니다. 특히 물리작에서는 σ(시그마)가 사용이 된다고 하는데, 이 σ는 '표준편차'라고 해서 정규분포의 평균값에서 부터 벗어난 크기를 나타낸 값이라고 합니다.



이런 식으로 σ의 앞에 있는 숫자가 커질수록 우연히 나올 수 있다는 값의 범위는 넓어지고, 대신에 이 σ의 값을 벗어나면 우연으로 일어날 수 없다는 판단을 하게 됩니다. 이처럼 통계를 전문적으로 쓴다고 해야 할까요? 미립자에 관계된 곳에서는 평소에는 보기 힘든 정도로 꽤나 엄격한 단위를 적용하고 있음을 할 수 있었습니다.




기사는 그러면서 지금까지는 '차이'의 여부를 판단 하였는데, '효과의 유무'를 가리는 것에도 사용할 수 있다고 합니다. 그러면서 기사는 이런 경우가 대표적으로 '약의 효능'을 알아보는 경우를 가지고서 글을 전개하기 시작합니다. 그러면서 소개를 하는 것이 '위약 효과'와 진짜 약의 효과를 구분하는 조사를 언급하고 있습니다.



위에서 설명이 되었는 '가설검증'이 여기서도 사용이 된다고 합니다. 먼저 가설을 세우기를 '신약에는 위약 또는 기존의 약과 같은 효과밖에 없다'라고 했을 때, 신뢰범위라고 해서 위에서 설명이 되었는 신뢰구간 밖의 결과가 나온다면, 신약이 특별한 효과가 있는 것으로 간주 한다고 합니다. 그러나 '흡연과 폐암'처럼 분명한 악영향이 예상이 되면 위와 같은 실험은 무리라고 합니다.



이런 경우를 위해서 기사에서는 '코호트 연구(cohort study)'와 '케이스 컨트롤 연구(case control study)'라는 것을 소개하고 있습니다. 먼저 코호트 연구는 '흡연자'와 '비흡연자'로 두 그룹으로 나눈 다음에, 긴 시간을 두고서 추적조사를 하는 방법이라고 합니다. 반대로 '케이스 컨트롤 연구'의 경우에는 폐암인 사람과 건강한 사람을 모아서 과거의 흡연 경력을 조사하는 방법이라고 기사에서 언급되어 있습니다.



일단 케이스 컨트롤 연구가 설문조사 등의 방법을 ㅣ쓰기 때문에 연구결과가 바로 나오고, 코호트 연구에 비해서 실시하기 쉽다고 ㅎ바니다. 그러나 과거의 기억에만 의존을 하고, 다른 제3의 요소를 관측하기 어려워서 연구 결과의 신뢰도는 상대적으로 코호트 연구에 비해서 떨어진다고 합니다.




마지막으로 기사는 뜬금없이 왠 겅간기능 식품에 대해서 언급을 하고 있습니다. 이것도 일상 생활에서는 필요한 정보이기는 하지만 아쉽게도 이 기사의 주된 내용인 '통계'와는 관련이 많이 없는 내용을 채워지기 시작 했다는 것입니다. 그래서 기사의 마지막을 장식할 부분으로 왜 이렇게 통계와는 관련이 없는 내용을 넣었나 하는 아쉬움이 들었지만, 전체적으로는 유용한 내용이 많은 기사라는 생각이 들었습니다.

+ Recent posts

티스토리 툴바