안녕하세요?


이번 포스팅은 한국 스켑틱(Skeptic) vol. 2에 나와있는 [오랫동안 고문하면 데이터도 결국 자백한다-통계, 보고 싶은 것만 보여주는 기술]이라는 기사를 읽고서, 여기서 몇 가지 유용한 것이 있어서, 이것들을 소개하기 위해서 포스팅을 작성해 보았습니다.


우선 기사는 먼저 서문에서 연구자들은 종종 좋은 데이터와 쓸모없는 데이터, 적절한 과학적 분석과 엉터리 과학을 구별하는데 소홀히 해서, 결과가 왜곡되는 경우가 있다고 합니다. 그리고 그 예시를 3가지 드는 것이 이 기사의 전부이지만, 이 3가지는 연구자이든 일반인이든 알아 두어야 할 가치는 있다고 생각합니다.



첫번째 사례는 논문의 제목인 [바스커빌의 사냥개효과]라는 연구자료를 언급하면서 시작을 합니다. 이 연구의 내용은 간단합니다. 매달 4일에 일본계 및 중국계 미국인이 심장마비를 일으킬 확율이 높다는 이야기입니다. 당연 이 이야기가 말이 안되기는 하는데, 여기서 연구자들이 어떻게 했길래 통계상으로 이런 결과가 나왔는가 하면, 바로 1989~1998년 사이의 데이터만을 사용해서 이런 결과를 얻었다고 합니다.


동일한 심장질환에 대해서 1969~1988년과 1999~2001년의 연구결과를 보면, 매달 4일과 심장질환 발병과는 아무런 상관관계가 없다는 것이 나왔습니다. 이와같은 오류가 발생한 이유는 간단하게도, 원하는 데이터만 취사선택했기 때문에 이런 결과가 생겼다고 합니다. 실제로 다1989~1998년 이외의 년도에 발생한 데이터를 다 종합하면 이런 오류는 사라진다고 합니다.


두번째 사례는 좀더 어이가 없을 수도 있는데, 1,435개의 기업을 조사해서 11개의 성공적인 기업이 40년간 생존했고, 크게 성공했다는 것을 보았다고 했습니다. 그리고 이 11개 기업의 특징을 조사한 연구 결과가 짐 콜린스와 그의 연구팀이 냈는데, 여기서 나온 오류는 어이없게도 다음과 같다고 합니다.


파인만의 함정이라는 것으로 제대로 된 연구라면 40년 전에 기업을 선정해서 40년간 꾸준히 관찰해야 하지, 이렇게 이미 일어난 다음에는 일어날 가능성이 매우 희박한 확율도 사실상 100%가 된다는 것입니다. 즉, 어떤 일이 일어나기 전에 대상을 선정해야 하지, 이미 일어난 다음에 대상을 선정해서는 아무런 의미도 없다는 소리입니다.


다음 마지막 3번째 사례로는 송전탑 전파가 암을 유발한다는 연구결과를 가지고 발생한 통계적인 오류에 관해서입니다. 일단 이 연구에서는 암환자가 발생한 부근에 송전탑이 있었으니, 송전탑의 전파가 암을 유발한다는 가설을 세웠는데, 실상은 송전탑과 암의 발생에는 아무런 연관이 없다는 것입니다.


그럼 여기서 일어난 통계적인 오류는 무엇인고 하니, 바로 텍사스 명사수의 오류라고 합니다. 즉 표적을 세우고 나서 사격을 하는 것이 아니라, 헛간의 벽에다가 마우 사격을 한 다음, 탄착군이 밀집된 곳에다가 표적을 그리고, 나머지 총알구멍은 막아버려서 지우는 것을 의미합니다.


이런 오류를 방지하려면, 먼저 암 발생을 모르는 상황에서 전자기장 노출도-송전탑과 같은 물체의 영향-를 측정해야 한다고 합니다. 즉, 이미 암 발생 여부를 측정하고 나서, 유별나게 암 발생빈도가 높은 지역에다가 송전탑이 있는 것을 찾아서는 안된다는 것입니다.


기사를 보면 이런 오류를 방지하기 위해서는 먼저 송전탑이 발생시키는 전자기장을 모르는 상태에서 암 발생빈도를 측정하고, 그 다음에는 암 발생빈도를 모르는 상태에서 전자기장을 측정해야 한다는 것입니다. 실제 이 송전탑이 암을 유발한다는 주장의 가장 큰 오류는 다음과 같습니다.


[송전탑이 없는데도 암 발생빈도가 생긴 지역은 왜 데이터 설명에서 뺐는가?]


이 3가지 경우를 봤는데, 중요한 것은 세가지 오류 모두 연구자가 일으키기 쉬운 오류라는 겁니다. 실제로 마지막 텍사스 명사수의 오류와 같은 경우는, 데이터를 자기 유리한 데로 해석하는 전형적인 오류인데, 말 그대로 보고 싶은 것만 보게 되는 현상이라고 보시면 될 듯 합니다. 


결국 마지막 스켑틱에 싣려있는 이 글이 정답인듯 합니다.


[통계 자료에는 쉽게 납득할 수 있는 부분도 있는 반면 한번 의심해봐야 하는 부분도 있다. 그 연구가 특정한 패턴에 맞추려고 특정 데이터만 추출한다거나 맞지 않는 데이터는 조작하고 배제하는 것은 아닌지 항상 주의해서 살펴 보아야 한다.]

+ Recent posts