통계의 거짓말:
뉴스는 어떻게 숫자로
우리를 속이는가
데이터는 거짓말하지 않는다. 그런데 데이터를 다루는 사람들은 거짓말을 한다.
나는 뉴스를 믿었다. 정확히는, 뉴스에 등장하는 숫자를 믿었다. 텍스트로 된 주장에는 "글쎄, 그건 그 사람 의견이잖아"라고 넘기면서, 막대그래프 하나만 나오면 아무 의심 없이 고개를 끄덕였다. 숫자가 주는 '객관성의 환상' — 이게 내가 처음으로 통계 왜곡을 공부하면서 배운 말이다.
이 글을 쓰게 된 이유는 간단하다. 지난달 뉴스 하나를 보다가 뭔가 이상하다는 느낌이 들었다. "월세 비중 역대 최고 폭증"이라는 제목에 빨간 꺾은선 그래프가 치솟고 있었는데, 막대 높이를 잘 보니 절대 건수는 거의 그대로였다. 그때부터 나는 제대로 파고들기 시작했다.
체리 피킹 (Cherry Picking)
전체 데이터에서 자신의 주장을 지지하는 일부분만 선택적으로 골라내는 행위를 가리킨다. 마치 과수원에서 가장 예쁜 체리만 손으로 집어가는 것과 같다고 해서 붙은 이름이다.
어디서 많이 쓰이나: 주가 분석, 기온 변화 보도, 정치인 지지율 비교 등 긴 시계열 데이터가 있는 곳이면 어디든 쓰인다.
핵심 식별법: 기사에 제시된 그래프의 X축(시간) 범위가 왜 그 기간인지 반드시 물어봐야 한다.
내가 가장 먼저 배운 기법이 바로 이것이다. 처음에는 "설마 진짜로 이렇게 하겠어?"라고 생각했는데, 실제 뉴스 사례를 하나씩 찾아보니 생각보다 훨씬 자주, 그리고 아주 능숙하게 이루어지고 있었다.
어떻게 확인하나
내가 쓰는 방법은 두 가지다. 첫째, 그래프의 시작점과 끝점이 왜 그 날짜인지 묻는다. 둘째, 가능하면 공공 데이터 원본을 직접 찾아서 더 긴 범위로 다시 그려본다. 이 두 가지만 해도 체리피킹 기사의 절반 이상은 금방 들킨다.
Y축 조작 — 시각적 사기의 정석
막대그래프나 선 그래프의 Y축(세로축)을 0이 아닌 임의의 숫자부터 시작하도록 설정하여, 실제로는 매우 작은 차이를 시각적으로 크게 부풀리는 기법이다.
왜 효과적인가: 인간의 뇌는 그래프를 볼 때 숫자보다 막대의 '길이 비율'을 먼저 인식한다. Y축이 0부터 시작하지 않으면 이 비율이 완전히 왜곡된다.
핵심 식별법: 그래프를 볼 때 항상 Y축의 최솟값이 무엇인지부터 확인해야 한다.
내가 이 그래프를 처음 직접 만들어보고 나서 솔직히 소름이 돋았다. 숫자는 똑같이 40%와 42%인데, Y축 하나만 바꿨을 뿐인데 막대 높이 비율이 완전히 달라진다. 오른쪽 그래프만 보면 B당이 압도적으로 앞서는 것처럼 보인다. 이것이 시각적 사기다.
표본 추출의 오류 (Sampling Bias)
전체 집단(모집단)을 대표하지 못하는 편향된 일부만 골라서 조사한 뒤, 그 결과를 전체의 의견인 것처럼 포장하는 오류다.
왜 심각한가: 아무리 표본 수가 많아도, 편향된 곳에서 뽑았다면 결과는 쓸모가 없다. 오히려 큰 표본 수가 오류에 신뢰감을 더해주는 역효과가 난다.
핵심 식별법: "어디서 응답자를 모집했나"를 먼저 본다. "특정 카페 온라인 설문", "자발 참여자"라는 표현이 있으면 일단 의심이다.
리터러리 다이제스트 잡지는 240만 명이라는 엄청난 표본으로 선거 결과를 예측했지만 완전히 틀렸다. 이유는 단순했다 — 표본을 전화번호부와 자동차 소유주 명부에서 추출했기 때문이다. 1936년 당시 전화와 자동차는 부유층의 것이었다. 즉 240만 명 모두가 특정 계층에 편향되어 있었다.
반면 갤럽은 단 5만 명으로, 인구 비율을 맞춰 추출해 정확히 예측했다. 표본의 크기보다 대표성이 훨씬 중요하다는 증거다.
심슨의 역설 (Simpson's Paradox)
데이터를 전체로 합쳐서 볼 때의 경향과, 세부 그룹별로 나눠서 볼 때의 경향이 반대로 뒤집히는 현상을 말한다. 1951년 통계학자 에드워드 심슨(E. H. Simpson)이 논문에서 정식 기술했다.
왜 발생하나: 각 그룹의 크기(가중치)가 다를 때, 전체 평균이 그 크기 차이의 영향을 받아 개별 그룹 평균과 다른 방향을 가리키게 된다.
핵심 식별법: "전체 평균"만 제시된 기사를 보면, 내부 그룹을 쪼개서 다시 계산해볼 필요가 있다.
"여성이 차별받는다!"
학과별로 보면 여성 합격률이 더 높다!
여학생이 경쟁률이 극도로 높은 학과에 더 많이 지원했기 때문에 전체 평균이 낮아진 것이다.
상관관계 ≠ 인과관계
상관관계(Correlation): 두 변수가 함께 움직이는 통계적 경향. A가 오르면 B도 오른다는 관찰이다. 원인-결과 관계를 의미하지 않는다.
인과관계(Causation): A가 B의 직접적인 원인임을 의미한다. 이를 증명하려면 통제된 실험이나 엄밀한 인과 추론이 필요하다.
교란 변수(Confounding Variable): A도, B도 아닌 제3의 변수 C가 A와 B 모두에게 영향을 주어, A와 B 사이에 가짜 상관관계가 나타나는 경우다.
내가 이 개념을 처음 이해했을 때 가장 재밌었던 사례가 바로 아이스크림과 상어다. 실제로 통계적으로는 꽤 높은 상관관계가 나온다. 그런데 아이스크림이 상어를 부르는 게 아니라, 기온이 높아지면 아이스크림도 더 팔리고 사람들이 해변에도 더 많이 가기 때문에 발생하는 현상이다. 미디어에서는 이보다 훨씬 교묘하게 같은 실수를 반복한다.
기저율 무시의 오류 (Base Rate Fallacy)
어떤 사건이 일어나기 전의 배경 확률, 즉 '원래 그럴 확률'이다. 특정 관찰 결과를 해석하려면 반드시 이 기준값을 먼저 알아야 한다.
기저율 무시의 오류: 기저율을 고려하지 않고 조건부 확률만 보고 결론을 내리는 오류. 베이즈 정리(Bayes' Theorem)에 위반된다.
공식으로 보면: P(원인|결과) = P(결과|원인) × P(원인) / P(결과). 분자에 기저율 P(원인)이 반드시 들어간다.
Z-점수로 뉴스 주장의 이례성 수치화하기
어떤 관측값이 평균에서 표준편차의 몇 배나 떨어져 있는지를 나타내는 표준화 지표다. 서로 다른 단위나 척도를 가진 데이터를 동일한 기준으로 비교할 때 사용한다.
공식: Z = (관측값 − 평균) / 표준편차
해석: |Z| < 2이면 정상 범위, |Z| > 3이면 통계적으로 우연히 발생하기 거의 불가능한 극단적 수치다. 이 경우 조작이나 선택 편향 가능성을 강하게 의심해야 한다.
초기하분포(Hypergeometric Distribution): 복원 없이 뽑는(비복원 추출) 상황의 확률 분포. 여론조사처럼 같은 사람을 두 번 뽑지 않는 경우에 적용한다.
분모: 누적당원 500만
분모: 실효당원 75만
분모를 어떻게 정의하느냐에 따라 같은 숫자가 '정상'도 되고 '불가능'도 된다. 기사가 분모를 어떻게 설정했는지가 핵심이다.
구성효과의 함정 — 전세의 월세화 분석
전체 크기(분모)가 바뀌었을 때 한 구성 요소의 절대량이 변하지 않아도 비율(%)이 달라지는 현상이다. 파이 자체가 줄어들면, 가만히 있던 조각의 비율이 커 보인다.
전월 대비(MoM) vs 전년 동월 대비(YoY): MoM은 계절성 효과가 그대로 반영된다. 이사철(가을)과 비수기(여름)를 비교하면 당연히 수치가 크게 달라 보인다. 계절성을 제거하려면 작년 같은 달과 비교(YoY)해야 한다.
이 그래프를 직접 그려보고 나서야 나는 그 기사의 트릭을 완전히 이해했다. 빨간 꺾은선이 오르는 건 맞다. 그런데 파란 막대와 노란 막대를 같이 보면, 월세 절대 건수는 별로 안 늘었다. 전세 건수가 고금리로 인해 줄어들면서, 월세 비율만 올라간 것이다. 이것이 구성효과의 함정이다.
% vs %p — 가장 흔한 혼동
퍼센트포인트(%p): 두 비율(%)의 단순 산술 차이다. 금리가 2%에서 3%가 되면, 차이는 1%p다.
변화율(%): 원래 값에 대한 변화의 비율이다. 금리 2%에서 3%로의 변화는 (3-2)/2 × 100 = 50% 상승이다. 실제 갚아야 할 이자가 50% 늘었다는 뜻이다.
왜 혼동하나: 기자가 무지하거나, 의도적으로 더 작아 보이는 쪽(%p)을 선택한다. 대출 금리 인상을 보도할 때 "고작 1% 올랐다"고 쓰면, 가계 체감은 50% 폭등인데 아무 문제 없는 것처럼 들린다.
통계 리터러시를 갖추기 위한 체크리스트
내가 이 모든 내용을 공부하면서 느낀 건, 사실 기법 자체는 그렇게 복잡하지 않다는 것이다. 문제는 기사를 볼 때 '생각을 멈추는 순간'이 생긴다는 것이다. 숫자가 나오면 뇌가 "오, 데이터가 있네, 이건 사실이겠지"라는 스위치를 켠다. 그 순간을 잡아야 한다.
- 그래프 Y축의 시작점이 0인지 확인한다.
- X축(시간)의 범위가 왜 그 기간인지 물어본다.
- 표본이 어디서 모집됐는지 — 온라인 자발 참여인지, 무작위 추출인지 확인한다.
- 전체 평균만 보지 말고, 하위 그룹별로 나눠서도 확인한다. (심슨의 역설)
- 상관관계 기사를 인과관계로 읽지 않도록 스스로 경계한다.
- 기저율을 먼저 찾는다. "전체 중 몇 %가 그러한가"를 먼저 확인한다.
- % 변화인지 %p 변화인지 구분한다.
- 숫자가 있다고 해서 자동으로 믿지 않는다.
데이터는 거짓말하지 않는다.
사람이 거짓말한다.
통계 리터러시는 수학 능력이 아니다. 내가 배운 건, 그냥 한 번 더 의심하는 습관이다. 기사에 그래프가 나오면 Y축 숫자를 먼저 보는 것. 표본을 어디서 뽑았는지 각주를 찾아보는 것. 상관관계 기사에 "따라서"라는 단어가 등장하면 멈추는 것.
그 습관 하나가, 누군가 편집한 가짜 현실에 속지 않는 가장 확실한 방법이다.