subvisual

2022년 3월 9일 수요일에 제20대 대통령을 뽑는 선거가 있다. 이 때문에 일간 신문, 경제 신문, 방송사, 인터넷 신문, 뉴스 통신사 등 국내 언론사는 거의 매일 같이 후보자 지지율 설문 조사를 인용해 보도하고 있다. 이들 기사 원문을 보면, 다음과 같이, 형식적인 설명 문구가 공통으로 나타난다.


“자세한 조사 결과와 개요는 중앙여론조사심의위원회나 한국사회여론연구소 누리집을 참고하면 된다.”(한겨레), “자세한 내용은 중앙선거여론조사심의위원회와 한국사회여론연구소 홈페이지에서 확인할 수 있다.”(매일경제신문), “자세한 내용은 중앙선거여론조사심의위원회나 리얼미터 홈페이지를 참고하면 된다.”(조선일보), “그 밖의 사항은 중앙선거여론조사심의위원회 홈페이지를 참고하면 됩니다.”(MBC), “이번 조사 설문지와 결과표는 중앙선거여론조사심의위원회 홈페이지에서 확인할 수 있습니다.”(KBS) 위 문구에서 한겨레는 ‘중앙선거여론조사심위원회’를 ‘중앙여론조사심의위원회’로 잘못 표기했다.


기사를 쓴 기자도 중앙선거여론조사심의위원회나 조사기관 홈페이지에서 설문 문항과 응답 결과를 직접 확인하지 않았을 것이다. 대신에 조사기관이 보낸 보도 자료와 요약된 내용을 보고 기사를 작성했을 가능성이 크다. 마감 시간과 여러 사건을 취재해야 하는 기자가 원자료를 확인할 시간이 없다고 주장할 수 있다. 그러나 수치만 나열하는 여론조사 보도는 이 조사가 갖는 근본적 한계를 간과하고 오히려 실제 여론에 영향을 미치는 문제점이 있다.


여론을 정확히 파악하고 방향성을 예측하려면, 전체 유권자에게 가장 이해하기 쉬운 질문을 던져 반응을 조사하는 일을 생각할 수 있다. 그러나 이는 유권자 수가 천만 명 이상으로 대규모여서 현실적으로 불가능하다. 대안으로 1,000명에서 2,000명 안팎의 대표 표본을 상대로 질문하는 설문 조사가 선거철에 진행된다. 중앙선거여론조사심의원회의 ‘여론조사결과 현황’을 접속하면, 다양한 조사기관이 발표한 여론조사가 거의 매일 올라와 있다. 여론조사가 하나의 상업적 상품이 된 느낌이다. (URL : https://www.nesdc.go.kr/portal/bbs/B0000005/list.do?menuNo=200467)


이들 자료가 워낙 많고 종류가 다양해 하나의 연구 대상이 될 정도다. 이 대목에서 언론인은 이렇게 넘치는 여론조사와 결과가 과학적인 타당성과 신뢰성을 갖느냐는 의문을 제기해야 한다. 국외 정치 커뮤니케이션 연구자들은 여론조사를 분석해 이 조사가 타당한지, 실제 여론에 영향을 미치는지 등을 분석했다. 여론을 가늠하는 설문 조사 자체가 분석 대상이 된 것이다. 국내외 정치 과정에서 여론조사가 당선 결과를 틀리게 예측해 신뢰성이 추락했으며, 과학적 타당성이 부족한 것으로 드러났다. 대표적인 사례가 2016년 11월 8일에 있었던 미국 45대 대통령 선거에서 대부분 여론조사가 힐러리 클린턴이 승리할 것이며, 심지어 뉴욕타임스는 도널드 트럼프 후보자가 패배를 받아들일 준비를 하라고까지 했다. 그러나 결과는 트럼프의 승리였다. 국내에서도 2016년 4.13 국회의원 선거에서 새누리당이 과반을 차지할 것이라는 여론조사가 대부분이었으나, 더불어민주당이 승리했다.


 이처럼 여론조사가 겪은 역사적 실패에도 불구하고 미국 언론과 국내 언론은 선거철이 되면, 여론조사 수치를 주요한 내용으로 보도하는 모습을 반복하고 있다. 여론조사에 의존하는 뉴스 제작 관행이 바뀌지 않기 때문이며, 또한, 여론조사를 대체할 만한 방법을 찾지 못하는 역량 부족도 원인일 것이다. 이에 필자는 언론이 여론조사 과정을 취재 대상으로 삼아, 이것이 과연 과학적인 분석 방법인지, 더 근본적으로는 후보자 지지율 등 여론 흐름을 예측하는 일이 과연 가능한 것인지 등을 치밀하게 다뤄야 한다고 제안한다. 전체 지지율이나 나이별 지지율 등 단순 계량적인 정보로 여론 흐름을 파악하는 접근은 상당히 일차원적인 태도이다. 이런 보도를 매일같이 쏟아내는 언론 모습은 마치 기업 보도 자료를 단신 기사로 처리하는 편의적인 태도라는 비판을 받을 것이다. 패널을 모집해 이들의 여론을 추적하는 방식, 별도 집단을 모집해 이들에게 특정 후보자 지지 이유, 선호하는 정책 등 깊이 있는 정보를 파악하는 방식, 페이스북, 트위터, 인터넷 커뮤니티 사이트, 기사나 유튜브 댓글 등 디지털 공간에 있는 글을 대규모로 수집해 분석하는 방식 등을 병행해 여론의 복잡성을 이해하려는 노력이 중요하다.


 이미 학계에는 ‘computational social science’ 또는 ‘computational communication’이라는 흐름이 존재한다. 이들 연구자는 R, Python, Ruby 등 대중적인 프로그래밍 언어로 대용량 텍스트를 분석해 숨어 있는 의미와 흐름, 프레임, 의제, 논조 등을 분석한다. 이런 접근을 선거 여론을 추적하는 데에 적용하려는 창발적인 자세가 필요하다. 이를 위해서는 언론인, 학계 연구자, 업계 전문가 등이 여론을 반영한 다양한 데이터를 정확하게 수집하고, 이를 공동으로 분석하는 협업이 중요할 것이다. 이런 노력에 대학 연구자나 대학 학부생, 대학원생 등이 적극적으로 참여하기를 기대해본다.


신문방송학과 임종섭 교수('기계학습기반의텍스트마이닝' 강의)


첨부파일