GPT-4 기반
정치인 이슈 요약서비스
<폴리스코어>

올해의 데이터저널리즘 혁신 상

소속: SBS 디지털뉴스제작부

전체 참여자: 배여운, 언더스코어

 

기사 보러가기


 

■기사/프로젝트 내용 요약

 스브스프리미엄은 데이터 분석 전문 기업 <언더스코어>와 함께 내년 총선을 앞두고 GPT-4 기반 정치인 이슈 요약 챗봇을 비롯한 댓글 여론, 여론조사 지표를 한눈에 파악할 수 있는 <폴리스코어>를 오픈했습니다. 매일 정치인들의 뉴스가 셀 수 없을 만큼 쏟아지다 보니 정치인 이슈를 파악하기도 어렵고 제대로 된 여론조사의 필요성도 커지고 있습니다.

 

 따라서 <폴리스코어>는 국내 정치 뉴스를 수집해 정치인 별로 이슈를 분석 및 분류하여 GPT-4를 활용해 분석한 내용을 기반으로 똑똑하게 정치인 이슈를 요약해 주는 챗봇을 개발했습니다. 실제로 질문창에 정치 이슈와 관련된 질문을 하면 GPT-4가 정치인 이슈를 요약해 똑똑하게 답변해주고 있는데 기존 데이터저널리즘 프로젝트에서 보기 힘들었던 인공지능(AI)기반 데이터저널리즘을 구현했습니다. 

■기사/프로젝트의 뛰어나거나 혁신적인 점

1. 최초의 인공지능(AI) 기반의 데이터저널리즘 프로젝트입니다. <폴리스코어>는 정치인의 이슈 요약을 사람인 기자가 하지 않습니다. 대규모 언어 모델 (LLM) 기반의 GPT-4가 정치인들의 이슈를 토대로 정치인들의 이슈를 스스로 요약해 준다는 점에서 의미를 가집니다. 

 

2. 할루시네이션(Hallucination) 즉, 환각(왜곡) 현상이 없습니다. 뉴스에서 GPT를 활용하지 못하는 이유는 바로 할루시네이션 때문입니다. 사실(fact) 전달을 중시하는 저널리즘에서 왜곡된 정보 전달은 절대 있어서는 안됩니다. 하지만 기존 GPT는 2021년 9월 기점 데이터만 학습되어 있기 때문에 최신 정치 이슈를 물어보면 엉뚱한 답을 하고 맙니다. 저희는 이같은 문제를 해결하기 위해 검색증강생성(RAG, Retrieval Augmented Generation)을 활용했습니다. GPT라는 기초 모델 외부에서 데이터를 검색하게끔 한 겁니다. 즉, GPT-4는 Open AI에서 학습한 데이터를 참조하는 것이 아니라 폴리스코어가 분석한 데이터를 기반으로 답을 제공하기 때문에 오답을 답할 확률이 0으로 수렴합니다. 

 

3. 여론조사 전수 분석과 댓글 여론이 궁금해? 챗봇뿐만 아니라 베이지안 모델링 기반 여론조사 지표와 댓글 분석을 통한 정치인 여론 지표도 선보였습니다. 현재 스브스프리미엄 정치 컨설팅 코너 <스토브리그>에서 매주 한 주간의 여론조사 지표를 소개하고 있습니다. 우선 베이지안 모델링 기반 여론조사는 여론조사심의위원회에 올라온 여론조사 결과를 폴리스코어가 직접 데이터를 수집해 매일 모델링 기반의 여론조사 추론값을 공개합니다. 특히 다가오는 총선에서 눈여겨봐야 할 점은 바로 응답률입니다. 폴리스코어는 낮은 응답률이 초래하는 왜곡을 사전에 보정하여 모델에 반영하고 있다는 점도 특징입니다.

 

■프로젝트가 사회에 미친 영향

데이터와 팩트에 기반한 정치인 이슈를 한눈에 살필 수 있다는 점과 여론의 흐름을 파악하기 좋은 컨텐츠입니다. SBS는 작년 선거방송에서도 폴리스코어 지표를 코너로 기획해 선보였는데 좋은 반응을 이끌어 냈습니다. 네이버 카페, 블로그, 커뮤니티에서 폴리스코어 지표를 많이 언급했습니다. 작년(2022년) 대통령선거와 지방선거 기간에는 하루 일 방문자만 2만 명에 달했습니다. <폴리스코어>는 정치 혐오를 만들고자 개발한 게 아닙니다. 올바른 지표를 기반으로 건강한 정치를 논의하는데 도움이 되는 숫자를 제공하는 게 목적입니다. 

 

■데이터의 출처와 수집/분석 방법

<데이터 출처>

한국언론진흥재단 <빅카인즈>와 계약한 뉴스 데이터 및 자체 수집한 데이터를 기반으로 하고 있으며 여론조사 데이터의 경우 매일 여론조사심의위원회에 올라온 자료를 직접 입력해 DB를 제작합니다. 뉴스 댓글은 네이버의 댓글을 수집하고 있습니다. 

 

<여론조사 분석 방법론>

동일한 날짜에 진행된 여론조사에도 어떤 후보·정당의 지지율이 더 높은지에 대해 서로 다른 결과가 보고되고는 합니다. 해당 페이지에서는 상태공간모형(SSM, State Space Model)을 기반으로 모든 여론조사 데이터를 종합하는 통합지표를 제공합니다.

 

<뉴스 댓글 지표>

국내 주요 정치인들에 대해 최근 90일간의 언론 보도 비율, 온라인 포털 댓글 패널의 정치인 뉴스별 댓글 작성률 및 악플 비율 등의 시계열 정보를 확인하실 수 있습니다. 한 번에 최대 두 명의 정치인의 뉴스·댓글 지표를 비교 가능합니다.

 

<챗봇 분석 방법론>

OpenAI GPT4를 기반으로 검색증강생성(RAG, Retrieval Augmented Generation) 기술을 활용해 개발한 챗봇입니다. 최근 48시간 동안의 정치 뉴스를 바탕으로, 국내 주요 정치인들 관련 이슈를 개별적으로 질문할 수 있습니다.

 

■보도에 사용된 기술

빅카인즈 뉴스 기사 수집 및 댓글 데이터 수집 : Python, Google Cloud Platform

데이터 정제, 분석 : Python

웹페이지 : HTML, CSS, JS + REACT.JS