■기사/프로젝트의 뛰어나거나 혁신적인 점
1. 최초의 인공지능(AI) 기반의 데이터저널리즘 프로젝트입니다. <폴리스코어>는 정치인의 이슈 요약을 사람인 기자가 하지 않습니다. 대규모 언어 모델 (LLM) 기반의 GPT-4가 정치인들의 이슈를 토대로 정치인들의 이슈를 스스로 요약해 준다는 점에서 의미를 가집니다.
2. 할루시네이션(Hallucination) 즉, 환각(왜곡) 현상이 없습니다. 뉴스에서 GPT를 활용하지 못하는 이유는 바로 할루시네이션 때문입니다. 사실(fact) 전달을 중시하는 저널리즘에서 왜곡된 정보 전달은 절대 있어서는 안됩니다. 하지만 기존 GPT는 2021년 9월 기점 데이터만 학습되어 있기 때문에 최신 정치 이슈를 물어보면 엉뚱한 답을 하고 맙니다. 저희는 이같은 문제를 해결하기 위해 검색증강생성(RAG, Retrieval Augmented Generation)을 활용했습니다. GPT라는 기초 모델 외부에서 데이터를 검색하게끔 한 겁니다. 즉, GPT-4는 Open AI에서 학습한 데이터를 참조하는 것이 아니라 폴리스코어가 분석한 데이터를 기반으로 답을 제공하기 때문에 오답을 답할 확률이 0으로 수렴합니다.
3. 여론조사 전수 분석과 댓글 여론이 궁금해? 챗봇뿐만 아니라 베이지안 모델링 기반 여론조사 지표와 댓글 분석을 통한 정치인 여론 지표도 선보였습니다. 현재 스브스프리미엄 정치 컨설팅 코너 <스토브리그>에서 매주 한 주간의 여론조사 지표를 소개하고 있습니다. 우선 베이지안 모델링 기반 여론조사는 여론조사심의위원회에 올라온 여론조사 결과를 폴리스코어가 직접 데이터를 수집해 매일 모델링 기반의 여론조사 추론값을 공개합니다. 특히 다가오는 총선에서 눈여겨봐야 할 점은 바로 응답률입니다. 폴리스코어는 낮은 응답률이 초래하는 왜곡을 사전에 보정하여 모델에 반영하고 있다는 점도 특징입니다.
■프로젝트가 사회에 미친 영향
데이터와 팩트에 기반한 정치인 이슈를 한눈에 살필 수 있다는 점과 여론의 흐름을 파악하기 좋은 컨텐츠입니다. SBS는 작년 선거방송에서도 폴리스코어 지표를 코너로 기획해 선보였는데 좋은 반응을 이끌어 냈습니다. 네이버 카페, 블로그, 커뮤니티에서 폴리스코어 지표를 많이 언급했습니다. 작년(2022년) 대통령선거와 지방선거 기간에는 하루 일 방문자만 2만 명에 달했습니다. <폴리스코어>는 정치 혐오를 만들고자 개발한 게 아닙니다. 올바른 지표를 기반으로 건강한 정치를 논의하는데 도움이 되는 숫자를 제공하는 게 목적입니다.
■데이터의 출처와 수집/분석 방법
<데이터 출처>
한국언론진흥재단 <빅카인즈>와 계약한 뉴스 데이터 및 자체 수집한 데이터를 기반으로 하고 있으며 여론조사 데이터의 경우 매일 여론조사심의위원회에 올라온 자료를 직접 입력해 DB를 제작합니다. 뉴스 댓글은 네이버의 댓글을 수집하고 있습니다.
<여론조사 분석 방법론>
동일한 날짜에 진행된 여론조사에도 어떤 후보·정당의 지지율이 더 높은지에 대해 서로 다른 결과가 보고되고는 합니다. 해당 페이지에서는 상태공간모형(SSM, State Space Model)을 기반으로 모든 여론조사 데이터를 종합하는 통합지표를 제공합니다.
<뉴스 댓글 지표>
국내 주요 정치인들에 대해 최근 90일간의 언론 보도 비율, 온라인 포털 댓글 패널의 정치인 뉴스별 댓글 작성률 및 악플 비율 등의 시계열 정보를 확인하실 수 있습니다. 한 번에 최대 두 명의 정치인의 뉴스·댓글 지표를 비교 가능합니다.
<챗봇 분석 방법론>
OpenAI GPT4를 기반으로 검색증강생성(RAG, Retrieval Augmented Generation) 기술을 활용해 개발한 챗봇입니다. 최근 48시간 동안의 정치 뉴스를 바탕으로, 국내 주요 정치인들 관련 이슈를 개별적으로 질문할 수 있습니다.
■보도에 사용된 기술
빅카인즈 뉴스 기사 수집 및 댓글 데이터 수집 : Python, Google Cloud Platform
데이터 정제, 분석 : Python
웹페이지 : HTML, CSS, JS + REACT.JS