뉴스타파 DATA 포털

<올해의 오픈 데이터 상 최종 후보>

소속: 뉴스타파 / 한국탐사저널리즘센터
참여자: 최윤원, 연다혜, 김강민, 임송이, 김슬

 

data.newstapa.org

 

기사/프로젝트 내용 요약

뉴스타파가 수집하고 정리하여 보유하고 있는 데이터를 시민단체나 연구자들이 함께 열람하고 다운받을 수 있도록 공개한 사이트입니다. 뉴스타파는 수많은 시민들의 후원으로 운영되는 비영리 독립탐사매체인만큼 취재 과정에서 수집한 데이터는 우리 사회의 공적 자산이라는 판단 하에 기사와 관련된 데이터를 해당 기사와 함께 공개하는 것을 원칙으로 삼아왔습니다. 때문에 데이터 양과 중요도, 활용도에 따라 별도의 특별 사이트를 제작하기도 했습니다. 고위공직자 재산정보 공개 사이트, 20대 국회의원 예산 사용내역 공개 사이트 등이 대표적입니다.

뉴스타파는 보유한 데이터를 한데 모아 공개할 수 있는 데이터포털을 구축하겠다 계획한지 2년만에 데이터포털을 공개했습니다. 이 곳에서는 그간 뉴스타파가 수집 정제하거나 취재해온 모든 데이터를 모아 볼 수 있습니다. 시기에 따라 업데이트된 자료도 한곳에 모았습니다. 일례로 뉴스타파가 연속 보도했던 국가보훈처의 나라사랑 교육 보수 편향 보도에 활용된 강사진 명단은 2012년부터 2015년까지의 데이터를 한 페이지에서 비교 확인할 수 있습니다. pdf,  hwp 등으로 공개되는 자료의 경우 취재진이 변환한 형태의 자료도 함께 다운받을 수 있습니다.

‘뉴스타파 데이터포털’은 새로운 공적 데이터를 계속 업데이트할 예정입니다.

 

기사/프로젝트의 뛰어나거나 혁신적인 점

뉴스타파가 취재과정에서 수집한 각종 데이터를 누구나 열람하고 다운받을 수 있는 ‘뉴스타파 데이터포털’ 사이트를 국내 언론 최초로 공개했습니다. 국내 언론사가 자사의 데이터 원본을 공개하는 일은 처음 있는 일입니다.  뉴스타파의 취재 데이터 공개는 시민들의 알권리를 보장하고, 스스로 검증해볼 수 있는 기회를 제공하기 위해서입니다.

뉴스타파 데이터 포털에는 2012년 뉴스타파 출범 이후 지금까지 취재진이 탐사보도 프로젝트를 수행하면서 수집 정제한 데이터, 그동안 취재 과정에 입수했으나 웹사이트에는 공개하지 않았던 데이터가 수록돼 있습니다. 고위공직자 재산 내역, 친일 경력 교육자 명단, 가짜학회에 참가한 한국 교수 명단, 겸직 미신고 지방의원 명단, 조세도피처를 이용한 한국인 4대강 공사 수주 업체의 정치후원금 현황 등 수십 건의 원본 데이터가 있습니다.

뉴스타파는 수많은 시민의 후원으로 운영되는 비영리 독립 탐사 매체인 만큼 취재 과정에서 수집한 데이터는 우리 사회의 공적 자산이라 판단합니다. 취재 데이터 공개는 시민들에게 공공 데이터를 직접 열람하고 내려받아 이를 검증해 볼 기회를 제공합니다. 이런 과정을 통해 시민들의 공적 데이터 접근성을 높이고 알 권리를 확장해 궁극적으로 민주주의가 성장하는 데 보탬이 될 것으로 기대합니다.

 

프로젝트가 사회에 미친 영향

‘뉴스타파 데이터포털’을 통한 한국탐사저널리즘센터-뉴스타파의 취재 데이터 공개는 시민들에게 공공 데이터를 직접 열람하고, 다운받아 이를 검증해 볼 수 있는 기회를 제공합니다. 또 이런 과정을 통해 시민들의 공적 데이터 접근성을 높이고, 알 권리를 확장해 궁극적으로 우리 민주주의가 성장하는 데 보탬이 될 것으로 기대됩니다. 현재 ‘뉴스타파 데이터포털’에는 모두 57건의 데이터 세트가 올라와 있습니다.

 

보도에 사용된 기술

[키워드 검색과 태그 분류]

‘뉴스타파 데이터포털’ 사이트에서는 검색창에 키워드를 입력해 원하는 자료를 찾을 수 있습니다. ‘고위 공직자 재산’이란 키워드를 검색창에 입력하면 ‘고위공직자 재산 공개 내역’ 뿐만 아니라 ‘원자력 관련 주요 기관장 재산현황’, ‘고위공직자 재산 공개 신고 내역 순위(2013)’ 등 제목과 설명글에 입력한 키워드가 포함된 자료들을 찾을 수 있습니다.

검색을 돕기 위해 자료의 출처와 내용에 맞춰 태그도 입력돼 있습니다. ‘20대 국회의원 예산 사용내역’ 데이터 세트에는 국민의 세금이 사용된 자료이기 때문에 ‘세금’이란 태그를 입력했습니다. 데이터 설명글 하단에 배치된 태그 키워드를 클릭하면 해당 키워드로 분류된 데이터들을 볼 수 있습니다. 시민들의 관심이 높은 ‘국회’, ‘사법’, ‘세금’, ‘안전’, ‘교육’ 등의 태그가 입력된 자료들은 첫 화면에 분류 아이콘을 배치해 관련 자료들을 쉽게 찾을 수 있도록 했습니다.

[UTF-8 방식으로 인코딩된 기계가독형 자료]

뉴스타파 데이터 포털에 업로드된 자료들은 UTF-8 인코딩 방식과 기계가독형 자료(Machine-Readable data) 형식인 csv, xml, json 파일 형식이 기본 규격입니다. 뉴스타파가 직접 수집·정제해 작성한 자료가 아니라 정부 기관 등으로부터 공개 받은 자료로 원본 파일 형식이 xlsx 또는 pdf 형식인 자료들은 원본 파일 형식을 그대로 업로드했습니다. 자료에 따라서는 뉴스타파가 편집한 csv 파일 등도 함께 업로드돼 있습니다. 파일이 csv 와 pdf 형식인 자료는 웹브라우저에서 미리보기 기능이 지원돼 파일을 다운로드받아 열지 않아도 내용을 확인할 수 있습니다.

[자료 활용 방법 안내 위해 커널 기능 업데이트 예정]

뉴스타파는 차후 각 데이터마다 자료 수집 방법, 분석 방법, 활용 방법 등을 커널로 추가 공개할 예정입니다. Google colaboratory를 적극적으로 활용해 누구나 직접 코드를 바로 실행해볼 수 있도록 하기 위해 작업 중에 있습니다. 관리자 페이지인 Django에서 바로 코드를 기입해 구현할 예정입니다.

Category

2019 올해의 오픈 데이터 상

Date published

2019년 11월 15일