아이티랩 - 공공데이터? 꿰어야 구슬이지!

흔해빠진 말입니다만, ‘구슬이 서 말이라도 꿰어야 보배’라고 합니다. 여기서 구슬을 공공데이터라고 하면, 꿰는 작업은 데이터를 내려받아 활용하는 일입니다. 그리고 공공데이터를 제공하는 기관은 구슬을 만드는 역할을 하는 셈입니다. 그런데 구슬에 실이 들어갈 구멍이 없거나, 똑같은 크기와 색깔이어야 할 구슬을 제각각으로 만들거나, 데이터를 뒤섞어서 담아두면 꿰기 힘들겠죠. 데이터 개방만큼 품질에 대한 고려도 충분히 이뤄져야 하는 이유입니다.

opendata

flickr,justgrimes, CC BY-SA

‘공공데이터에 대한 이용권을 보장하고’

‘공공데이터의 제공 및 이용 활성화에 관한 법률'(약칭 ‘공공데이터법’)이라는 게 있습니다. 목적은 다음과 같습니다.

제1조(목적) 이 법은 공공기관이 보유·관리하는 데이터의 제공 및 그 이용 활성화에 관한 사항을 규정함으로써 국민의 공공데이터에 대한 이용권을 보장하고, 공공데이터의 민간 활용을 통한 삶의 질 향상과 국민경제 발전에 이바지함을 목적으로 한다.

국가가 보유한 데이터를 활용할 수 있게 하고, 이를 활용해 도움이 되길 바란다는 뜻이지요. 그럼 공공데이터란 무엇일까요? 법률에 따른 공공데이터의 정의는 다음과 같습니다.

제2조(정의)의 2항 “공공데이터”란 데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보로서 다음 각 목의 어느 하나에 해당하는 것을 말한다.

이 공공데이터를 ‘제공’한다는 것은 공공기관이 이용자가 기계 판독이 가능한 형태의 공공데이터에 접근할 수 있게 하거나 이를 다양한 방식으로 전달함을 의미(제2조의4)합니다. 공공데이터를 제공할 때는 5가지 기본 원칙이 있습니다. 크게 특별한 내용은 없습니다. ‘공공데이터를 편리하게 이용할 수 있도록 노력해야 하며’, ‘접근과 이용에서 평등의 원칙을 보장해야 한다’ 등입니다.

이렇게 법률을 제정한 결과는 어떨까요? 한국은 전자정부 유엔 평가에서 3회 연속 1위를 차지했고, 올해 OECD 30개 나라 중 공공데이터 개방지수 0.98(1점 만점)로 1위입니다. 그런데 전 세계 개방형 데이터를 품질로 평가하는 ‘세계 공공데이터 지수'(Global Open Data Index)를 보면 한국이 23위를 차지하고 있습니다. 개방 정도는 무척 좋은데, 공개한 데이터의 품질은 영 아니라는 뜻입니다.

데이터 시각화 솔루션 기업 뉴스젤리가 ‘5스타 공공 데이터'(5 star open data) 방법론을 적용해 한국의 공공데이터를 전수조사했습니다. 5스타 공공데이터 방법론은 웹의 창시자 팀 버너스 리가 별점을 이용해 공공데이터를 평가한 지표입니다. 데이터를 분석한 결과, 실제로 공개된 공공데이터의 사용 용이성이 많이 떨어지는 것으로 나타났습니다. 전반적으로는 공급자 중심의 사고가 나타났습니다. 전수조사에 사용한 기준은 다음과 같습니다. 별점 평균이 동일한 기관은 데이터세트 개수로 차등화했습니다.

opendata (3)

조사 결과는 다음과 같습니다.

opendata (2)

자료제공 = 뉴스젤리

opendata (1)

자료 = 뉴스젤리

전반적으로 차등화한 순위에서는 큰 의미를 찾을 수 없었습니다. 대체로 별 1~2개의 비슷한 수준이었습니다. 별점 4~5개의 품질은 찾아볼 수 없었다는 점도 아쉽습니다.

공공데이터 품질평가 전수조사(뉴스젤리)

개방만 문제가 아니다

공공데이터 활용의 문제점은 여기서 그치지 않습니다. 단순히 개방 수준에서의 아쉬움이 아닙니다. 데이터의 자체의 품질에서도 아쉬운 점이 많이 발견됐습니다. 구체적인 사례들을 통해 알아보겠습니다.

opendata (9)

기관별로 제각각인 개방 규칙

데이터를 올릴 때 지켜야 할 가이드라인이 없어서 기관마다 다른 형식으로 데이터를 올리고 있었습니다. 위 사진은 공공데이터 포털을 갈무리한 화면입니다. 지역별로 도서관 현황 관련 데이터를 각각 다른 명칭으로 업로드한 것을 확인할 수 있습니다. 전라북도의 경우 지역을 표기하지 않고 올려서 사용자의 혼란을 일으켰습니다. 또한 동일한 항목 데이터는 종합적인 관리가 필요하지만, 이 부분에 대한 고려도 없었습니다. 자치구별로 올린 데이터를 하나하나 내려받아야 하는 수고가 필요한 셈입니다.

opendata10

opendata11

opendata12

같은 종류, 다른 포맷

해당 데이터가 포함해야 하는 값에 대한 공통된 기준이 없어 다수의 기관에서 제각기 다른 형태로 데이터를 공개하고 있었습니다. 방금 검색한 도서관 현황 자료들을 확인해봤습니다. 어느 기관은 운영 시작시간, 종료시각, 자료 수, 좌석 수, 운영기관명, 홈페이지, 위도, 경도 등의 값을 가지고 있고, 다른 기관은 부지면적, 건물면적, 열람석, 간행물 수, 시청각자료 수 등을 가지고 있습니다. 겹치는 값이 없지는 않지만, 다시 한 번 데이터를 만지는 과정이 필요합니다. 번거롭죠. 위치를 나타내는 위·경도 값도 마찬가지 입니다. 기재 방식도 다르고, 데이터가 없는 곳도 있습니다.

opendata (6)

활용하기 어려운 데이터 형식

데이터 파일의 형식도 중요합니다. 기본적으로 수치자료는 CSV, XLSX 파일이 필요합니다. 한글 파일은 보기엔 참 좋을 수 있지만, 활용하기는 무척 어렵습니다. 기본적으로 문서 파일이기 때문입니다. 아래의 사진은 대구광역시 화재통계 데이터입니다. 보다시피 HWP 파일로 저장된 것을 확인할 수 있습니다.

opendata (7)

알기 어려운 업데이트 주기

공공데이터 포털의 자료 업데이트 주기도 문제였습니다. 주기에 대한 구체적인 설명이 없었으며, 일부 사례에서는 데이터 업데이트가 바로 반영되지 않는 것도 확인할 수 있었습니다. 이 경우 데이터 포털이 아닌 원본 데이터를 제공하는 기관에서 직접 찾는 게 훨씬 효율적일 수 있습니다. ‘국가공무원 합격자 통계’라는 인사혁신처의 데이터가 그 사례입니다. 최종 수정일은 2013년 11월인데, 사이버 국가고시 홈페이지에는 2015년도 데이터까지 업로드돼 있는 상태입니다.

opendata (8)

아쉬운 시각화 작업

시각화에서도 아쉬운 사례가 많이 발견됐습니다. 데이터를 한눈에 보기 위해서는 시각화가 필수적입니다. 공공데이터를 개방하는 다수의 기관이 시민들의 이해를 돕는 시각적인 도구를 제공하긴 했지만, 오류가 발견되는 등 안정화가 덜 된 모습을 보여줬습니다.

구슬도 잘 만들어야 꿴다

직업상 데이터를 자주 만지는 기상청의 김승욱 연구원은 “올라온 자료들은 보고를 위해 생성한 데이터가 대부분이라 분석에 쓰기엔 어려움이 많다”라고 말했습니다. 데이터랍시고 올라온 파일을 보면 내부에서 적당히 정리한 엑셀 파일인 경우도 많습니다.

구슬도 꿰게 만들어져야 꿸 수 있습니다. 단순히 구슬 양만 늘리는 건 딱히 의미가 없죠. 데이터 개방만큼 품질과 사용자 접근성 측면에 대한 고려도 충분히 이뤄져야 하는 이유입니다.

의견 0 신규등록      목록