
뉴스 텍스트 내 인물, 장소, 기관을 자동으로 분석한 관계도가 떠오른다. 인물로는 이건희가 장소로는 미국, 중국, 일본이 기관으로는 삼성그룹, 애플 등이 삼성전자를 둘러싸며 그물망을 만든다.
언론계에도 빅데이터 활용이 화두로 떠오르고 있다. 언론재단이 19일 오후 프레스센터 20층 국제회의장에서 '뉴스빅데이터 분석시스템, 빅카인즈 서비스 출범 행사'를 통해 공개한 빅카인즈가 대표적이다.
기존 데이터에 비해 방대한 데이터가 빅데이터다. 이전 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터 세트를 가리킨다.
빅카인즈는 뉴스 관련 빅데이터를 분석하는 시스템이다. 재단의 기존 뉴스 아카이브이자 기사정보서비스인 카인즈에 빅데이터 분석시스템을 적용했다.
카인즈는 1990년대 구축됐다. 하지만 네이버, 다음 등 포털사이트의 뉴스서비스 확대 이후 투자 부족과 과거 뉴스가치 인식 부족 등으로 이용률이 저조했다.
카인즈 기반의 뉴스빅데이터 수집, 연계, 융합, 분석 서비스에 대한 필요성 대두될 수밖에 없었다. 언론재단이 2014년부터 본격적인 준비에 들어가 빅카인즈를 탄생시킨 이유다.
1990년부터 현재까지 기사 디지털화를 통해 축적된 3000만건 뉴스 분석을 기반으로 한다. 현재도 일평균 1만5000건씩 증가하고 있다.
뉴스 속 인물, 기관, 장소, 사건, 사고 등에 대한 데이터가 쌓일수록 관계망이 촘촘해진다. 그 만큼 다양한 분석 기사로 뻗어나갈 여지가 생기는 셈이다.
일반인과 전문가용으로 구분해 서비스된다. 일반인에게는 기사 내 키워드, 인물·장소·기관 등 개체명, 정보원, 이슈트렌드 분석과 개체명 간 네트워크 분석 등의 서비스를 제공한다.
언론인, 학자, 전문가들을 위한 '빅카인즈프로(BIG KINDS-Pro)'는 이용자가 직접 데이터 마이닝(data mining)을 통해 분석결과를 얻고 시각화할 수 있다. 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견, 앞으로 실행 가능한 정보를 추출해 내는 것이 데이터마이닝이다.
빅카인즈는 이로 인해 특히 어뷰징 기사가 넘쳐나는 언론 생태계에서 기자들에게 차별화된 기사를 쓸 수 있는 틀거리를 제공해줄 것으로 기대를 모으고 있다.
다양한 영역으로 뻗어나간 관계도는 기자가 미처 생각하지 못한 부분까지 짚어준다. 색다른 분석 기사에 대한 아이디어를 제공하는 것이다. 키워드와 트렌드는 물론 감성분석까지 가능하다. 분석결과를 시각화, 기사 전체 틀을 구상해볼 수 있는 틀거리까지 제공해준다.
'정보원 분석 서비스'도 눈길을 끈다. 어떤 인물이 특정 주제와 관련해 얼마나 발언했는지를 조사할 수 있다. 해당 인물의 관심사를 확인할 수 있는 셈이다. 박근혜 대통령과 관련 '국회'라는 검색어를 입력하면 박 대통령의 국회 언급 빈도수가 확인 가능하다.
시간의 흐름에 따른 중요 인물의 인용문 분석도 가능, 박 대통령이 시기별 발언도 확인할 수 있다. 박근혜 정부가 중요시해온 국정 흐름도 파악이 가능하다는 얘기다.
빅카인즈는 키워드 간의 관계 분류인 '텍사노미'를 활용한다. 맥락에 배치되는 단어다. 컴퓨터 내 폴더처럼 상위 텍사노미에 한국 대통령을 만들어놓고, 역대 대통령 이름을 이곳에 저장해놓으면 분류체계를 생성할 수 있다. 이용자가 스스로 검색 질의어 구성을 만들 수 있는 셈이다.
이와 함께 빅카인즈는 기본적으로 언어의 형태소, 개체명·구문 분석 등으로 시스템이 작동된다. 수지라는 검색어를 입력했을 때 맥락에 따라 그룹 '미쓰에이' 멤버 수지, 용인 지역의 지명 이름인 수지를 구분하는 방식으로 중의어를 파악한다는 것이다.
언론계는 빅카인즈가 발굴 기사 등을 통해 독자들의 흥미 유도는 물론 언론사에 새로운 수익모델을 가져달 수 있는 수단의 가능성을 점지고 있다.
언론재단과 빅카인즈를 협업한 빅데이터 기반 솔루션 개발업체 '솔트룩스'의 이경일 대표는 "뉴스콘텐츠가 새로운 가치가 될 수 있다"고 말했다.
언론재단은 향후 재검색 기능 등 텍사노미 관리, 편집 편의성을 향상시킨다는 입장이다. 구문패턴 처리 용량도 현 수천 단위에서 수만 건 단위로 확장할 계획인다. 뉴스 외 소셜 데이터 분석 기능 추가하는 방안도 검토하고 있다. 또 빅카인즈 서비스를 활용한 창업을 지원하기 위해 5월부터 스타트업 세미나, 아이디어 공모전 등을 연다.
언론재단 관계자는 "뉴스콘텐츠 활용 스타업이 활성화돼 청년 일자리가 창출될 수 있을 것"이라고 기대했다. 이와 함께 "기업의 소비 환경 분석, 공공기관의 정책개발, 스타트업의 새로운 콘텐츠 개발, 학계의 보도 분석 등에 사용될 것"이라고 덧붙였다.
문화체육관광부와 언론재단은 지난 2015년부터 정부3.0 정책의 하나로 정보의 사회적 활용 가치를 높이기 위해 '뉴스빅데이터 분석시스템' 개발 사업을 추진해왔다. 향후 빅카인즈 처리 용량을 확대하고 공공 DB와의 연계를 통해 시스템을 확장한다는 계획이다.