정형·비정형 임상데이터 표준화 필요하다

보건의료 선진화 앞당기자

디지털시대 의료환경 변화<2>

유럽 12개국 2018년부터 병원정보 CDM 변환 추진
한국 2022년까지 CDM 표준화-SW 개발 보급 예정

박래웅

- 박래웅 아주대 의대 의료정보학과 교수

데이터의 양이 급속하게 늘어나고 종류가 확대되면서, 쌓여가는 데이터의 활용에 대한 관심이 급부상하고 있다. 2012년 세계 경제 포럼에서는 떠오르는 제 1의 기술로 ‘빅데이터’를 꼽은데 이어, 2016년에는 ‘4차 산업혁명’ 시대를 주창하였다. 흥미롭게도, 그 동안은 변화의 수레바퀴가 지나간 후 느긋이 좇아가던 의료계의 상아탑과 의료기관들이 4차 산업혁명의 수레바퀴만은 앞장서 끌고 가는 모습을 보이고 있다.

이 진귀한 현상에 대해서 다양한 해석이 있을 수 있겠지만, 알파고로 대변되는 딥러닝기반 AI 충격, 전자의무기록 (EHR) 및 의료영상저장전송시스템(PACS)에 감당키 어려울만큼 많은 데이터가 쌓여 있다는 점, 의료 행위 특유의 고부가가치성, 유전체 검사 비용의 급격한 감소, 스마트폰의 대두로 인한 병원 밖 환자 데이터의 축적, 정부와 기업의 지원하는 각종 의료빅데이터 및 인공지능 개발 사업 등을 주요 원인이라 할 수 있겠다.

특히 우리나라는 의료보험의 전자 청구 EDI 시스템으로 인해 데이터의 기본적인 통일성이 보장되는 환경 하에, 높은 수준의 전자의무기록 보급률, 우수한 의료인력, 초대형 의료기관의 존재 및 환자 쏠림현상, 저수가 체계로 인한 비용절감 및 생산성 향상 압박 등이 복합적으로 작용하여 대한민국 의료계가 현재 빅데이터, 인공지능, 4차 산업혁명 앓이를 하고 있다 해도 과언이 아니다.

현재 국내에서는 병원의 EHR이나 보험 청구 데이터베이스의 진단, 처방, 검사 등 정형화된 임상 데이터 또는 개별적인 영상 데이터, 유전체 데이터 등을 이용한 연구가 활발히 진행되고 있다. 또한, 웨어러블 디바이스, 의료 영상 인공지능, 질병 예측 인공지능, 블록체인 등 다양한 분야에서 가시적인 성과들이 나오고 있는 것도 사실이다. 하지만 의료 데이터의 활용이 늘어나면서 진정한 의미의 ‘빅데이터’ 구축에 대한 목소리도 커지고 있다. 헬스케어 빅데이터 활용을 위해서는 기관 간 데이터 연계를 통한 데이터의 횡적 확대와 다양한 종류의 의료 데이터를 통합하는 종적 확대가 필요하다는 주장이다.

▲의료데이터 통합 종적 확대 필요

최근까지 국내의 기형적인 개인정보 보호 규제, 의료기관의 데이터 공유에 대한 거부감, 의료기관 간 상이한 데이터 형식 등으로 인해 기관간 데이터 연계가 쉽지 않았다. 이에 대해 대안적으로 부상한 방법이 공통 데이터 모델(Common Data Model) 기반의 분산연구망(Distributed Research Network)이다.

분산연구망이란 각 병원의 데이터를 공통데이터모델로 구조와 의미를 맞추어 표준으로 변환 및 가명화 한 후, 데이터를 한군데에 모으는 대신에 분석 프로그램 코드를 각 병원에 보내어 분석된 통계요약결과만을 병원밖으로 반출하고 취합함으로써, 결과적으로 데이터를 모으지 않고도 데이터를 모아서 분석한 것과 같은 결과를 내는 방식이다. 연구자가 데이터를 직접 볼 수 없으며, 데이터가 병원 밖을 떠나지 않으니 데이터 관리책임을 지는 병원으로서도 안심이다.

전세계적으로 오딧세이(OHDSI)라는 비영리 국제단체가 조직되어 활발히 활동하고 있으며 이런 활동의 결과로 CDM으로 변환된 임상데이터는 전세계적으로 19억명분에 달하고 있다. 유럽에서는 유럽연합의 지원으로 에덴(EHDEN)프로젝트가 결성되어 2018년부터 5년간 유럽 12개국 병원정보를 CDM으로 변환하는 중이다.

국내에서는 산업통상자원부와 보건복지부와의 다부처 사업의 일환으로 CDM기반의 ‘분산형 바이오헬스 통합 데이터망’을 구축 중에 있으며 국내 대부분의 상급종합병원과 일부 종합병원 등 총 62개 기관이 참여하여 현재 2500만명분의 임상데이터가 이미 표준화된 상태이며, 2022년까지 전체 참여 의료기관 내 정형 임상데이터를 CDM으로 표준화 및 가명화하고 이를 활용할 수 있는 플랫폼과 응용 소트프웨어를 개발하여 보급할 예정이다. 최종적으로는 대형 의료기관 또는 3차 의료기관 데이터 뿐 아니라 1, 2차 의료기관에까지 CDM을 확대 보급하는 것이 장기적인 비전이다.

이처럼 정형 임상자료를 표준화하여 연계하는 횡적 확대가 빠른 속도로 진행되고 있는 것에 반하여, 비정형 임상자료의 활용 및 정형 자료와의 융합을 통한 데이터의 종적 확대는 아직 요원한 실정이다. 비정형 데이터란 미리 정의된 데이터 모델이 없거나 정리되지 않은 정보를 뜻한다. 병원에서 생성되는 비정형 자료로는 의사가 자유롭게 기입하는 자유진술문형태의 각종 진료기록이나 검사/시술 기록지, 병리나 방사선 영상, 내시경 사진 및 각종 동영상, 환자감시장치에서 생성되는 실시간 생체신호, 유전자 검사결과 등을 들 수 있다. 이들 비정형 데이터는 의료기관에서 발생하는 데이터의 80% 이상을 차지하지만 대부분 제대로 수집하지 않거나 관리되지 않아 버려지고 있다. 그나마, 가장 활발하게 사용하고 있는 영상 데이터 분야에서도 아직 ‘의료 영상 데이터를 활용한 인공지능 연구를 진행하는 모든 사람이 데이터에 굶주려 있다’라는 볼멘 소리가 나오고 있다.

국내에서 개발한 대부분의 의료 영상 인공지능 시스템들도 단일 또는 소수 의료기관 데이터나 또는 외국에서 공개한 데이터를 사용하고 있어, 외적 타당도 및 다양한 의료 기관에서의 실용 가능성에 대한 검증이 필요하다. 헬스케어 빅데이터, 인공지능 분야의 발전 및 검증에 걸리는 시간을 최소화하고 국제적 경쟁력 확보를 위해서 비정형 데이터를 수집하고, 메타 데이터를 정리하고, 재사용할 수 있는 방법과 체계를 갖추는 것이 시급한 상황이다. 이러한 자료들이 기존의 정형 데이터들과 쉽게 연계된다면 그 값어치가 배가될 것이다.

이와 같이 보건의료 분야에서 AI 개발 및 빅데이터 활용에 있어서 비정형 데이터의 수요가 매우 높으나 비정형 데이터 가공, 정제 과정은 대단히 노동집약적이면서도 고도의 전문성과 기술력을 필요로 한다. 최근 한국에서도 의료분야에 인공지능 바람이 불면서 진료에 바로 사용할 수 있는 의료인공지능 개발을 목표로 소규모의 단기적인 데이터 활용에는 많은 관심이 쏠려 있으나, 기반이 되는 대규모의 비정형 임상데이터 표준화와 가공 기술 개발에는 관심과 투자가 전무하다시피 한 형편이다.

▲의료데이터 ‘승자독식’ 대비해야

그러나 세계적으로는 이미 비정형 데이터와 처리기술을 가장 많이 확보한 국가와 회사가 승자 독식하는 현상이 나타나고 있어서 그렇지 못한 한국은 의료분야 빅데이터 및 인공지능을 놓고 겨루는 국제 경쟁에서 소외될 가능성이 점차 높아지고 있다. 비정형자료의 정제에는 많은 비용과 인력의 투입이 필요하나, 그 성과를 개인 연구자나 의료기관이 거두기는 대단히 어렵기 때문에 미래를 낙관하기 더욱 어렵다.

그러나 이를 긍정적인 면에서 보자면, 대규모 비정형 의료 데이터는 크기와 복잡성 때문에 정제와 표준화 및 분석에 훨씬 더 많은 고급 인력을 필요로 하며, 따라서 고급 일자리 창출 효과가 기대되고 장기적으로 해당 고급 인력들과 확보한 고품질의 임상데이터를 활용한다면 보건의료 인공지능분야에서 세계적 경쟁력 확보도 가능할 것이다. 비정형 임상데이터 자원 확보와 정제 및 표준화, 그리고 이를 이용한 전체 산업의 활성에 국가의 지원이 필요한 이유이다.

최근 CDM기반의 정형 임상데이터를 주로 다루는 오딧세이 그룹에서 한국을 중심으로 유전체 데이터를 위한 Genomic CDM, 방사선영상 데이터를 위한 Radiology CDM, 이들 데이터를 다룰 수 있는 어플리케이션 등, CDM 확장모델과 각종 응용 소프트웨어를 활발히 개발하고 있는 점은 고무적이라 할 수 있다.

4차 산업혁명의 실체에 대해서는 의견이 분분하지만, 탈중앙화, 공유, 개방 및 초연결을 통한 맞춤시대의 지능화 개혁이라는 의견이 대세이다. 정형 및 비정형 헬스케어 빅데이터의 정제와 표준화를 통한 횡적 연계 및 종적 융합은 초연결 시대의 성공을 위한 가장 본질적인 원동력이 될 것이다.

저작권자 © 의학신문 무단전재 및 재배포 금지