한국, 100만명 바이오 빅데이터로 맞춤의료 대도약 준비

백롱민 국가통합바이오빅데이터구축사업단 단장 인터뷰 치매·당뇨·암 등 난제 질환 해법, 국가 통합 바이오 빅데이터 기반 연구에서 찾는다 내년 말 1차 데이터 개방 전망… "연구자 포털로 국내 의학 연구 생태계 혁신”

2025-10-29     이재원 기자

[의학신문·일간보사=이재원 기자] 대한민국이 ‘정밀의료 시대’로의 대도약을 준비하고 있다. 그 핵심에 자리한 사업이 바로 '국가통합바이오빅데이터구축사업'이다. 2023년 예비타당성 조사(예타)를 통과한 이후 본격적으로 가동된 이 사업은 2032년까지 약 100만명의 국민으로부터 임상·유전체·생활습관 데이터를 통합 수집해, 세계적 수준의 바이오 빅데이터를 구축하는 것을 목표로 한다. 

데이터 수집이 순조롭게 진행되는 가운데, 데이터 1차 개방 시기가 내년 말로 예상되고 있어 우리나라 의학연구 수준을 한 차원 높이는 계기가 될 것으로 기대감을 모으고 있다.

백롱민 단장. 

사업단의 ‘선장’인 백롱민 국가통합바이오빅데이터구축사업단 단장<사진, 전 분당서울대병원장, 전 대한의료정보학회 회장>은 최근 의학신문·일간보사와 인터뷰에서 “100만명 데이터는 단순한 숫자가 아니라, 미래 의학을 근본적으로 바꿀 수 있는 열쇠”라며 “질병의 발생 원인과 진행, 치료 반응을 규명하고 나아가 맞춤형 정밀 의료를 현실화할 수 있는 기반이 될 것”이라고 강조했다. 

국가통합바이오빅데이터구축사업은 보건복지부·과학기술정보통신부·산업통상부·질병관리청 등 4개 부처와 국가통합바이오빅데이터구축사업단(한국보건산업진흥원), 3개 정책지정기관(한국보건의료정보원, 한국과학기술정보원, 국가생명연구자원정보센터)이 공동 추진하는, 기관 간 협업이 필수적인 범부처사업이다. 데이터 수집은 1단계(2024~2028년, 77.2만명 모집), 2단계(2029~2032년, 최종 100만명 달성)으로 나뉘어 진행된다. 

수집되는 데이터는 크게 세 가지 축으로 나뉜다. ▲병원 진료와 검사 과정에서 발생하는 각종 검사 수치, 영상, 진단 정보 등의 ‘임상 데이터’ ▲혈액·소변 등 생체 시료와 암 환자의 조직 샘플을 기반으로 한 ‘유전체 데이터’ ▲일상생활에서 발생하는 활동량, 수면 패턴, 식습관, 걸음 수, 웨어러블 기기 기반 '라이프로그 데이터'이다.

백 단장은 “사람이 타고난 정보(유전), 병원 진료에서 발생하는 정보(임상), 그리고 생활하면서 쌓이는 건강 정보(라이프로그)를 통합해 진정한 의미의 ‘바이오 빅데이터’를 구축하는 것”이라고 설명했다.

수집된 데이터는 인체유래물은행(데이터뱅크, 바이오뱅크)에 통합 바이오 빅데이터로 구축된다. 데이터뱅크에서는 생산 및 수집한 모든 데이터를 통합하고 이를 연구 목적 등으로 제공․ 활용할 수 있도록 관리하며, 바이오뱅크에서는 검체로부터 제작된 인체유래물 등과 그에 관련된 정보를 연구 목적 등으로 제공 및 활용할 수 있도록 관리된다.

이렇게 구축된 인프라는 향후 질병의 예방, 진단 및 치료법 개발, 정밀의료 실현, 국민보건 향상, 바이오산업 혁신을 위한 다양한 연구에 활용된다.

세계 최고 수준의 통합형 빅데이터 구축

해외에서도 대규모 인구 집단 기반 바이오뱅크는 존재한다. 영국의 UK 바이오뱅크, 미국의 All of Us 프로젝트 등이 대표적이다. 그러나 한국형 바이오 빅데이터는 이들보다 데이터 통합성 측면에서 앞서 있다는 것이 백 단장의 평가다.

그는 “영국, 미국도 수십만명 데이터를 모았지만, 임상 데이터와 생활 습관 데이터를 통합적으로 수집하는 수준은 우리나라만큼 체계적이지 않다”며 “한국은 병원 진료 기록의 질이 높고, 건강보험 체계와 연계할 수 있는 구조적 장점이 있어 세계적으로도 경쟁력이 크다”고 평가했다.

현재는 38개 의료기관과 연구기관이 참여하고 있으며, 일반 국민과 질환자 모두를 대상으로 모집이 이뤄진다. 일반인 58.5만명, 25개 주요 만성질환 및 암 환자 약 14만명, 희귀질환 환자 약 4.7만명 등이 대상이다.

일반인 비율이 압도적으로 높다. 하지만 상식적으로 ‘일반인’이라고 해서 모두 건강한 것은 아니다. 25종 주요 질환군에 포함되지 않은 다양한 건강 이슈를 가진 사람들이 함께 포함되며, 장기간 추적할수록 “건강한 사람에게 병이 새로 생기고, 환자가 치료를 통해 호전되는 과정”까지 포착된다.

백 단장은 이를 두고 “데이터가 성숙한다”고 표현했다. 그는 “시간이 지날수록 누가 어떤 요인 때문에 병이 생겼고, 치료를 통해 어떻게 변화했는지가 선명해진다”며 “이게 바로 의학이 2천년 동안 풀지 못한 질문들, ‘질병의 발생 원인 등’에 답을 줄 수 있는 열쇠가 될 것”이라고 예상했다.

치매·당뇨·암 등 난제 질환에 답을 찾는다...맞춤형 정밀의료 실현으로 가는 길

이번 사업의 핵심은 전장유전체(Whole Genome Sequencing, WGS) 기반 분석이다. 백 단장은 “희귀질환, 중증질환 참여자 전체를 대상으로 전장유전체 시퀀싱을 수행하며, 일반국민 참여자 중 대조군 1.5만명과 만성이환 13.8만명을 대상으로 수행 예정”이라며 “특히 약 7만명(사업 2단계 완료 시) 규모의 희귀질환 데이터를 포함해, 세계 최대 수준의 희귀질환 빅데이터를 확보할 수 있을 것”이라고 밝혔다

백 단장이 강조하는 대표적인 연구 가능성은 치매, 당뇨, 암이다. 그는 “영국의 UK 바이오뱅크는 50만명을 20년간 추적해 그중 1만여 명의 치매 환자를 역추적 분석함으로써 치매 발병 원인을 밝히고 있다”며 “이처럼 방대한 데이터를 활용한 연구가 치매 연구의 핵심에 도달하는 계기가 되고 있다”고 소개했다. 이어 백 단장은 “우리 역시 이런 방식으로 치매뿐 아니라 다양한 질환의 발병 원인을 거꾸로 규명하고, 예방과 맞춤 치료법을 개발하는 데 결정적인 역할을 하게 될 것”이라고 강조했다.

백 단장은 “왜 어떤 사람은 치매가 생기고, 어떤 사람은 그렇지 않은지 아직 알 수 없다”며 “하지만 100만명 데이터 중 수만명이 장기간 추적 과정에서 치매를 겪게 되면, 그들의 유전·임상·생활 데이터를 분석해 원인을 찾아낼 수 있다”고 바라봤다.

당뇨와 관련해서는 “가족력이 있어도 발병하지 않는 경우가 있고, 반대로 유전적 소인이 없는 사람도 당뇨에 걸린다”며 “체중, 운동, 식습관 같은 생활 습관과 유전자의 상호작용을 풀어낼 수 있을 것”이라고 언급했다. 암과 관련해서는 “과거 암 치료는 융단 폭격식이었다. 항암제는 암세포뿐 아니라 정상세포까지 공격했다”며 “하지만 점점 특정 암세포만을 저격하는 방식으로 발전했고, 진행중이다. 빅데이터가 충분히 쌓이면 이를 통해 개인별로 최적의 표적치료를 설계할 수 있게 된다”고 기대감을 내비쳤다.

국가통합바이오빅데이터구축사업의 궁극적 지향점은 맞춤형 정밀 의료라고 볼 수 있다. 백 단장은 “환자 개인의 유전체, 임상 기록, 생활 습관을 모두 고려한 치료법을 찾는 게 목표”라며 “같은 약을 써도 어떤 사람은 효과가 있고, 어떤 사람은 부작용이 심한 이유를 데이터로 규명할 수 있게 됩니다. 예방·진단·치료 전 단계에서 개인 맞춤형 접근이 가능해진다”고 언급했다.

내년 말 데이터 1차 개방 기대...연구자용 포털도 추진

사업은 2024년 출범해 현재 약 1년 반이 지났다. 첫 해에는 참여 기관과 공동 연구자 확보, 참여자 모집 체계 마련 등 준비 과정에 집중했다. 실제 모집과 데이터 기증은 2024년 12월부터 시작됐다.

사업단은 올해 말까지 데이터 통합관리 시스템을 완성하고, 내년 하반기(10~12월) 중 1차적으로 데이터를 개방한다는 계획이다.

백 단장은 “올해 11월 말이면, 참여자를 등록하고 데이터를 수집하는 참여자 관리 시스템이 정식 오픈될 것”이라며 “그 이후 수집된 데이터가 쌓이면, 연구자들이 들어와서 데이터를 활용할 수 있는 연구자 포털을 만드려고 한다. 이는 내년 말 정도로 완성 시기를 전망하고 있다”고 언급했다.

백 단장은 “단순히 병원에서 데이터를 받아 쌓는 것이 아니라, 38개 의료기관에서 전달받은 자료를 표준화하고 용어를 통일하는 ‘데이터 큐레이션’ 과정이 필수적”이라며 “이 작업에 상당한 시간과 인력이 투입되고 있다”고 설명했다.

그는 “데이터셋을 완성한 뒤, 연구자들이 활용할 수 있도록 단계적으로 공개할 예정”이라며 “데이터는 정기적으로 갱신돼 점점 더 풍부한 형태로 발전할 것”이라고 말했다.

국가통합바이오빅데이터사업 흐름도. [사진=사업단 홈페이지]

아울러 중요한 데이터 보안에 대해 백 단장은 단호했다. 

“저희가 다루는 것은 개인 식별이 불가능한 데이터입니다. 병원이 보관하는 원본 데이터 중, 참여자가 동의한 항목만 복사해서 가져오는 것이고, 개인 식별자가 없습니다. 보안 수준은 철저히 관리하고 있습니다. 개인정보 유출 우려는 사실상 없다고 보셔도 됩니다.”

‘Now or Never’...한국 의학의 미래가 달린 데이터 구축 사업

“이 데이터를 지금 구축하지 못하면 앞으로 의학의 미래가 없습니다. 모든 의학은 여기서 나올 겁니다.”

백롱민 국가통합바이오빅데이터구축사업단장은 위기의식을 통해 국가 단위 바이오 빅데이터 구축의 중요성을 다시 한번 강조했다. 그는 “바이오 빅데이터는 미래 의학의 토대이자 국가 경쟁력의 핵심 자산”이라고 말했다.
.
백 단장은 “전 세계적으로 이런 대규모 데이터를 확보하려는 이유는 명확하다. 의학의 혁신은 결국 데이터 기반 연구에서 비롯되기 때문”이라며 “그러나 이를 시작하기 위해서는 방대한 데이터를 수집할 수 있는 인프라, 자발적으로 참여해 데이터를 기증하는 국민의 신뢰, 그리고 이 데이터를 실제 의학 발전으로 연결할 수 있는 연구 수준이 모두 갖춰져야 한다”고 설명했다.

그는 “이러한 조건을 동시에 갖춘 나라는 많지 않다”며 “최근 일본, 싱가포르, 중국 등도 국가 단위 바이오데이터 구축에 나서고 있으며, 우리나라 역시 본격적으로 이러한 흐름에 동참하고 있다”고 덧붙였다.

“우리가 지금 쌓는 데이터는 단순한 연구 자산이 아니라, 미래 세대에게 물려줄 국가적 의료 자산입니다. 10년 뒤 한국 의료는 지금과 전혀 다른 모습이 될 것입니다. 그 기초 토대를 지금 다지고 있는 겁니다.”