[신년특집] AI 신약개발 혁신 중심 K-멜로디 프로젝트
AI기술 적용 플랫폼 협력 가능 생태계 구축 추진
[의학신문·일간보사]
2024년 4월 대한민국 바이오산업의 새로운 장을 열기 위한 야심찬 프로젝트가 시작됐다.
K-MELLODDY, 연합학습 기반 신약개발 가속화 프로젝트는 제약기업·병원·연구소·대학 등 각 기관에서 보유한 신약 개발에 필수적인 민감한 데이터를 보안을 유지하면서 공동 활용할 수 있는 혁신적인 플랫폼 구축을 목표로 시작되었다. 과학기술정보통신부와 보건복지부의 지원을 받는 이 프로젝트는 5년에 걸쳐 진행되며, 2024년 첫해 사업을 성공적으로 마무리했다.
이 프로젝트는 구글이 2017년에 제안하고, EU MELLODDY에서 실증된 새로운 AI 구현 기술인 연합학습(federated learning)을 사용한다. 연합학습의 핵심적인 특징은 각 기관이 보유한 데이터를 외부로 이동하는 대신 외부의 전문 AI 모델 개발자가 구축한 AI 모델을 데이터가 있는 곳으로 이동해 모델의 성능을 점차 개선하는 방식이다.
NVIDIA는 여러 의료기관에서 영상을 직접 공유하지 않으면서도 영상 진단 성능을 높이는데, 연합학습을 사용하고 있다. 연합학습은 기존의 AI 모델 개발에서 가장 어려운 부분인 데이터의 공유 문제를 근본적으로 해결할 수 있는 대안으로 주목받고 있다.
그러나 연합학습이 실제 현장에 보급돼 사용되기 위해서는 아직 풀어야 할 문제가 있으며, 그중 가장 중요한 것은 각 기관에 제공하는 데이터의 양과 품질을 어떻게 공정하게 평가하는 지이다. KMELLODDY 사업단은 이러한 문제를 해결할 방안을 2025년도부터 구체적으로 마련할 예정이다.
◇국내 유수 기관과 사업 방향 공동 설정 등 성과= 프로젝트 첫해의 가장 중요한 성과는 우리나라에서 처음으로 시도되는 연합학습 기반 플랫폼 구축사업에 국내 유수의 기관이 적극 참여하고 사업진행 방향을 공동으로 설정했다는 것이다. 이 사업은 각 기관이 보유한 민감한 데이터를 공유해야 하므로 기관 내부의 의사결정 과정에서 어려움이 많았지만, 최종적으로 연구소·제약사·병원·대학·벤처 등 참여 기관의 구성이 잘 이뤄졌다고 평가를 받았다.
참여 기관 간 협력을 촉진하기 위해 온라인 포럼을 구축해 의견수렴을 하고, 전문가 위원회를 구성해 세부 태스크 설정, 공동 데이터 포맷 결정 등을 진행했다. 또한 데이터 관리 포털을 구축해 기본 데이터(AI 모델을 개발하기 위해 제공되는 샘플 데이터)를 공유하고 이를 통해 AI 모델 개발자들이 구축할 모델을 설계했다.
연합학습 기능을 구현하기 위한 프레임워크는 오픈 소프트웨어인 NVIDIA의 FLARE를 선택해 향후 NVIDIA의 솔류션 탑재가 수월하게 했다.
이 프로젝트에서는 연합학습 기반 플랫폼을 사용해 ADMET(흡수·분포·대사·배설·독성) 및 임상 PK 파라미터 예측을 하는 FAM(Federted ADMET Model) 솔류션 개발을 사업의 주요 목표로 하고 있다. R&D 사업이지만 이와 같이 구체적인 솔류션 구축을 사업 목표로 설정함으로써 연구 방향을 명확하게 했고 FAM을 구축한 이후에는 이를 기반으로 AI 모델의 적용 범위를 확장할 수 있도록 설계했다.
현재 FAM은 입력으로 분자 구조만 사용하지만 향후 타깃 정보, 개인 유전체 및 오믹스 정보, 약물 간 상호 작용 데이터를 추가해 신약개발에 필요한 다양한 AI 모델을 구현하는데 이 플랫폼이 확장될 수 있도록 할 예정이다.
◇플랫폼 구축·글로벌 협력 확대 등 추진= 2025년에는 플랫폼 구축과 FAM 구현 및 시험 운영을 할 계획이며, 2026년 1단계 사업 종료 시에는 FAM 온라인 서비스를 시작할 예정이다.
플랫폼 사용자 인터페이스 개발과 데이터 전처리 도구 배포를 완료하고, 실제 동작하는 플랫폼을 구축할 예정이다. 또한 FLARE 기반의 연합학습 플랫폼의 안정적인 운영과 보안관리 대책을 수립할 예정이다.
데이터 보유기관은 FAM 요구사항을 제시하고 FAM이 제공할 세부 태스크를 구체화하며, 연합학습에 사용될 데이터를 준비하고 필요시 CRO 등을 통해 데이터를 추가 생산할 예정이다. 기존의 상용 ADMET 예측 솔류션과의 비교 등 FAM 사용에 대한 피드백을 제공할 예정이다.
AI 모델 개발자는 파운데이션 AI 모델, 공개 데이터 활용, 전 주기적인(longitudinal) 데이터 수용 방안, 멀티 태스크 예측 등 기존에 없던 도전적인 AI 모델을 개발하고 이를 각자 FAM 구축에 적용한다. 현재 AI 모델 개발팀은 5개 기관이 선정되어 있으며, 2025년도에 추가로 5개 기관을 선정하여 기관 간에 상호협력하며 경쟁하는 방식으로 사업에 참여하게 된다.
FAM 솔류션이 최종적으로 글로벌 경쟁력을 갖는 성능을 얻으려면 현재의 사업 참여 기관 외에 국내외 데이터 보유기관과의 협력을 통하여 학습데이터를 확대하는 것이 필요하며 이에 대한 방안을 마련할 계획이다.
◇K-MELLODDY, 상호 협력 생태계 구축 목표= K-MELLODDY 프로젝트는 특정한 AI 기술을 개발하는 것이 목표가 아니며, 향후 다양한 신약개발 AI가 개발되고 사용자는 이를 빠르게 평가하고 도입할 수 있는 플랫폼을 구축하고, 이 플랫폼을 통해 상호 협력이 가능한 생태계를 구축하는 것을 목표로 한다. 특히 바이오 분야에서 우수한 AI 모델을 만드는데 가장 큰 이슈인 데이터 공유와 활용 문제를 일부 해결함으로써 데이터 기반협력이 가능하다는 것을 입증하고 이를 현장에서 사용할 수 있는 플랫폼을 만들 계획이다.
2024년 노벨상 물리학과 화학 분야 수상자가 AI 관련 연구자로 선정됨으로써 이제 신약개발에 AI를 접목하는 것은 국제적으로 핫이슈가 됐다.
우리는 바이오 데이터를 효과적으로 활용하는 능력에서, 이를 다루는 데이터 사이언티스트 양성에서 타 국가와 다른 전략으로 바이오산업 선도국으로 도약해야 하며 K-MELLODDY 사업도 이러한 국가적 도전에 기여하고자 한다.