연합학습 기반 AI 신약개발 플랫폼 구축 필요하다

제약바이오 AI 혁신 포럼, 정부 차원 AI 신약개발 활용 방안 마련 등 주문

[의학신문·일간보사=김정일 기자] 국내 제약바이오산업의 혁신을 위해 연합학습 기반 AI 신약개발 플랫폼을 구축해야 한다는 주장이 강하게 제기됐다. 이를 통해 개인정보 및 연구 보안이슈를 극복하고 공공과 민간 데이터 연계해 신약개발을 가속화할 수 있다는 것이다.

한국제약바이오협회는 19일 롯데호텔 서울에서 ‘AI 주도 신약개발, 제약바이오 혁신의 새로운 시대’를 주제로 제약바이오 AI 혁신 포럼을 개최했다.

이날 포럼에서는 AI 신약개발시 빅데이터 활용 전략, 연합학습 기술을 활용한 AI 모델, AI 신약개발을 위한 정부·기업간 협력 방안 등이 논의됐다.

“국내 AI 신약개발, 단계별 협업 성과 부족”

제약바이오협회 인공지능신약개발지원센터 김우연 센터장은 ‘AI 신약개발의 글로벌 동향과 우리의 대응’ 발표를 통해 “국내 AI 신약개발 시장은 지난 5년간 빠르게 성장하고 있다”면서도 “단계별 협업 성공사례 및 가시적인 성과는 부족하다”고 지적했다.

김 센터장에 따르면 인력·기술 부분에서는 신약개발을 이해하는 AI 인력, AI를 이해하는 신약개발 인력(융합인재) 부족하고 신약개발 활용 AI기술 검증 기준(예측의 정확도, 자동화의 정도)이 부재한 상황이다.

또한 데이터 부분에서는 공공데이터의 경우 사용절차가 복잡하고, 기업데이터는 구축되지 않았으며, 의료데이터는 접근에 어려움이 있다.

공동연구 부분에서는 영역간 공동연구는 활성화되고 있으나, AI 기술 공급기업과 기술 수요기업 간 적절한 매칭에 의한 공동연구의 가시적인 성과가 부족하다.

투자 부분에서도 AI 신약개발사는 대부분 비상장사이고, AI 기술력만으로 상장 심사가 불가하며, AI 기술투자 자금이 턱없이 부족하다. 여기에 정부지원사업 과제도 시장 성장을 이끌기에는 미흡하다는 설명이다.

김 센터장은 “신약개발 단계별 제약기업의 AI기술 수요와 AI기업의 AI기술 공급에 대한 매칭연구를 통해 단기간 성공사례를 축적해야 한다”며 “전임상·임상 단계에 집중해 전주기 신약개발 과정에 AI 기술 적용해야 한다”고 밝혔다.

또한 “연합학습 기술을 활용해 개인정보 및 연구 보안이슈를 극복하고 데이터 유출없이 공공 및 민간 데이터를 연계 활용할 수 있는 기술을 개발해야 한다”며 “연합학습 기반 AI 신약개발 플랫폼을 구축해 비용 효과적이면서 효율적인 신약개발 연구환경을 조성해야 한다”고 덧붙였다.

여기에 “신약개발 단계별 AI 기술 검증 기준을 마련하고 대표 AI 기술을 확보해 수요자 신뢰를 기반으로 한 공동연구 및 민간투자 활성화가 필요하다”며 “AI 신약개발 관련 학술세미나, 컨퍼런스, 기술발표, 파트너링, 정보교류 기능을 한 곳에 모아 지속적이고 역동적인 생태계 기반을 구축해야 한다. AI신약개발지원센터는 오는 11월 중 관련 컨퍼런스를 개최할 예정”이라고 전했다.

김 센터장은 “유럽에서는 2019년부터 2022년까지 아스트라제네카, 암젠, 바이엘 등 유럽 빅파마 10개사 등 총 17개 기관이 참여한 연합학습 기반 협력 모델 연구인 ‘EU-MELLODDY’가 진행됐다”며 “이를 통해 1000만개 이상 화합물 실험데이터를 활용해 연합학습 플랫폼을 구축했으며, 이는 개별기업 AI 모델보다 2~4% 성능이 향상됨을 확인했다”고 전했다.

한편 글로벌 AI 신약개발 시장규모는 2022년 6억980만 달러에서 2027년 40억350만 달러로 연평균 45.7% 성장할 전망이다. AI 신약개발 글로벌 파트너십은 2017년부터 2022년까지 6년간 232건 체결됐으며, 2023년 1분기까지 제약기업과 AI기업 협업에서는 아스트라제네카가 27건으로 가장 많았고, 이어 머크 22건, 화이자 18건, 노바티스 17건, 얀센 17건, 로슈 17건, 사노피 16건, 바이엘 16건, 다케다 14건 등이었다.

AI 기업과 협업은 ‘선도물질 발굴’에 초점

동아ST 한태동 상무는 ‘AI 활용 신약개발-제약기업의 혁신과 전략적 대응’ 발표를 통해 “우리는 많은 시간이 소요되는 선도물질 발굴에 있어 AI 기업과의 협업에 큰 관심을 가지고 있다”고 말했다.

한 상무는 “인공지능을 통해 신약 개발 기간을 단축하고, 연구비용을 절감하며, 성공확률을 높일 수 있을 것”이라며 “합성신약 후보물질 도출에서 AI를 통해 조기에 물성 및 독성 파악으로 향후 문제점을 미리 제거하는 것이 필요하다”고 말했다.

또한 “정부기관 주도로 인공지능 신약개발 활용 방안을 마련해 제약기업 및 벤처의 신약개발을 가속화해야 한다”며 “이는 막대한 비용, 데이터 확보 어려움, 활용 확대 문제 등으로 정부가 주도할 필요가 있다”고 정부가 내년 신규 과제로 기획 중인 연합학습 기반 신약개발 가속화 프로젝트 ‘K-MELODDY’에 대한 기대감을 드러냈다.

한 상무는 “정부의 ‘K-MELODDY’를 통해 데이터 활용 생태계가 조성될 수 있을 것”이라며 “국내 신약개발 경쟁력을 확보하기 위해선 학교·공공기관·제약바이오·AI기업·IT기업 등 다기관의 협력이 필요하다”고 말했다.

여기에 “상대적 규모가 영세해 공유가능 데이터가 적지만, 약물 발견과정의 실험결과인 ADME/Tax는 공유 활용이 가능한 수준이며, 부족한 데이터는 제약사를 지원해 생산해야 한다”고 덧붙였다.

그는 신약개발 가속화를 위한 협력방안으로 “정부기관 지원 하에 신약개발에 필요한 다양한 인공지능 모델을 개발하고, 인공지능 개발사 역량을 강화해 제약기업·벤처 신약개발을 가속화해야 한다”며 “이어 생성된 데이터를 인공지능 개발사가 활용해 한국형 인공지능 모델을 고도화해야 한다”고 강조했다.

연합학습 AI 모델, 개인정보 유출 위험 등 최소화

카이스트 예종철 교수 ‘데이터 공유 활성화 전략과 연합학습(FL) 기술의 활용’ 발표를 통해 연합학습 기반 AI 모델에 대해 발표했다.

예 교수는 “데이터 3법 시행 이후 가명화, 익명화 데이터에 대한 통계 분석이 가능해졌지만 의료 데이터의 경우 가명화·익명화가 쉽지 않은 문제”이라고 언급했다.

그는 “건강보험공단, 심평원 데이터의 경우 데이터를 중앙에 모아서 수요에 따라 미리 계획을 해서 익명화하고 이를 데이터화해 사용할 수 있도록 하고 있다”면서도 “의료 분야에서는 인공지능 모델이 해결해야 할 일이 수도 없이 나오는데, 그때마다 데이터를 모아 과제를 받고 하면 시간이 많이 걸린다. 이는 중앙집중적으로 미래 수요에 대응해 공급을 예측하기 때문에 생기는 한계”라고 짚었다.

이어 “의료 데이터의 경우는 개인정보의 민감성으로 보안이 요구돼 인공지능 개발에 어려움이 있고, 현재의 중앙집중적인 훈련방식은 AI 개발의 병목 구간이 되고 있다”며 “연합학습을 이용한 분산 학습이 이에 대한 대안으로 떠오르고 있다”고 말했다.

예 교수는 “연합학습은 실제 데이터를 보내는 것이 아니라 모델을 공유해, 학습된 모델을 가져오자는 것”이라며 “모든 제약사에서 같은 모델을 같은 포맷 데이터를 가지고 교육을 하자는 것”이라고 전했다.

그는 “적은 데이터를 가지고도 다양한 외부 검증 상황에서 안정적인 일반화 성능을 보이는 코로나19 진단을 위한 다중학습 비전 트랜스포머 모델을 개발했다”며 “모델 개발 과정의 환자 데이터 유출 위험을 최소화하고 다중 학습 비전 트랜스포머 구조를 효율적으로 활용하기 위한 FeSTA 분산 학습 방식을 제안한다”고 밝혔다.

실제 사전학습 등이 가능한 트랜스포머를 적용한 FeSTA 방식으로 학습된 인공지능 모델이 기존 분산학습 방식들에 비해 우수한 코로나19 진단 성능을 보였다는 설명이다.

상단영역

본문영역