제한적 훈련 데이터부터 실세계와 차이 문제점 지적

메드스케이프

[의학신문·일간보사=김자연 기자] 환자 별 최적 치료 선택을 위해 종양학 전문의를 돕는 툴로 공격적 마케팅을 벌이던 IBM의 종양학 왓슨이 기대에 미달하며 아직 시기상조라는 평을 받고 있다.

메드스케이프에 따르면 최근 스태트는 IBM 내부 문서를 인용, 심지어 세계적으로 왓슨 프로모션을 벌이던 와중에서도 왓슨이 종종 잘못된 치료 조언을 내며 안전하지 못하고 부정확한 여러 치료를 권고한 사례가 확인됐던 것으로 드러났다고 보도했다.

새로운 바이오마커 및 변이와 신약이 쏟아져 나오며 암 치료 요법 선택에 고된 시간이 걸리는 가운데 왓슨은 전체 게놈 시퀀싱 분석을 가속화해 전문가 팀이 160시간에 분석할 결론을 10분 만에 내놓는다.

그러나 실세계 환경에서 왓슨은 이보다 못한 성적을 내는데 이는 시스템 훈련 방식에서 기인한 문제라는 지적이다. 스태트가 보도한 IBM 문서는 이에 대해 왓슨이 IBM의 엔지니어와 메모리얼슬론케터링 암센터의 종양학자에 의해 훈련받은 탓이 크다고 지적했다.

결과적으로 이는 실제 환자가 아닌 적은 수의 가상적인 합성 암 환자로 인해 구멍이 뚫렸다는 것. 또한 왓슨은 각 암 종류에 따라 가이드라인이나 근거보다는 소수의 전문가에 의해 훈련됐다.

아울러 IBM 제품 정보에 따르면 왓슨이 실제 환자 데이터로 계속 훈련을 받고 메모리얼슬론케터링 암센터로부터 나온 수천의 케이스에 대한 환자 데이터를 분석한다고 주장하지만, 실제 8종 암에 대한 각 케이스는 폐암에 635건, 난소암에 106건 등 총계의 일부에 불과하다는 지적이다.

작년 말에도 스태트는 왓슨에 대해 다른 형태의 암에 대해 학습하는 기본적 단계에서 여전히 분투하고 있을 뿐 갈 길이 멀다고 지적한 바 있다. 당시 병원 및 의사, IBM 경영진, AI 전문과 등과의 인터뷰 결과 종양학 왓슨은 아직 유아기로 IBM이 왓슨을 완전히 평가하지도 않고 성급하게 내놓았다는 평을 받았다.

이와 함께, 월스트리트 저널도 최근 비슷하게 왓슨이 부정확하다며 부정적으로 보도했다. 이에 따르면 왓슨은 희귀 또는 재발 암에 대한 데이터의 부족으로 실수를 일으키며 치료제들도 왓슨의 인간 훈련자들이 업데이트시킬 수 있는 능력보다도 더욱 빠르게 발전하고 있다. 무엇보다도 아직도 왓슨이 환자의 결과를 개선시켰다는 연구 결과가 발표되지 못했다는 것이 한계다.

더불어 유전체학 왓슨도 미국의 다수 병원에서 시험됐으나 여러 센터의 의사들에 의하면 그 결과는 항상 정확하진 못하며 맞다 해도 종종 이미 알고 있던 정보였고 신뢰도가 의문으로 이용도가 낮다는 문제다.

이에 대해 메드스케이프는 AI 시스템의 질은 훈련받은 데이터에 따르는 만큼 시스템이 소수의 의사에 의해 이미 최적화된 환자 기록으로 훈련됐으면서 실제 환자 데이터로 훈련받았다고 주장하는 것은 부적절하다는 전문가의 의견을 인용했다.

이에 따르면 기계 학습 도구는 전자건강기록(EHR) 데이터를 이용해 구축되지만 많은 환자가 여러 기관에서 치료를 받는 만큼 누구도 완전한 기록을 갖고 있지 않아 그 데이터는 한 환자에 대해 모든 것을 알기에 불완전하므로 진단 및 치료 결정에 이용되는데 우려가 있다. 특히 왓슨은 메모리얼슬론케터링 암센터의 방식으로 편향돼 모든 케이스에 맞지 않을 수 있다는 지적이다.

이와 관련, 올 초 IBM이 왓슨 헬스 사업부에 인력 감축을 발표한데 대해 의사 결정 개선은 단순 정보 요약 이상으로 많은 요인과 관련돼 있기 때문에 생각보다 쉽지 않은 것으로 지적됐다. 또 IBM이 처음부터 무리하게 종양학 시스템을 만들기보다 일반 내과나 가정 의학과 등 중간 수준으로 환자를 돕는데 초점을 뒀다면 성공했을 수도 있다는 조언이다.

한편, IBM이 수십억달러를 투입한 세 개의 종양학 툴인 왓슨 온콜로지, 임상시험 매칭, 유전체학은 세계 총 230개 병원 및 의료기관에서 이용돼 8만4000명의 환자에 대해 도달했으며 미국 외 아시아에 가장 크게 진출됐다.

저작권자 © 의학신문 무단전재 및 재배포 금지