첨단의료기술과 미래의료산업 조망

[의학신문·일간보사] - 박외진 ㈜아크릴 대표이사

필자 : 너는 인간을 공감할 수 있니?

chatGPT : 저는 인공지능으로, 인간처럼 진정한 감정을 느끼거나 공감할 수는 없습니다. 하지만 대화에서 사용자의 감정이나 관심사를 파악하고 이해하려고 노력합니다…(중략)...

그러나 이것은 기계적으로 학습된 패턴을 따르는 것이지, 진정한 인간의 공감과 같지는 않습니다.

chatGPT와의 대화 중에서(2023년 3월 20일)

박외진 ㈜아크릴 대표이사
박외진 ㈜아크릴 대표이사

인공지능이 일으킨 최초이자 최대 규모의 ‘소란’

난리도 이런 난리가 없다. 적어도 새로운 인공지능 기술이 발표된 직 후의 사회적 반응만 보면 말이다. 2022년 4월에 OpenAI 에서 발표한 이미지 생성형 인공지능[1] ‘DALL.E-2’ 로부터 알려진 그 신통방통한 능력(내가 원하는 그림을 문장으로 입력(prompt)하면 그럴듯한 그림을 그려주었다!)은 같은 해 9월, ‘미드저니(Midjourney)’라는 인공지능이 그린 그림을 이용한 작품이 ‘콜로라도 주립 박람회 미술대회’의 디지털 아트 부문에서 1등을 하면서 전세계적으로 생성형 인공지능에 대한 거대한 관심을 만들어 냈다. 2016년 3월에 우리에게 찾아온 ‘알파고’ 가 보여줬던 무시무시한 능력으로 형성되었던, 그러나 일상에서 우리가 접한 인공지능 기술들(특히 대화형 인공지능 들)의 ‘기대 이하’의 성능으로 수면아래에 잠자고 있던 사람들의 ‘인공지능에 대한 잠재적 관심’을 일시에 폭발시킨 양상이다. 그래서 지금 전세계의 빅테크들은 너도 나도 chatGPT와 같은 ‘거대한 인공지능 언어 모델(Large Language Model)[2] 을 이용한 서비스를 준비한다고 허둥지둥대고 있다. 구글의 ‘람다(LaMDA)’를 품은 (등장이 그리 유쾌하지 않았던) 음유시인 ‘바드(Bard)’부터 바이두(Baidu)의 ‘어니(Earnie) 3.0’을 기반으로 한 ‘어니봇’, 구글이 투자한 앤트로픽(Anthropic)의 ‘클로드(Claude)’, 그리고 LG 전자의 엑’사원(Exaone)’과 네이버의 ‘하이퍼 클로버X’ 까지. 그리고 ‘23년 3월 17일, 마이크로소프트는 ‘코파일럿(copilot)’을 발표하며 진정한 ‘오피스 AI’로서 우리가 흔히 사용하는 엑셀, 파워포인트 등의 제품군에 통합된다고 발표하였다. 이렇게 ‘일과 일상’ 모두에 우리가 생각하는 것보다 훨씬 더 빨리 이 ‘생성형 AI’는 성큼 더 다가와 있다. 1950년에 발표된 영국의 수학자 앨런 튜링의 논문(“Computing machinery and Intelligence”)을 상징적인 인공지능 시대의 시작점으로 본다면, 인공지능이 이런 ‘소란’을 불러 일으킨 건 적어도 지난 70년간의 인공지능 역사를 검색해 보면 최초의 일임이 분명하다.

이 ‘소란’이 의료/헬스케어에 미칠 영향은 ?

이 ‘소란’을 전문가들은 어떻게 보고 있을까. 전 세계적으로 인공지능 업계에 가장 큰 영향력을 행사하고 있는 기관 중 하나인 스탠포드 대학의 HAI(Human-Centered AI) 연구소에서는 ‘23년 3월 초에 20쪽에 이르는 짧막한, 그러나 매우 심도깊은 논의를 담은 보고서를 하나 발간한다. 이 보고서는 ‘생성형 AI : 스탠포드 HAI의 관점[3]이라는 제목을 달고 있는데, ImageNet을 구축한 그 유명한 페이페이 리(Fei-Fei Li) 교수를 포함, 피터 노빅(Peter Norvig), 러스 앨트먼(Russ Altman), 크리스토퍼 매닝 (Christopher Manning) 교수 등의 12명의 스탠포드 석학들이 각각의 전문 분야에서 생성형 인공지능이 미칠 각 분야별 영향에 대해 작성한 내용을 담고 있다. 이 12개의 토픽 중, 의료 부문에 대한 내용이 2장과 3장에 에 소개되어 있는데, 첫번째 장이 페이페이 리 교수의 본 보고서에 대한 ‘개최사’ (그녀는 ‘인공지능의 위대한 변곡점(AI’s great inflection point)’라는 표현을 사용하였다!)였다고 보면, 이 보고서의 첫 주제가 ‘의료/헬스케어’ 였음은 단순한 우연이었을까. 바이오 의료 데이터 전문가인 러스 알트먼 교수는 “합성 환자의 잠재력(The potentials of Synthetic Patients)”이라는 주제로 임상시험에서 늘 어려움으로 인식되고 있는 대규모 대조군(‘historical controls’라고 표현됨)의 확보 문제를 생성형 인공지능을 통한 ‘가상의 합성 환자’, 즉 ‘가짜 환자’ 생성을 통해 도움을 줄 수 있을 것이라는 전망을 내놨다. 또한, 그는 이러한 가짜 환자 생성 기술이 의료 교육에도 매우 긍정적인 영향을 미칠 것이라고 주장하였다. 방사선과 교수인 커트 랭골로츠(Curt Langolotz)는 진료 기록 작성, 클리닉 일정 최적화, 청구, 질병 감시 및 후속 의료 조치 코드 생성에 이르는 의료 서비스 전반에 걸친 혁신을 예상하였으며, 이를 통하 전반적인 의료 서비스 개선에 대한 기대감을 나타내었다. 어찌보면 ‘의료 데이터 전문가’와 ‘임상 전문가’ 라는 그들 각각의 전문 영역의 관점에서 ‘가장 중요해 보이는 이슈들’에 생성형 인공지능을 대입하여 기대할 수 있는 긍정적 도움을 예상하고 있으니, 매우 자연스러워 보인다. 두 교수 모두 인공지능의 판단에 대한 ‘사실적 정확성(factual correctness)’ 문제를 같이 걱정하고 있는 것도 포함해서 말이다. 언어 모델은 애초에 ‘자연스러운 문장 생성’을 무지막지한 문장 데이터 수를 훈련시켜 강제해 낸 ‘통계 작품’ 인 만큼, 인공지능이 만들어낸 문장을 ‘사실’로서 활용할 지에 대한 책임은 사람에게 있음이 당연하지 않겠는가.

네’가 아프면 ‘나’도 아프다고 말해줄 수 있을까

그런데, ‘사실적 정확성’은 현재 생성형 인공지능 기술의 발전 속도를 보면 조금씩 나아질 것이 분명하다(결국 인간을 동원하는 대규모의 강화학습을 한다면). 그런데 인공지능에게 ‘공감’하는 능력을 부여하는 것은 조금 다르다. 이는 ‘사실’을 이해하는 인지적 공감을 초월하는 정서적인 영역의 이슈가 포함되어 있기 때문이며, ‘공감 능력’을 판단하기 위한 기초 연구도 현재 성숙되어 있지 않은 상황이다. 그런데, 의료 분야에서의 ‘공감(empathy)’의 중요성은 아무리 강조해도 지나치지 않을 것이다. 미국의 심리학자 칼 랜섬 로저스(Carl Ransom Rogers)가 1940년대에 인간 중심 치료(person-centered therapy)를 주창하며 시작된 ‘인간성 심리학’은 ‘환자 중심 의료(patient-centered medicine)’라는 개념 발전에 영향을 주었으며, 의료의 촛점을 질병 또는 병리학적 증상보다는 ‘인격체’로서의 환자가 지닌 모든 이슈(인격적 문제, 갈등, 신체적 질환 등)를 통합적으로 접근해야 한다는 흐름으로서 발전하였다[4]. 로저스는 내담자를 대하는 상담자의 주요 자세로서 ‘공감적 이해’의 중요성을 강조하였는데, 이는 의료진과 환자 사이의 존재하는 ‘공감’이라는 메타적 관계의 중요성을 지지하는 이론적 근거로서 재탄생되었다. 당연히 ‘나와 같이 아파해주는 의료서비스’가 주는 신뢰감과 따뜻함은 특별하지 않겠는가. 굳이 1회부터 ‘아프냐. 나도 아프다’라는 명대사로 우리를 설레이게 했던 드라마 <다모>를 소환하지 않아도 말이다. 그런데, 이런 공감 능력이 없는 ‘데이터 기반 통계 모델’로서의 인공지능을 의료 부문에 잔뜩 사용하는 것은 과연 괜찮을까. 심지어 이러한 논의는 현재 전문가들 사이에서 아직 많이 소구되고 있지도 않아서 더욱 궁금증이 커진다. 문득 챗GPT에게 물어봤다. 그 녀석은 “환자의 감정 상태를 완벽하게 이해하거나 지지할 수 없으므로 이를 필요로 하는 상황에서는 충분치 않다”고 대답하며, “환자의 비언어적 신호나 감정 표현을 완벽하게 파악하기 어렵다”고 덧붙여다. 그리고, “이를 극복하기 위해 인공지능과 의료진이 서로 협력하는 방식으로 의료서비스를 제공해야 한다”고 조언도 하는 것이 아닌가. 너무 맞는 말이어서 깜짝 놀랄 수 있으나, 챗GPT는 통계 모델임을 기억하자. 결국 전세계의 어떤 선구자들은 이런 고민을 해왔으며, 이에 대한 본인의 고민을 ‘글’로서 어딘가에 남겨놨었고, (합법적인지는 모르겠으나) 챗GPT의 지식을 위한 데이터의 일부로 수집되어, 훈련 과정을 통해 녹아 들어간 결과일 것이다. 결국 챗GPT는 우리 시대 모든 고민과 지식의 ‘거울’이며, 그 ‘거울’의 내부는 각 단어와 문장 간의 관계를 확률로서 연결해 놓은 우리 시대 지적 유산들이 잘 구조화된 거대한 ‘지도(map)’이기 때문이다. 이 지도를 보고 올바른 곳으로 빠르게 갈 지, 잘못된 곳을 향해 갈지는 지도의 책임일까, 운전자의 책임일까. 이런 고민을 미리 알았던 걸까. 필자가 아는 가장 멋진 대답을 이전 구글 AI 윤리팀 리더로서 ‘거대 인공지능 모델의 위험성(그녀는 ‘통계학적 앵무새(stochastic parrot)’라고 불렀다)’을 누구보다 깊게 고민해 온 팀닛 게브루(Timnit Gebru) 박사가 이미 했으니 말이다.

우리가 정보를 얻는 방식이, 전문가와의 ‘질문과 대답’(만)으로 이루어진다고 생각하는 건 – 참 유치한 생각이다[5]


[1] 입력 데이터의 특성에 대해 판단(예:판별/분류 등)을 내리는 ‘판별형 AI’와 대비되는 개념으로, 입력 데이터와 유사한 데이터를 생성하는 것을 목적으로 훈련된 인공지능을 의미한다.

[2] 언어 모델(language model) : 주어진 연속된 단어 뒤에 나타나서 가장 자연스러운 문맥을 지닐 단어를 선택하기 위한 목적으로 각 단어들의 출현 확률값을 계산하는 인공지능을 의미한다.

[3] Generative AI : Perspectives from Stanford HAI, Mar, 2023. https://hai.stanford.edu/sites/default/files/2023-03/Generative_AI_HAI_Perspectives.pdf. SPRi의 ‘AI Brief’ 특집호에서 번역 및 요약이 된 보고서를 찾아볼 수 있다. https://spri.kr/posts/view/23566?code=data_all&study_type=ai_brief

[4] 정연옥, 박용익, “공감이 의학에 끼치는 영향과 의미”, 인문과학 제120집, 2020년 12월.

[5] https://www.technologyreview.com/2022/03/29/1048439/chatbots-replace-search-engine-terrible-idea/

저작권자 © 의학신문 무단전재 및 재배포 금지