인공지능과 의료교육: 인공지능을 어떻게 의료에 올바로 활용할 수 있을까? ①2024년9월20일(금)
1. 순환기내과에서 인공지능의 활용 - 강시혁 교수
관상동맥 조영술은 전문가도 이해하기 어렵다. 관상동맥중재술은 심근경색, 협심증과 같은 심혈관질환의 진단과 치료에 필수적인 검사 방법으로, 이를 위해서는 관상동맥 조영술을 통한 정확한 진단이 중요하다. 심장 내부로 관을 삽입하여 조영제를 투여하여 얻는 영상 검사 결과를 이해하고 이 영상을 보면서 시술을 해야 한다. 다른 영상 검사에 비해 관상동맥 조영술 결과를 판독하고 이해하는 데에는 더 많은 시간이 걸린다. 심장은 계속해서 움직이는 장기이다 보니 영상 결과가 동영상으로 얻어지기 때문이다. 조영제가 흘러가는 움직임, 환자의 호흡에 따른 움직임, 환자의 미세한 움직임에 따른 변화 등이 동영상에 영향을 미칠 수 있다. 또한 심장 자체가 구조가 복잡한 구조를 가지고 있는데, 복잡한 3차원 혈관 구조가 2차원 영상으로 표현되는 데에 따른 한계도 있다.
인공지능을 기반으로 한 AI-QCA(artificial intelligence-based quantitative coronary angiography) 제품을 개발한 한 국내 기업과 진행한 연구를 먼저 소개하고자 한다. 이 제품은 동영상 중 대표적인 정지 영상 하나를 찾아서 그 영상을 바탕으로 환자의 상태를 분석할 수 있다. 영상을 찍으면 실시간으로 분석이 진행하는 제품이며, 그 결과를 검증하기 위한 연구를 진행하였다. 아산병원에서 치료 받은 2,042명 환자로부터 얻은 3,302건의 영상 자료를 바탕으로 제품이 개발되었다. 인공지능을 학습시켜서 segmentation과 분석하는 알고리즘을 적용한다. 실제로는 한 가지 알고리즘만 작동하는 것이 아니라 세 가지 알고리즘이 한꺼번에 작동되며, 이 중 가장 적합한 알고리즘을 선택하도록 되어 있다. segmentation으로 얻어진 영상의 dice coefficient는 0.92, accuracy of vessel classification 0.99 등의 기준을 충족해야 한다. 제품 개발에 사용된 것과 별개로 약 1,000명 가량의 자료를 이용한 아산병원에서 진행한 연구에 따르면, lesion detection sensitivity는 89%였고 혈관의 분포, 범위, 면적 등을 분석한 결과도 상당히 정확한 편이었다(Int J Cardiol, 2024).
저희 연구실에서 순환기내과 전문의 10명에게 이 제품을 사용하도록 하고 그 결과를 평가해 보았다. 영상을 분석하는 QCA 전문가가 있고, 해당 영상을 순환기내과 전문의에게 제공할 때 QCA 전문가와 동일한 view를 선택한 비율은 76%로 높았지만 몇 번째 frame을 사용할 것인가는 다소 차이가 있었다. 전문가가 기존의 소프트웨어로 영상 하나를 분석할 때 평균 1분 30초 가량 소요되었으나 AI-QCA의 도움을 받으면 1.5초만에 분석이 가능하였다. 전문가가 분석한 QCA 분석 자료와 AI-QCA 두 건을 보여주고 어떤 것이 사람이 분석한 것인지, 어떤 것이 인공지능이 분석한 것인지 선택하도록 해 보았다. 거의 구별하기가 어려운 결과도 있었고 비교적 쉽게 구별하는 결과도 있었다. 100개의 자료를 주고 사람 또는 인공지능이 분석한 결과를 찾도록 하였을 때 정확도가 50%라면 실질적으로 거의 구별하지 못한 셈이고 100%면 정확하게 구별하는 것인데, 약 72% 정도로 분석되었다. 분당서울대병원에서 치료 받은 762명의 환자에서 얻은 영상 1,002건을 대상으로 후향적 밸리데이션 연구를 진행하였다. 환자들의 평균 연령은 71.4세, 남자 환자가 73.4%를 차지하였다. 여러 가지 변수의 correlation 값을 분석하였는데, diameter stenosis(%)의 값이 0.55로 가장 낮았고 lesion length(mm)의 값이 0.84로 가장 높았다. [그림 1]
이와 같이 제가 진행한 연구는 국내에서 개발된 AI-QCA를 검증하기 위한 연구들이었고 의사가 직접 분석한 결과와 비교할 때 높은 상관 관계와 일치도를 보여주었다. AI-QCA의 도움을 받으면 훨씬 빠른 분석이 가능하였고 응답자 간의 편차가 있긴 하지만 전반적으로 AI-QCA를 사용하는 데에 큰 어려움이 없다고 평가되었다. 현재 진행 중인 RCT 결과가 발표되면 실제 임상에서의 활용이 더 많아질 것으로 생각한다.
인공지능을 이용한 최신 연구
최근 진행 중인 연구도 몇 가지 소개하고자 한다. 관상동맥 조영술 분석에서 가장 많이 사용하는 지표 중 하나는 병변이 얼마나 좁으냐 이다. CathAI는 관상동맥 조영술 영상 중에서 적절한 분석 각도를 찾고 특정 각도를 이용하여 두 번째 알고리즘과 세 번째 알고리즘은 정확한 병변의 위치를 파악하고 네 번째 알고리즘은 병변이 얼마나 심한지 보여준다. 정확도는 89%에 이른다. 한편, 이 연구에는 CathAI의 explainability에 대한 자료도 담겨 있다. 즉, CathAI가 주로 어느 부위를 분석하였는지, 어느 부위를 병변으로 찾아냈는지 등을 구체적으로 보여주었다(npj Digital Medicine, 2023). 같은 연구 그룹에서 관상동맥 조영술은 동영상 자료이므로 동영상을 분석하는 것이 중요하다고 보고, 4단계 분석을 6단계로 세분화하여 결과를 평가하였으며 정확도는 79.2%였다(npj Digital Medicine, 2024).
저희 연구실에서 수행하고 있는 연구도 소개한다. 관상동맥 조영술은 동영상이면서 3차원적인 이해가 필요한 어려운 의학영상이다. 한 건축물을 가지고 여러 각도에서 시간 차를 두고 촬영하면 건물 뒤의 배경을 구별할 수 있다. 여러 각도에서 찍은 사진에서 일치하는 점을 찾아 내는 correspondence point를 찾아내는 인공지능 기술이 있다. 이런 기술을 가지고 한 가지 물체를 여러 각도에서, 다양한 시간 대에 촬영하여 3차원적으로 이해하는 데 활용할 수 있다. 이와 비슷하게 인공지능을 이용하여 여러 각도에서 촬영된 관상동맥 조영술 영상에서 일치하는 점을 찾을 수 있다. 이를 잘 찾아내는 기술을 개발하여 적절한 알고리즘을 설계하였고, 정확도를 73%까지 높일 수 있었다.
최근에는 이와 같이 여러 영상 중 동일 지점을 찾는 기술에 대한 연구가 활발하다. 생성형 인공지능에게 영상을 학습하도록 한 후 혈관을 삭제해 보도록 명령하면, 혈관을 인식하여 없애고 뼈 등 다른 구조물을 그려 넣는다. 한편, 정상 혈관 영상을 주고 병이 있는 혈관을 그려보도록 하자, 명령대로 잘 그릴 수 있었다. 동영상을 이해하기 위해 구멍을 뚫어 놓고 (masking) 구멍 안에서 무슨 일이 일어나는지 맞춰보는 학습을 시켜보았다(self-supervised learning). 빠져 있는 구멍에 무엇이 들어 가야 되는지 맞춰야 하는 것인데, 이런 모델을 통해서 machine learning 알고리즘이 영상을 이해하는 데 도움이 됨을 알 수 있었다. 관상동맥 조영술에서 얻은 영상에 구멍을 뚫어 놓고 영상을 완성하도록 명령하면 완벽하지는 않지만 인공지능이 영상을 완성한다. 이를 계속해서 반복시키자 나중에는 비교적 정확하게 영상을 완성할 수 있었다. 이를 통해 혈관이 얼마나 좁은지를 파악하는 등 좀 더 어려운 작업을 수행할 수 있을 것으로 기대한다.
2. 신경과에서 인공지능의 역할 - 최호진 교수
불면증 디지털 치료 기기
신경과에서 인공지능 활용의 대표적인 예는 불면증 디지털 치료기기이다. 우리나라 디지털 치료기기 1호, 2호가 불면증 치료기기이다. 이 치료기기의 1단계는 기초 교육부터 5단계 인지 치료, 6단계 종결 평가까지 총 6단계로 구성되어 있고, 정신과 및 신경과의 수면클리닉에서 그 동안 해오던 불면증 치료를 위한 인지 행동 치료를 기반으로 하고 있다. 그런데 왜 디지털 치료기기 1호, 2호가 모두 불면증 치료기기일까? 왜 먼저 나오게 되었을까? 첫 번째 이유는 기존에 불면증 치료를 위한 인지 행동 치료가 존재했기 때문이다. 이는 외국도 마찬가지이다. 디지털 치료 기기를 개발할 때 가장 어려운 점은 임상 연구 설계인데, 기존 인지 행동 치료가 있었기 때문에 비교적 설계가 용이했다. 연구 설계 시 primary outcome으로 무엇을 설정해야 하는지, 실험군과 대조군을 어떻게 설정할지, 맹검은 어떻게 해야 할지 참 어려운 부분이다. 이에 대해 참고할 수 있는 해외 사례가 많았다는 점도 유리한 이유 중 하나이다.
그런데, 불면증 치료 기기는 왜 널리 쓰이지 못했을까? 이 제품에 대한 적절한 수가를 산정하는 것이 어렵고 임상 시험과 실제 의료 현장의 괴리가 크다. 임상 시험 중에는 환자가 기기를 얼마나 사용했는지 확인하고 이를 독려할 수 있지만 실제 임상에서는 환자에게 앱 사용 방법을 알려주고 스스로 사용하도록 해야 하기 때문이다. 환자 스스로 얼마나 열심히 사용할까? 고령 환자일수록 어려울 것이다. 사실 이 치료 기기의 가장 강력한 적은 zolpidem이다. 이 치료 기기는 몇 주 동안 성실하게 사용해야 하지만 zolpidem은 먹기만 하면 즉각적인 효과가 나타나고 처방 받기도 너무나 쉽다. 또한 기존 경쟁 제품보다 더 좋다, 더 잘한다 만으로는 쉽지 않으므로 새로운 unmet needs를 찾아내기 위한 노력과 고민이 필요하다.
한편, 2020년 Lancet에 발표된 연구에 따르면, 생활 습관을 조절하여 치매 발병 위험을 45%나 줄일 수 있다고 한다. 이를 검증하기 위한 연구가 네덜란드(preDIVA), 프랑스(MAPT), 핀란드(FINGER)에서 진행되었다. 이 중 성공한 연구는 핀란드의 FINGER 연구뿐이다. 그 이유는 연구를 맡은 의사와 간호사들이 생활 습관 조절을 위해 환자들을 적극적으로 관리했기 때문이었다. 사실 의사들이 진료실에서 환자들에게 운동을 권해도 이를 실천하는 환자는 극히 적다. FINGER 연구는 인지 중재 치료의 예로 볼 수 있다. 인지 기능을 위해 의사와 간호사가 적극적인 개입을 하는 이런 방식을 말한다. 환자에게 필요한 운동, 식이 요법 등의 인지 중재 치료를 앱으로 만들어서 효과를 평가하기 위한 연구가 진행 중이다. 환자를 학습시키고 환자로부터 피드백을 받고 다시 맞춤형 상담을 제공하는 방식의 디지털 인지 중재 치료를 제공하는 것이다.[그림 2]
우리가 풀어야 할 것은 퍼즐인가 미스터리인가?
인공지능 시대에 의사의 역할이 축소될 것이라는 의견도 있지만 제 개인적으로는 상당히 긍정적인 생각을 가지고 있다. 정상인과 MCI, 치매 환자의 MRI 촬영 결과를 본다고 가정해 보자.
이를 바탕으로 환자 A의 MRI는 MCI 환자의 MRI와 ‘서로’ 얼마나 비슷한지, 환자 A의 MRI는 MCI 환자의 MRI에 얼마나 비슷한지 질문을 던져 본다. 이 두 질문은 사실 미묘한 차이가 있다. 첫 번째 질문은 ‘서로’ 얼마나 비슷한지 찾는 것이므로 방향성은 없고 가능한, 생각나는 많은 속성을 비교한다. 반면, 두 번째 질문은 MCI 환자의 MRI에 얼마나 비슷한가를 물었으므로 방향성이 있다. 따라서 MCI 환자의 MRI에서 두드러지는 특징, 유사점 등을 찾아내면서 비교한다.
첫 번째 질문에 대한 답을 찾는 방식은 인간보다는 인공지능이 잘 하는 방식이고, 두 번째 질문에 답을 찾는 방식은 인간이 주로 선택하는 방법이고 인간의 직관적인 사고 체계의 편향성을 보여준다. 사실 인간은 모든 정보를 활용하여 의사 결정 하기가 쉽지 않다. 반면, 인공 지능은 너무 많은 정보가 주어지는 현실에서 인간이 미처 생각해 내지 못한 답을 도출할 수 있을 것이다.
자, 그러면 다음의 세 가지 질문에 대한 답을 함께 모색해 보자.
첫 번째, 70세 건강한 여성에게 독감 백신 접종을 권하였으나 환자가 거부하였다. 이유를 묻자 주사가 아플 것 같다고 한다. 의사는 환자를 계속 설득하려고 한다. 두 번째, 여생이 약 6개월 정도뿐인 40세 악성 종양 환자에게 실험적 치료법을 제안하였다. 이 치료를 받지 않으면 약 6개월 후 사망하지만 치료를 받으면 살게 될 확률이 30%, 바로 죽을 확률이 70%이다. 이런 치료는 해 봐야 할까? 세 번째, 초기 인지 기능 저하가 확인된 60대 여자 환자인데 amyloid 양성으로 확인되었다. 이 환자는 약 3,000만원 이상의 비용을 지불하고 lecanemab을 맞는 것이 좋을까? 아니면 효과가 비슷하지만 임상 연구 중인 donanemab 연구에 참여하여 비용을 전혀 들이지 않고 치료를 받는 것이 좋을까? 단, donanemab 연구에 참여하더라도 donanemab 투여군에 배정될 확률은 50%이다. 답을 찾기 위해 퍼즐을 선택한다면 더 많은 데이터를 필요로 한다.
첫 번째 환자의 경우 독감 백신을 맞아서 개인적으로 얻게 될 이익과 손해 볼 확률, 사회적으로 얻게 될 이익 등을 고려해야 한다. 두 번째 환자에게도 치료법에 대한 자세한 정보를 제공해야 한다. 그렇다고 해서 정답을 얻을 수 있을까? 미스터리 방식으로 접근해서 질문을 바꿔보자. 첫 번째 환자에게 왜 백신 접종을 거부하느냐 물었을 때 남편이 같은 백신을 맞고 사망했다고 한다. 이런 경우라면 더 이상의 설득이 불가능하다. 두 번째 환자는 치료법을 권했더니 아들이 초등학교 가는 것을 꼭 보고 싶다고 한다. 이 역시 말리기 어렵다. 세 번째 사례로 3,000만원에 약을 100% 확률로 맞을 것인지, 공짜로 약을 50% 확률로 맞을 것인지 질문을 바꿔볼 수 있다. 이런 질문은 아무리 데이터를 많이 주입하고 학습을 시키더라도 정답을 구할 수 없다. 결국은 미스터리를 해석하는 의사의 많은 경험과 통찰에 의한 환자 설득이 가장 중요하다고 할 수 있다. 따라서 의료 진단이나 치료에 대한 접근법은 퍼즐이 아니라 미스터리 방식이어야 한다. 환자를 이해하고 설득할 수 있는 충분한 경험과 지식을 갖춘 좋은 의사가 된 후 인공지능을 어떻게 활용할 수 있을지 고민하는 것이 옳다고 생각한다. 새로운 속성, 절차, 상호 작용 등을 볼 수 있도록 도와주는 도구일 뿐 최종 판단은 의사의 몫이다.
의료 분야 인공지능 연구에는 의료의 맥락을 잘 이해하는 것이 필요하다. 이는 인공지능을 공부하는 의사와 인공지능을 개발하는 회사 모두에 해당하는 점이다. 의사는 digital literacy를 공부하고 회사의 기술자는 medical literacy를 공부해야 한다. 또한 질환 별 차이에 대한 이해도 필요하다. 예를 들어, 고혈압, 당뇨병은 진단 기준이 수치화되어 있지만 인지 기능 저하 또는 치매는 그렇지 않다. 인공지능의 활용은 고혈압, 당뇨병 등의 관리에 접목시키기가 훨씬 용이할 것이다. 정확한 영상 자료 등을 활용할 수 있는 안과 질환, 피부 질환 등과 치매는 전혀 다르게 접근해야 한다. 치매 진단에는 MRI, MMSE, 일상 생활 능력 등 여러 가지를 고려해야 한다. MMSE가 3점인데도 농사를 짓고 일상 생활도 잘 하는 사람도 있다. 그런데도 인공지능을 활용하여 5분만에 뇌파로 치매 진단을 한다는 것은 어불성설이다. 스크리닝 도구로 활용할 수는 있겠지만 최종 진단은 어렵다. 치매는 뇌파나 MRI만으로 진단하는 질환이 아니다.
이와 같이 활용할 수 있는 여러 가지 기술이 있지만 각 질환 별 차이를 이해하고 어떻게 접근해야 할 것인가에 대한 충분한 고민과 논의가 필요할 것이다. Tag
#인공지능과 의료교육
<저작권자 ⓒ 후생신보 무단전재 및 재배포 금지>
인공지능과 의료교육 관련기사목록
|
많이 본 기사
|