Google Research와 Google의 AI 연구소인 DeepMind는 의학 전문 고급 AI 모델 제품군인 Med-Gemini의 인상적인 도달 범위를 자세히 설명했습니다. 이는 엄청난 실제 잠재력을 지닌 임상 진단 분야의 엄청난 발전입니다.
의사들은 단순한 것부터 매우 복잡한 것까지 다양한 요구 사항을 지닌 수많은 환자를 매일 치료합니다. 효과적인 치료를 제공하려면 각 환자의 건강 기록을 숙지하고 최신 절차와 치료법에 대한 최신 정보를 유지해야 합니다. 그리고 공감, 신뢰, 의사소통을 바탕으로 구축된 가장 중요한 의사-환자 관계가 있습니다. AI가 실제 의사를 거의 모방하려면 이러한 모든 작업을 수행할 수 있어야 합니다.
AI와 의학의 교차점이 실제로 시작되었습니다. 지난 6개월 동안 New Atlas는 경험이 부족한 의사들이 대장암의 전구체를 식별하고, 눈 이미지를 통해 아동 자폐증을 진단하고, 외과 의사가 유방암 기간 동안 모든 암 조직을 제거 했는지 여부를 실시간으로 예측하는 데 도움이 되는 AI 모델에 대해 보고했습니다. 수술. 그러나 Med-Gemini는 다른 것입니다.
Google의 Gemini 모델은 차세대 다중 모드 AI 모델입니다. 즉, 텍스트, 이미지, 비디오, 오디오를 포함한 다양한 형식의 정보를 처리할 수 있습니다. 모델은 언어와 대화에 능숙하고, 훈련받은 다양한 정보를 이해하며, 이른바 '장기 맥락 추론', 즉 몇 시간 분량의 비디오나 수십 시간의 오디오와 같은 대량의 데이터로부터 추론합니다.
Med-Gemini는 기본 Gemini 모델의 모든 장점을 갖고 있으면서도 이를 미세 조정했습니다. 연구자들은 이러한 의학 중심의 조정을 테스트하고 그 결과를 논문에 포함했습니다. 58페이지 분량의 논문에는 많은 내용이 담겨 있습니다. 우리는 가장 인상적인 부분을 선택했습니다.
자가 훈련 및 웹 검색 기능
진단에 도달하고 치료 계획을 수립하려면 의사가 자신의 의학적 지식을 환자 증상, 의료, 수술 및 사회 병력, 실험실 결과 및 기타 조사 결과 및 환자의 반응 등 기타 관련 정보와 결합해야 합니다. 사전 치료. 치료법은 기존 치료법이 업데이트되고 새로운 치료법이 소개되는 '움직이는 잔치'입니다. 이 모든 것들은 의사의 임상적 추론에 영향을 미칩니다.
이것이 바로 Google이 Med-Gemini를 통해 웹 기반 검색에 대한 액세스를 포함시켜 더욱 발전된 임상 추론을 가능하게 한 이유입니다. 많은 의학 중심 대형 언어 모델(LLM)과 마찬가지로 Med-Gemini는 다양한 시나리오에 걸쳐 의학 지식과 추론을 테스트하기 위해 고안된 USMLE(미국 의료 면허 시험) 문제를 대표하는 객관식 질문인 MedQA에 대한 교육을 받았습니다.
그러나 Google은 모델을 위한 두 가지 새로운 데이터 세트도 개발했습니다. 첫 번째인 MedQA-R(Reasoning)은 '생각의 사슬'(CoT)이라는 종합적으로 생성된 추론 설명을 통해 MedQA를 확장합니다. 두 번째인 MedQA-RS(추론 및 검색)는 응답 정확도를 높이기 위해 웹 검색 결과를 추가 컨텍스트로 사용하는 지침을 모델에 제공합니다. 의학적 질문으로 인해 불확실한 대답이 나올 경우 모델은 불확실성을 해결하기 위해 추가 정보를 얻기 위해 웹 검색을 수행하라는 메시지를 받습니다.
Med-Gemini는 14개 의료 벤치마크에서 테스트되었으며 10개 의료 벤치마크에서 새로운 SoTA(최첨단 SoTA) 성능을 확립하여 비교할 수 있는 모든 벤치마크에서 GPT-4 모델 제품군을 능가했습니다. MedQA(USMLE) 벤치마크에서 Med-Gemini는 불확실성 기반 검색 전략을 사용하여 91.1%의 정확도를 달성했으며, 이는 Google의 이전 의료 LLM인 Med-PaLM 2를 4.5% 능가했습니다.
NEJM( New England Journal of Medicine ) 이미지 챌린지(10개의 목록에서 진단이 내려지는 까다로운 임상 사례의 이미지)를 포함한 7개의 다중 모드 벤치마크에서 Med-Gemini는 평균 상대 마진으로 GPT-4보다 우수한 성능을 보였습니다. 44.5%이다.
연구진은 “결과는 유망하지만 상당한 추가 연구가 필요하다”고 말했다. “예를 들어, 우리는 다중 모드 검색 검색을 사용하거나 검색 결과의 정확성과 관련성 및 인용 품질에 대한 분석을 수행하여 보다 권위 있는 의료 소스로 검색 결과를 제한하는 것을 고려하지 않았습니다. 또한 소규모 LLM에게도 웹 검색을 활용하도록 가르칠 수 있는지 여부는 아직 알 수 없습니다. 우리는 이러한 탐구를 향후 작업에 맡깁니다.”
긴 전자 건강 기록에서 특정 정보 검색
전자 건강 기록(EHR)은 길 수 있지만 의사는 그 내용을 알고 있어야 합니다. 문제를 복잡하게 만들기 위해 일반적으로 텍스트 유사성(“당뇨병” 대 “당뇨병성 신장병”), 철자 오류, 두문자어(“Rx” 대 “처방전”) 및 동의어(“뇌혈관 사고” 대 “뇌졸중”)를 포함합니다. AI에 도전이 될 수 있는 것들.
긴 맥락의 의료 정보를 이해하고 추론하는 Med-Gemini의 능력을 테스트하기 위해 연구원들은 대규모 공개 데이터베이스인 집중 치료를 위한 의료 정보 마트 또는 MIMIC-III에는 중환자실에 입원한 환자의 신원이 확인되지 않은 건강 데이터가 포함되어 있습니다.
목표는 모델이 EHR('건초 더미')에 있는 대규모 임상 기록 모음에서 드물고 미묘한 의학적 상태, 증상 또는 절차('바늘')에 대한 관련 언급을 검색하는 것이었습니다.
200개의 사례가 선별되었으며 각 사례는 오랜 병력을 가진 ICU 환자 44명의 신원 확인되지 않은 EHR 메모 모음으로 구성되었습니다. 그들은 다음과 같은 기준을 가지고 있어야 했습니다:
- 100개 이상의 의료 메모(각 예의 길이는 200,000~700,000단어)
- 각 예에서 조건은 한 번만 언급되었습니다.
- 각 샘플에는 단일 관심 조건이 있었습니다.
건초 더미에 바늘 넣기 작업에는 두 단계가 있었습니다. 먼저 Med-Gemini는 광범위한 기록에서 특정 의학적 문제에 대한 모든 언급을 검색해야 했습니다. 둘째, 모델은 모든 언급의 관련성을 평가하고 분류하고 환자에게 해당 문제의 병력이 있는지 결론을 내리고 결정에 대한 명확한 추론을 제공해야 했습니다.
SoTA 방법과 비교하여 Med-Gemini는 건초 더미에 바늘 넣기 작업을 잘 수행했습니다. SoTA 방법(0.85)에 비해 정밀도가 0.77로 평가되었으며 재현율에서는 SoTA 방법보다 우수했습니다(0.76 대 0.73).
연구원들은 “아마도 Med-Gemini의 가장 주목할만한 측면은 긴 컨텍스트 처리 기능일 것입니다. 왜냐하면 이는 의료 AI 시스템에 대한 새로운 성능 한계와 이전에는 실현 불가능했던 새로운 적용 가능성을 열어주기 때문입니다.”라고 말했습니다. “이 '건초 더미 속의 바늘' 검색 작업은 임상의가 직면한 실제 과제를 반영하며 Med-Gemini-M 1.5의 성능은 효율적인 추출 및 분석을 통해 인지 부하를 크게 줄이고 임상의의 역량을 강화할 수 있는 잠재력을 보여줍니다. 방대한 양의 환자 데이터로부터 정보를 얻을 수 있습니다.”
이러한 주요 연구 포인트에 대한 이해하기 쉬운 토론과 Google과 Microsoft 간의 갈등에 대한 업데이트를 보려면 13:38부터 AI explained의 비디오를 확인하세요.
Med-Gemini와의 대화
실제 유용성 테스트에서 Med-Gemini는 환자 사용자로부터 가려운 피부 덩어리에 대해 질문을 받았습니다. 모델은 이미지를 요청한 후 적절한 후속 질문을 하고 희귀 병변을 정확하게 진단하여 사용자가 다음에 해야 할 일을 추천했습니다.
Med-Gemini는 또한 공식 방사선 전문의의 보고서를 기다리는 동안 의사를 위해 흉부 엑스레이를 해석하고 환자에게 제공할 수 있는 일반 영어 버전의 보고서를 작성해 달라는 요청을 받았습니다.
연구원들은 “Med-Gemini-M 1.5의 다중 모드 대화 기능은 특정 의료 대화 미세 조정 없이 달성된다는 점에서 유망합니다.”라고 말했습니다. "이러한 기능을 통해 사람, 임상의, AI 시스템 간의 원활하고 자연스러운 상호 작용이 가능해집니다."
그러나 연구자들은 추가 연구가 필요하다는 것을 인식하고 있습니다.
"이 기능은 임상의와 환자 지원을 포함하여 유용한 실제 응용 프로그램에 대한 상당한 잠재력을 가지고 있지만 물론 매우 심각한 위험도 수반합니다."라고 그들은 말했습니다. "이 분야에서 미래 연구의 잠재력을 강조하는 동시에, 우리는 이전에 대화 진단 AI에 대한 전담 연구에서 다른 사람들이 탐구한 것처럼 이 작업에서 임상 대화에 대한 기능을 엄격하게 벤치마킹하지 않았습니다."
미래의 비전
여기서 어디로 갈까요? 연구자들은 수행해야 할 작업이 훨씬 더 많다는 점을 인정하지만 Med-Gemini 모델의 초기 기능은 확실히 유망합니다. 중요한 것은 모델 개발 프로세스 전반에 걸쳐 개인 정보 보호 및 공정성을 포함한 책임 있는 AI 원칙을 통합할 계획이라는 것입니다.
연구원들은 “특히 개인 정보 보호에 대한 고려 사항은 환자 정보를 관리하고 보호하는 기존 의료 정책 및 규정에 뿌리를 두어야 합니다.”라고 말했습니다. “의료 분야의 AI 시스템이 의도치 않게 역사적 편견과 불평등을 반영하거나 증폭시켜 잠재적으로 소외된 집단에 대해 이질적인 모델 성능과 해로운 결과를 초래할 위험이 있기 때문에 공정성은 주의가 필요할 수 있는 또 다른 영역입니다.”
그러나 궁극적으로 Med-Gemini는 선을 위한 도구로 간주됩니다.
연구진은 “대규모 다중 모드 언어 모델은 건강과 의학에 새로운 가능성을 열어주고 있습니다.”라고 말했습니다. “Gemini와 Med-Gemini가 입증한 역량은 생물의학적 발견을 가속화하고 의료 서비스 제공 및 경험을 지원할 수 있는 기회의 깊이와 폭이 크게 향상되었음을 시사합니다. 그러나 모델 기능의 발전에는 이러한 시스템의 신뢰성과 안전성에 대한 세심한 주의가 수반되는 것이 무엇보다 중요합니다. 두 측면을 모두 우선시함으로써 우리는 AI 시스템의 기능이 과학적 진보와 의학 치료 모두에 의미 있고 안전한 가속기가 되는 미래를 책임감 있게 구상할 수 있습니다.”
이 연구는 사전 인쇄 웹사이트 arXiv를 통해 액세스할 수 있습니다 .