OpenAI - OpenAI DevDay 2024 | Community Spotlight | Tortus
타우리스의 연구 엔지니어인 니나는 임상 환경에서 LLM을 활용하여 의사들이 컴퓨터 작업에 소요되는 시간을 줄이고, 임상 문서화를 자동화하여 효율성을 높이는 방법을 설명합니다. 의사들은 컴퓨터 작업에 많은 시간을 소비하며, 이는 번아웃의 주요 원인 중 하나입니다. 타우리스는 이러한 문제를 해결하기 위해 LLM을 활용하여 의사들이 환자와의 상담 내용을 자동으로 문서화하고, 전자 건강 기록 시스템에 저장할 수 있도록 합니다. 이를 통해 의사들은 본연의 업무에 더 집중할 수 있습니다.
타우리스는 복잡한 워크플로우를 작은 블록으로 나누어 의사들이 직접 워크플로우를 설계하고 공유할 수 있는 플랫폼을 개발했습니다. 이를 통해 의사들은 개발자와의 반복적인 협업 없이도 필요한 워크플로우를 빠르게 설계하고 실험할 수 있습니다. 또한, 실험을 통해 생성된 데이터를 기반으로 LLM의 오류를 최소화하고, 임상 안전성을 평가하여 제품의 신뢰성을 높입니다. 이러한 접근 방식은 의사들의 만족도를 높이고, 새로운 모델과 아키텍처를 빠르게 도입할 수 있게 합니다.
Key Points:
- LLM을 활용하여 의사들의 컴퓨터 작업 시간을 줄이고 번아웃을 예방합니다.
- 타우리스는 의사들이 직접 워크플로우를 설계할 수 있는 플랫폼을 개발했습니다.
- 임상 문서화를 자동화하여 의사들이 본연의 업무에 집중할 수 있도록 지원합니다.
- 실험을 통해 LLM의 오류를 최소화하고 임상 안전성을 평가합니다.
- 의사들의 만족도를 높이고 새로운 모델을 빠르게 도입할 수 있게 합니다.
Details:
1. 🔍 임상 응용에서의 LLM 평가 여정
- 임상 환경에서 LLM의 평가를 통해 얻은 주요 통찰력을 공유합니다.
- LLM의 임상 적용 가능성을 검토하여 실질적인 개선 방안을 모색합니다.
- 임상 데이터와 LLM의 상호작용을 분석하여 성능 지표를 도출합니다.
- 구체적인 사례 연구를 통해 LLM의 임상 적용 효과를 검증합니다.
- LLM 평가 과정에서 발견된 문제점과 해결책을 제시합니다.
2. ⏱️ 의사들의 시간 절약과 번아웃 문제
- 의사들이 LLM 기반 애플리케이션 Toris를 사용할 때마다 7분의 시간을 절약할 수 있습니다.
- 의사들의 업무 시간 중 최대 60%가 데이터 입력 및 주문 작성과 같은 컴퓨터 작업에 사용됩니다.
- 일반적인 근무 교대 시 평균적으로 4,000번의 클릭이 필요합니다.
- 53%의 의사들이 번아웃을 경험하고 있으며, 컴퓨터 사용이 주요 원인 중 하나입니다.
3. 📝 Toris의 작동 방식과 임상 오류
3.1. Toris의 기능
3.2. 임상 오류와 주의사항
4. ⚙️ 임상 전문가와의 협업 및 워크플로우 설계
- 임상 전문가를 중심으로 워크플로우를 설계하고 평가하는 것이 중요하다. 이는 임상적 안전성을 보장하기 위한 필수적인 단계이다.
- 개발자와 임상 전문가가 함께 반복적인 작업을 통해 최적의 솔루션을 도출한다. 이 과정에서 개발자는 기술적 구현을 담당하고, 임상 전문가는 임상적 요구사항을 제시한다.
- 임상적으로 안전한 결과물을 보장하기 위해 엄격한 준수 요구사항이 있으며, 이를 충족하기 위해 지속적인 검토와 피드백이 필요하다.
- 개발자와의 반복적인 작업이 프로세스를 느리게 만드는 주요 요인이지만, 이는 최적의 결과물을 도출하기 위한 필수적인 과정이다.
- 임상 전문가가 주도권을 가질 수 있도록 복잡한 워크플로우를 작은 단계로 나누는 플랫폼을 개발했다. 이를 통해 임상 전문가가 보다 쉽게 워크플로우를 관리하고 조정할 수 있다.
5. 🔗 블록 기반 플랫폼과 워크플로우 구성
- LM 워크플로우의 핵심은 건축 블록으로, 임상의와 엔지니어가 동일한 언어로 소통할 수 있도록 설계되었습니다.
- 블록은 주로 의료 전사문을 입력으로 사용하며, 출력은 구조화된 출력 여부와 같은 모델 구성에 따라 달라집니다.
- 임상의들이 블록을 공유하고 재사용할 수 있도록 데이터베이스에 저장하며, 각 블록은 고유한 블록 ID로 식별됩니다.
- 블록 ID는 파라미터 변경 시 새로운 ID가 생성되며, 다른 임상의가 데이터베이스에서 블록을 가져올 수 있습니다.
- 블록 간의 연결은 이전 블록의 블록 ID를 다음 블록의 입력으로 사용하여 명확하게 정의됩니다.
6. 🔄 블록 ID와 워크플로우의 유연성
- 블록 ID가 일치하지 않으면 블록이 함께 작동할 수 없음을 확인하여 감사 시 워크플로우의 정확한 상태를 파악할 수 있음.
- 클리니션이 UI를 통해 블록을 생성하여 구조화된 출력을 생성할 수 있으며, 긴 JSON을 편집할 필요가 없음.
- Firebase에서 블록을 로드하여 의료 기록 시스템에 사용되는 형식으로 의료 기록에서 주요 문제를 추출할 수 있음.
- UI 내에서 새로운 블록을 생성하여 워크플로우에 추가하고, SOAP 노트 형식으로 출력을 생성할 수 있음.
- 입력을 지정할 때 EMIS 문제 블록을 피드로 입력하도록 지정하여 올바른 형식의 SOAP 노트를 생성할 수 있음.
7. 🧪 실험과 데이터 라벨링 플랫폼
- 클리니션들이 실험을 저장하고 공유할 수 있는 메인 공간 제공
- 실험은 LLM 워크플로우를 비교하는 방법으로 사용
- 기존 워크플로우와 새로운 워크플로우의 비교를 통해 개선점 도출
- 데이터 포인트 생성 수와 각 데이터 포인트를 검토할 클리니션 수를 지정
- 기준선과 비교하여 결과 분석
- 데이터 라벨링 플랫폼을 통해 환각과 누락을 라벨링
- 환각은 입력에 없는 출력 요소, 누락은 LLM 단계에서 빠진 요소
- 환각을 최소화하는 것이 목표
- 기준선보다 환각이 적으면 새로운 실험 설계 및 반복
- 의사들이 제공하는 인간 라벨이 중요
- 이 단계는 클리니션들에게 시간 소모적
8. 📊 스마트 샘플링과 리소스 최적화
- 리소스를 최대한 활용하기 위해 결과를 블록 수준에서 저장하여 이전 실험을 재사용할 수 있습니다.
- 스마트 샘플링을 통해 실험과 기준선 간에 동일한 랜덤 시드를 공유하여 데이터 포인트를 비교할 때 일관성을 유지합니다.
- 기준선이 25개의 예제일 때, 새로운 실험에서 30개를 실행하려면 동일한 25개를 샘플링하고 추가로 5개를 수집하여 라벨링 노력을 크게 증가시키지 않고 데이터 포인트 수를 늘릴 수 있습니다.
- 스마트 샘플링은 실험의 반복성을 높이고, 리소스 최적화는 실험의 효율성을 극대화합니다.
9. 🚨 임상 안전성 평가와 오류 분석
- 임상 안전성 평가에서 주요 오류와 경미한 오류를 구분하며, 주요 오류는 환자의 임상 결과에 영향을 미칠 수 있음.
- 모델이 생성한 환각(hallucinations)과 누락(omissions)은 원본 대본에 없는 내용을 생성하거나 중요한 정보를 놓치는 경우를 의미함.
- 주요 환각의 예로, 의사가 광범위 항생제 사용을 논의하지 않았음에도 불구하고 모델이 이를 추천한 경우가 있음.
- 실험 결과, 환각과 누락의 양은 반복적인 프레임워크를 통해 감소하지만, 예상치 못한 결과가 발생할 수 있음.
- 기본 베이스라인에서 대본에서 직접 편지를 생성하려 했으나, 사실적인 출력을 위해 사실을 추출하여 편지를 생성하는 실험이 주요 환각을 증가시킴.
- 플랫폼을 통해 실험이 많은 주요 환각을 도입했음을 빠르게 평가하고, 이를 생산에 반영하지 않기로 결정함.