OpenAI - OpenAI DevDay 2024 | Community Spotlight | Dimagi
Anna Dixon은 Dimagi의 응용 연구 과학자로, AI와 머신러닝의 발전을 저소득 및 중간 소득 국가의 디지털 건강 도구에 적용하는 일을 하고 있습니다. Dimagi는 주로 최전선 근로자에게 제공되는 도구를 개발하며, 이번 프로젝트는 Bill and Melinda Gates Foundation의 지원을 받아 케냐와 세네갈에서 가족 계획을 지원하기 위한 대화형 에이전트의 효과를 평가하는 것이 목표입니다. 프로젝트는 Sheng과 같은 저자원 언어에서 GPT-4o 모델을 미세 조정하여 건강 교육 챗봇을 개발하는 데 중점을 두었습니다. 초기에는 Sheng 언어의 자연스러운 번역을 위해 800개의 Sheng 문장을 스타일 가이드로 사용했으나, 번역 품질이 일관되지 않아 새로운 기계 번역 레이어를 도입했습니다. 이로 인해 시스템의 모듈성이 향상되고 언어 품질 평가가 용이해졌습니다. 최종적으로 GPT-4o mini 모델을 미세 조정하여 Sheng 번역 품질을 크게 향상시켰으며, 다른 언어에서도 유사한 접근 방식을 탐색하고 있습니다.
Key Points:
- Dimagi는 저소득 국가를 위한 디지털 건강 도구를 개발합니다.
- GPT-4o 모델을 미세 조정하여 저자원 언어의 건강 교육 챗봇을 개발했습니다.
- Sheng 언어 번역 품질을 개선하기 위해 기계 번역 레이어를 도입했습니다.
- BLEU 메트릭을 사용하여 번역 품질을 평가했습니다.
- GPT-4o mini 모델의 미세 조정으로 번역 품질이 크게 향상되었습니다.
Details:
1. 👩🔬 Dimagi 소개 및 역할
- Anna Dixon은 Dimagi의 응용 연구 과학자로서 AI와 머신러닝의 최신 발전을 실제 업무에 적용하는 역할을 맡고 있다.
- Dimagi는 기술을 통해 사회적 문제를 해결하는 것을 목표로 하며, Anna의 역할은 이러한 목표를 달성하는 데 핵심적이다.
- Anna는 특히 헬스케어 분야에서 AI 솔루션을 개발하여 의료 접근성을 향상시키는 프로젝트를 주도하고 있다.
2. 🌍 프로젝트 목표 및 언어
2.1. Dimagi의 사명과 프로젝트 목표
2.2. 프로젝트 세부사항 및 언어
3. 🤖 챗봇 아키텍처 및 Sheng 언어 도전
- 빌 & 멜린다 게이츠 재단의 지원을 받아 케냐와 세네갈에서 가족 계획을 위한 LLM 사용 프로젝트를 진행했습니다.
- 프로젝트 목표는 대화형 에이전트를 통해 젊은이들의 지식, 태도 및 자기 효능감을 변화시켜 가족 계획 행동 변화를 지원하는 것이었습니다.
- 챗봇 아키텍처는 사용자 메시지가 라우터 LLM에 도달하고, 각 GPT-4 인스턴스가 메시지를 세 가지 지원 봇 중 하나로 보냅니다: 일반 대화 봇, 퀴즈 봇, 롤플레잉 봇.
- 프로젝트의 주요 요구 사항 중 하나는 Sheng 언어로 작동해야 한다는 것이었습니다.
- Sheng은 스와힐리어와 영어의 혼합어로, 케냐 청소년에게 더 친근하게 다가가기 위해 사용됩니다.
- LLM은 사전 학습된 데이터에 의존하기 때문에 Sheng과 같은 언어는 데이터가 적어 어려움이 있었습니다.
- 제로샷 및 퓨샷 프롬프트를 사용했지만, Sheng의 품질이 좋지 않았고, 스와힐리-영어 대체가 어색하다는 피드백을 받았습니다.
4. 🔄 새로운 접근법: 기계 번역 레이어
- Sheng 품질 개선을 위해 800개 이상의 Sheng 문장을 스타일 가이드로 프롬프트에 주입했으나, 많은 토큰으로 인해 속도가 느리고 비용이 많이 들었음.
- Sheng 품질이 대화 기록 및 프롬프트 변경에 대해 견고하지 않다는 문제 발견.
- GPT-4 인스턴스에 영어로만 응답하도록 지시하고, 새로운 기계 번역 레이어를 통해 영어에서 목표 언어로 번역하는 시스템으로 전환.
- 이 접근법은 시스템에 모듈성을 추가하고, 개발 노력을 분리하여 건강 교육 챗봇 및 기계 번역 레이어 최적화 가능.
- 언어 품질 평가를 분리할 수 있어 이전보다 평가가 용이해짐.
- 섹션 미세 조정 시 LLM의 다른 기능 저하 위험을 줄이기 위해 기계 번역 레이어에만 초점을 맞춤.
5. 📊 번역 평가 및 BLEU 메트릭
- 기계 번역 레이어는 LLM 채팅 완료 엔드포인트를 사용하여 쉽게 구현할 수 있음.
- 사용자 입력 메시지를 보내고, 시스템 프롬프트를 통해 번역 봇으로 작동.
- 번역할 수 없는 경우 'none'이라고 응답하도록 설정.
- 평가 데이터 세트는 문장 쌍의 CSV 파일로 구성됨.
- BLEU 메트릭은 기계 번역에서 널리 사용되는 지표로, 후보 번역과 실제 번역 간의 토큰 일치도를 측정.
- BLEU 점수는 0에서 100까지이며, 높은 점수가 더 나은 번역을 의미함.
- 일반적으로 40점 이상이면 꽤 좋은 번역으로 간주됨.
- BLEU는 문장 수준에서는 효과적이지 않으며, 대규모 데이터 세트에서 더 유용함.
- BLEU는 여러 매개변수와 토크나이저 선택에 의존함.
- SacreBLEU 패키지를 사용하여 표준화된 BLEU 메트릭을 유지.
6. 🛠️ 미세 조정 및 결과
- FLORES-200 spBLEU 지표를 사용하여 Facebook AI Research Team이 개발한 'no-language left behind' 이니셔티브를 위한 평가를 진행했습니다.
- 지침 미세 조정을 통해 모델에 동일한 지침을 반복적으로 제공하여 모델이 해당 지침에 적합하도록 조정했습니다.
- Python 스크립트를 사용하여 JSONL 파일을 생성하고, 각 줄이 기계 번역 작업을 완료하는 모델을 나타내도록 구성했습니다.
- GPT-4o mini 모델의 Sheng 번역 품질이 미세 조정을 통해 spBLEU 점수가 22.21에서 65.23으로 크게 향상되었습니다.
- Bill and Melinda Gates Foundation의 지원을 받아 여러 언어에서 이 아이디어를 탐구하는 프로젝트를 시작했습니다.
- Chihchewa 언어에 대해 GPT-4o mini 모델의 spBLEU 점수가 미세 조정 후 18.45에서 39.46으로 두 배 증가했습니다.
- GPT-4o 기본 모델은 44.62의 점수를 기록했으며, 미세 조정된 GPT-4o는 47.40으로 더 나은 성능을 보였습니다.
- 미세 조정된 GPT-4o mini와 비교하여 GPT-4o가 더 나은 성능을 보였지만, 비용 효율성 측면에서 GPT-4o mini가 유리합니다.
- BLEU 점수와 정확도 평가가 일치하도록 번역가와 협력하여 인간 검증을 수행했습니다.
- 오픈 소스 데이터 세트를 활용하여 평가 및 훈련에 사용하고 있습니다.