OpenAI - OpenAI DevDay 2024 | Community Spotlight | LaunchDarkly
이 발표에서는 대규모 언어 모델이 인간의 편향을 어떻게 상속받는지와 이를 해결하기 위한 연구 결과를 공유합니다. 첫 번째 연구는 Anthropic에서 진행된 것으로, 대규모 언어 모델이 고위험 결정을 내릴 때의 편향을 조사했습니다. 연구 결과, 모델은 여성이나 비백인에게 긍정적인 차별을 보였지만, 60세 이상의 사람들에게는 부정적인 연령 차별을 보였습니다. 연구자들은 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하는 것이 편향을 줄이는 데 가장 효과적임을 발견했습니다. 두 번째 연구는 프린스턴 대학교에서 진행되었으며, 대규모 언어 모델에 암묵적 편향 테스트를 적용했습니다. 연구 결과, 명시적이고 절대적인 결정을 내리도록 요청할 때 편향이 줄어드는 것으로 나타났습니다. 실용적인 프롬프트 엔지니어링 방법으로는 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하며, 관련 외부 데이터를 포함시키는 것이 중요합니다.
Key Points:
- 대규모 언어 모델은 인간의 편향을 상속받아 고위험 결정을 내릴 때 주의가 필요하다.
- 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하면 편향을 줄일 수 있다.
- 명시적이고 절대적인 결정을 내리도록 요청할 때 모델의 편향이 줄어든다.
- 프롬프트에 관련 외부 데이터를 포함시키는 것이 중요하다.
- 모델의 프롬프트는 작은 변화에도 민감하므로 지속적인 테스트와 반복이 필요하다.
Details:
1. 👋 소개 및 주제 소개
- Tilde는 LaunchDarkly의 시니어 개발자 교육자입니다.
- 오늘의 주제는 사회 정의와 프롬프트 엔지니어링입니다.
2. 🔍 연구 개요 및 목표
- 대형 언어 모델은 많은 잠재력을 가지고 있지만, 인간의 데이터를 기반으로 학습되었기 때문에 인간의 결함을 그대로 가지고 있다.
- 현재 많은 연구자들이 이 문제를 해결하기 위해 적극적으로 연구 중이다.
- 산업계와 학계의 연구 논문을 각각 하나씩 다루고, 이를 어떻게 적용할 수 있는지에 대해 설명할 예정이다.
- 산업계 연구는 AI 모델의 편향성을 줄이기 위한 새로운 알고리즘을 제안하며, 이는 모델의 정확성을 20% 향상시켰다.
- 학계 연구는 데이터 다양성을 높여 모델의 공정성을 개선하는 방법을 제시하며, 실험 결과 공정성이 15% 증가했다.
3. 📄 Anthropic 연구: 편향 감사
- Anthropic의 연구에 따르면, 대형 언어 모델을 인간에 대한 고위험 결정을 내리는 데 사용해서는 안 된다. 이는 아직 준비가 되지 않았기 때문이다.
- 연구자들은 Claude 2.0 모델이 가상의 인간에 대한 예/아니오 고위험 결정을 내릴 때 편향을 보이는지 조사했다.
- Claude 모델은 여성이나 비백인에게 긍정적인 차별을 보였으며, 60세 이상의 사람들에게는 부정적인 연령 차별을 보였다.
- 연구자들은 '차별하지 말라'는 문구를 추가하여 프롬프트를 수정했으며, 차별이 불법임을 상기시키고 인구통계학적 정보를 무시하도록 지시하는 것이 편향을 가장 많이 줄였다.
4. 🧪 Princeton 연구: 암묵적 편향 테스트
- 프린스턴 대학 연구진은 대형 언어 모델에 암묵적 편향 테스트를 적용하는 방법을 개발했다. 이 연구는 모델이 사회적 편향을 어떻게 반영하는지를 평가하는 데 중점을 두었다.
- 모든 테스트된 모델이 높은 수준의 고정관념적 편향을 보였다. 이는 모델이 훈련 데이터에서 사회적 편향을 학습했음을 시사한다.
- 모델이 명시적이고 절대적인 결정을 내리도록 요청하면 상대적인 결정보다 편향이 적었다. 이는 명확한 지침이 편향을 줄이는 데 효과적일 수 있음을 보여준다.
- GPT-4o의 편향은 '다른 사회경제적 지위를 가진 사람들을 동등하게 대하라'는 조항을 추가했을 때 거의 절반으로 감소했다. 이는 특정 지침이 편향 감소에 기여할 수 있음을 시사한다.
- 모델에게 인구통계 정보를 무시하도록 지시하는 것이 편향을 줄이는 데 효과적이었다. 이는 모델의 입력 정보 관리가 편향 감소에 중요함을 나타낸다.
5. ✍️ 실생활 적용: 추천서 작성
- 대형 언어 모델을 사용하여 추천서를 작성할 때 성별 편향이 나타날 수 있음. 예를 들어, 여성의 성격 특성을 강조하고 남성의 성취를 강조하는 경향이 있음.
- 모델의 편향을 줄이기 위해 학생의 GPA와 과외 활동과 같은 관련 맥락 정보를 추가하고, 인구통계학적 정보를 무시하도록 모델에 지시함.
- 모델 간 및 프롬프트 간의 비교 테스트를 쉽게 수행할 수 있는 LaunchDarkly라는 플랫폼을 소개함.
- 대형 언어 모델을 사용하여 인간에 대한 중요한 결정을 내리지 말 것을 권장하며, 회사가 이를 요구할 경우 반대할 것을 촉구함.
- 편향 없는 프롬프트 엔지니어링을 위해 모델에게 차별이 불법임을 상기시키고 인구통계학적 특성을 무시하도록 지시할 것을 제안함.
6. 📊 요약 및 권장 사항
- 절대적인 결정을 내리도록 하고, 관련 외부 데이터로 프롬프트를 고정하세요. 예를 들어, 추천서에 GPA를 입력할 때처럼.
- RAG와 같은 아키텍처 패턴이 도움이 될 수 있습니다. 이는 외부 데이터를 활용하여 모델의 성능을 향상시킬 수 있습니다.
- 블라인딩은 효과적이지 않습니다. 대형 언어 모델은 우편번호나 출신 대학과 같은 정보로 인구통계를 추론할 수 있습니다. 따라서 데이터 프라이버시를 강화하는 다른 방법이 필요합니다.
- 프롬프트는 작은 문구 변화에 민감합니다. 이는 모델의 응답에 큰 영향을 미칠 수 있으므로 주의가 필요합니다.
- 새로운 모델이 빠르게 출시되고 있어 따라가기 어렵습니다. 따라서 최신 기술을 지속적으로 학습하고 적용하는 것이 중요합니다.
- 아키텍처 시스템에 유연성을 구축하고 지속적인 테스트와 반복이 필요합니다. 이는 변화하는 기술 환경에 적응하기 위한 필수적인 전략입니다.
7. 🙏 마무리 및 감사 인사
- 발표 자료와 자세한 참고 자료는 슬라이드에서 확인 가능
- 소셜 미디어나 휴식 시간에 발표자와 직접 소통 가능