BZCF | 비즈까페 - GPT 신규모델 o3 공개
O3 모델은 코딩 및 수학 벤치마크에서 뛰어난 성능을 보이며, 특히 소프트웨어 스타일 벤치마크에서 71.7%의 정확도를 기록하여 이전 모델보다 20% 이상 향상되었다. 또한, 경쟁 프로그래밍 및 수학 벤치마크에서도 높은 점수를 기록하며, 특히 PhD 수준의 과학 질문에서 87.7%의 정확도를 보였다. 이는 전문가 수준의 성과를 초과하는 결과이다. O3 모델은 Epic AI의 프론티어 수학 벤치마크에서도 25% 이상의 정확도를 기록하며, AI가 해결하기 어려운 문제에서도 뛰어난 성능을 발휘하고 있다. 또한, Ark AGI 벤치마크에서 75.7%의 점수를 기록하며, 인간의 성과를 초과하는 결과를 보여주었다.
Key Points:
- O3 모델은 소프트웨어 벤치마크에서 71.7%의 정확도를 기록.
- 경쟁 프로그래밍에서 2727 ELO를 달성.
- 수학 벤치마크에서 96.7%의 정확도를 기록.
- Epic AI의 프론티어 수학 벤치마크에서 25% 이상의 정확도를 기록.
- Ark AGI 벤치마크에서 75.7%의 점수를 기록.
Details:
1. 📢 새로운 프런티어 모델 발표
- 새로운 프런티어 모델의 이름은 '03'으로 결정되었습니다. 이 명칭은 텔레포니카에 대한 존중을 반영하며, 오픈 AI의 창의적인 명명 전통을 이어갑니다.
- 기존의 명명 전통을 활용하여, '03'은 새로운 모델의 혁신적이고 차별화된 특성을 강조합니다.
- 텔레포니카와의 협력을 통해 얻은 영감을 바탕으로, '03'이라는 이름이 선정되었습니다.
2. 🔍 O3 및 O3 미니 소개
- O3 모델은 매우 스마트하며 다양한 인공지능 기능을 탑재하고 있습니다.
- O3 미니는 성능과 비용 효율성을 모두 고려한 모델로, 휴대성과 운용에서 뛰어난 능력을 발휘합니다.
- 두 모델 모두 사용자 친화적 인터페이스를 제공하고, 인공지능을 활용한 분석 및 예측 기능을 통해 다양한 산업에서 활용될 수 있습니다.
3. 🚫 공개 출시 보류
- 오늘 공개 출시는 보류되었습니다. 이는 제품 성능 최적화를 위한 추가 검토가 필요하기 때문입니다.
- 제품의 주요 기능으로는 AI 기반의 고객 세분화가 있으며, 이는 고객 참여를 32% 개선했습니다.
- 데모에서는 6개월의 제품 개발 주기가 새로운 방법론을 통해 8주로 단축되는 과정을 보여줄 예정입니다.
- 제품 성능과 관련하여, 출시 후 매출이 45% 증가할 것으로 예상하고 있습니다.
4. 📈 O3 모델의 벤치마크 성능
- O3 모델은 매우 까다로운 기술 벤치마크에서 강력한 성능을 발휘합니다.
- 소프트웨어 스타일 벤치마크에서 O3는 SweetBench Verified에서 71.7%의 정확도를 기록하며, 이는 O1 모델보다 20% 이상 높은 성능을 보여줍니다.
- O3 모델의 정확도 향상은 기존 모델과의 비교에서 분명히 드러나며, 이는 기술적 우수성을 입증하는 중요한 지표입니다.
- 추가적인 벤치마크 결과는 O3 모델이 다양한 환경에서 일관되게 높은 성능을 유지함을 보여주며, 이는 실질적인 사용 사례에 대한 신뢰성을 높입니다.
5. 🧩 수학적 능력 향상
5.1. Competitive Programming Achievements
5.2. Mathematical Performance
6. 📊 새로운 어려운 벤치마크
- 03 버전 모델은 USA 수학 올림피아드 피더 시험에서 거의 모든 질문을 맞히며 높은 정확성을 보였습니다.
- GPQ Diamond 벤치마크에서 모델의 박사 수준 과학 질문에 대한 성능이 87.7%로, 이전 78% 성능을 약 10% 향상시켰습니다.
- 전문가 박사가 강점 영역에서 약 70%의 성능을 보이는 경우와 비교할 때, 87.7%의 성능은 인상적입니다.
- 많은 벤치마크에서 모델이 포화 상태에 도달하거나 그에 근접한 성능을 보이고 있습니다. 이는 더 어려운 벤치마크의 필요성을 강조합니다.
- Epic AI의 프론티어 수학 벤치마크에서는 모델의 뛰어난 성능이 눈에 띄었습니다.
7. 🏆 Arc AGI 도전 과제 진전
- Arc AGI 도전 과제는 2019년 프랑소아 쇼레의 논문에서 개발되어, 현재 가장 어려운 수학 벤치마크로 자리 잡고 있습니다.
- 이 벤치마크는 새로운 미발표 문제와 매우 어려운 문제로 구성되어 있으며, 전문 수학자도 문제 해결에 몇 시간 또는 며칠이 소요될 수 있습니다.
- 현재 모든 제품의 정확도가 2% 미만으로, 도전 과제의 난이도를 반영합니다.
- 0.3 버전 사용 시 공격적인 테스트 시간 설정에서 25% 이상의 정확도를 달성한 것은 중요한 진전입니다.
- 이러한 진전은 향후 발전 가능성을 시사합니다.
8. 🔄 Arc AGI 벤치마크 이해
- Arc AGI는 지난 5년 동안 AI 분야에서 무적의 성과를 보였으며, 이를 능가하는 시스템은 일반 인공지능(GI)에서 중요한 이정표가 될 것입니다.
- Arc AGI의 목표는 입력 예시와 출력 예시를 기반으로 변환 규칙을 이해하고 정확한 출력물을 예측하는 것입니다.
- 인간에게 직관적으로 쉬운 과제가 AI에게는 어려울 수 있습니다. 예를 들어, 빈 공간에 짙은 파란색 사각형을 넣는 규칙을 발견하는 것이 AI에게는 도전적일 수 있습니다.
- AI가 이러한 문제를 해결하는 것은 인간의 직관과는 다르게 복잡한 과정을 필요로 합니다.
- Arc AGI 벤치마크는 AI의 직관적 이해 능력을 시험하는 데 사용되며, 이는 AI의 발전을 측정하는 중요한 도구로 작용합니다.
9. 🌟 Arc AGI 새로운 점수 달성
- Arc AGI 버전 1은 5년 동안 0%에서 5%로 발전했습니다.
- AI가 아직 해결하지 못한 문제를 인간 패널이 해결할 수 있었음을 확인했습니다.
- 각 작업은 고유한 기술을 요구하며 모델의 새로운 기술 학습 능력을 테스트합니다.
- 03은 저가의 컴퓨팅 환경에서 새로운 최첨단 점수를 기록했습니다.
10. 🤝 미래 벤치마크를 위한 협력
- Arc AI의 준공개 보류 세트에서 75.7점을 기록, 이는 공공 리더보드의 계산 요구 사항 내에 있어 매우 인상적이며 새로운 1위 기록임
- 03 모델이 동일한 숨겨진 보류 세트에서 87.5%를 기록, 이는 인간 성능의 85% 임계값을 초과하여 주요 이정표가 됨
- AI의 초기 단계임에도 불구하고 Ark AGI와 같은 지속 가능한 벤치마크가 필요하며, 오픈 AI와 협력해 더 많은 발전을 기대함
11. 🆕 O3 미니와 적응형 사고
11.1. O3 미니 소개
11.2. 적응형 사고 기능
12. 🔒 고급 안전 기술
- 새로운 보고서 발표로 안전 프로그램을 발전시킴
- 새로운 기술인 '숙고적 정렬' 도입
- 모델 상단에서 안전 훈련 시 안전과 불안전 경계 학습
- 모델의 추론 능력을 활용해 더 정확한 안전 경계 찾기
- 숙고적 정렬이 안전 사양을 통해 모델이 프롬프트를 추론하게 함
- 추론 과정에서 사용자 의도를 파악하고 안전 여부 판단
- 사용자가 속이려는 의도나 숨겨진 의도를 발견하는 데 도움
- '숙고적 정렬'은 모델이 사용자 프롬프트를 보다 깊이 있게 이해하도록 돕는 기술로, 안전과 관련된 경계 설정을 더 정확하게 수행
- 이 기술은 사용자 의도를 파악하여 모델이 안전하게 작동하도록 보장하며, 기존 방법에 비해 더 높은 수준의 정확성을 제공
- 실제 사례를 통해, 사용자의 숨겨진 의도를 탐지하고 안전성을 높이는 데 기여