OpenAI - OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12
OpenAI는 12일간의 이벤트 마지막 날에 새로운 AI 모델 O3와 O3 mini를 발표했습니다. O3는 복잡한 문제 해결에 뛰어난 성능을 보이며, 코딩 및 수학적 문제에서 높은 정확도를 기록했습니다. 특히, O3는 코딩 벤치마크에서 71.7%의 정확도를 기록하며 이전 모델보다 20% 이상 향상된 성능을 보였습니다. 또한, 수학적 문제에서도 96.7%의 정확도를 기록하며, 이는 이전 모델의 83.3%보다 크게 향상된 수치입니다. O3 mini는 비용 효율적인 모델로, 다양한 사용 사례에 맞춰 조정 가능한 사고 시간을 제공합니다. 이 모델들은 현재 공공 안전 테스트를 위해 연구자들에게 공개되며, 사용자는 웹사이트를 통해 접근 신청을 할 수 있습니다. OpenAI는 이러한 모델들이 AI의 새로운 가능성을 열어줄 것이라고 기대하고 있습니다.
Key Points:
- O3 모델은 코딩 벤치마크에서 71.7%의 정확도를 기록, 이전 모델보다 20% 향상.
- 수학적 문제에서 O3는 96.7%의 정확도를 기록, 이는 이전 모델의 83.3%보다 향상된 수치.
- O3 mini는 비용 효율적인 모델로, 다양한 사고 시간 옵션을 제공하여 사용자 맞춤형 사용 가능.
- 새로운 모델들은 공공 안전 테스트를 위해 연구자들에게 공개, 웹사이트를 통해 접근 신청 가능.
- OpenAI는 이러한 모델들이 AI의 새로운 가능성을 열어줄 것이라고 기대.
Details:
1. 🚀 AI의 새로운 시작: 12일간의 여정
- 12일간의 이벤트 시작과 함께 첫 번째 추론 모델 '01' 출시
- 사용자들이 모델을 활용하는 방식에 대한 긍정적인 피드백
- AI의 다음 단계의 시작으로 간주
- 이벤트의 중요성: AI 기술의 발전과 혁신을 상징
- 사용자 피드백: 모델의 효율성과 혁신성에 대한 구체적인 사례 포함
2. 🔍 새로운 모델 발표: O3와 O3 미니
- 새로운 모델 O3와 O3 미니는 복잡한 작업을 수행할 수 있는 능력을 갖추고 있습니다.
- 이 모델들은 논리적 추론이 필요한 점점 더 복잡한 작업을 처리할 수 있습니다.
- O3 모델은 기존의 프론티어 모델에서 다음 단계로의 발전을 의미합니다.
- 모델의 명칭은 텔리카와의 협력 및 오픈 AI의 전통에 따라 O3로 결정되었습니다.
- O3와 O3 미니는 향상된 처리 능력과 효율성을 제공하여 사용자 경험을 크게 개선할 수 있습니다.
- 이 모델들은 특히 데이터 분석 및 예측 모델링에서 뛰어난 성능을 발휘합니다.
3. 🛡️ 안전성 테스트와 공개 계획
- 오늘 두 가지 모델 03과 O3 미니를 발표할 예정입니다. 03 모델은 매우 스마트한 모델이며, O3 미니는 성능과 비용 면에서 뛰어난 모델입니다.
- 이 모델들은 오늘 공개적으로 출시되지는 않지만, 공공 안전 테스트를 위해 오늘부터 이용 가능하게 할 것입니다.
- 안전성 테스트를 매우 중요하게 여기며, 모델의 능력이 향상됨에 따라 새로운 안전성 테스트 절차의 일환으로 연구자들에게 공개 접근을 허용할 것입니다.
- 이 모델들이 일반적으로 언제 이용 가능할지에 대해서는 나중에 더 이야기할 것입니다.
4. 💻 O3의 성능: 코딩 및 수학 벤치마크
4.1. 코딩 및 소프트웨어 벤치마크
4.2. 수학 벤치마크
5. 📊 새로운 벤치마크 도전: Epic AI와 Arc AGI
- Epic AI는 Codeforces라는 코딩 대회 사이트에서 ELO 점수 1891을 달성했습니다. 이는 AI의 코딩 능력을 평가하는 중요한 벤치마크입니다.
- 가장 공격적인 고성능 테스트 시간 설정에서 ELO 점수 2727을 달성했습니다. 이는 AI의 성능을 극한까지 끌어올린 결과입니다.
- 경쟁 프로그래머인 Mark는 유사한 사이트에서 약 2500의 점수를 기록했습니다. 이는 Epic AI의 성과가 인간 프로그래머와 비교할 때도 뛰어나다는 것을 보여줍니다.
- Epic AI의 성과는 수석 과학자 Yakov의 점수보다 높습니다. 이는 AI가 전문가 수준의 성과를 낼 수 있음을 시사합니다.
- OpenAI의 한 인물은 여전히 3000 이상의 점수를 기록하고 있습니다. 이는 Epic AI가 아직 최고 수준의 AI와 비교할 때 발전 가능성이 있음을 나타냅니다.
6. 🧠 O3의 수학 및 과학 성능
- O3 모델은 경쟁 프로그래밍뿐만 아니라 수학에서도 매우 강력한 성능을 보입니다.
- 경쟁 수학 벤치마크에서 O3는 96.7%의 정확도를 기록했으며, 이는 O1의 83.3% 성능과 비교됩니다.
- O3는 미국 수학 올림피아드의 매우 어려운 시험에서 거의 한 문제만 틀리는 성과를 보였습니다.
- PhD 수준의 과학 질문을 측정하는 GPQ 다이아몬드 벤치마크에서 O3는 87.7%의 최첨단 성과를 기록했습니다.
- 이는 O1의 78% 성능보다 약 10% 향상된 수치입니다.
- 전문가 PhD가 일반적으로 약 70%의 성과를 내는 것과 비교했을 때, O3의 성과는 매우 뛰어납니다.
7. 🔬 Frontier 모델의 새로운 벤치마크 필요성
- 현재의 벤치마크는 포화 상태에 도달하거나 근접하고 있어, Frontier 모델의 정확한 평가를 위해 더 어려운 벤치마크가 필요함이 강조됨.
- 최근 몇 달 동안 유망한 벤치마크가 등장했으며, 특히 주목할 만한 것은 Epic AI의 Frontier 수학 벤치마크임.
- 이 벤치마크의 점수는 이전 벤치마크보다 낮게 나타나며, 이는 현재 가장 어려운 수학적 벤치마크로 간주되기 때문임.
- 이 데이터 세트는 새로운, 미발표된, 매우 어려운 문제들로 구성되어 있으며, 전문 수학자들도 문제 해결에 몇 시간 또는 며칠이 걸릴 수 있음.
- 현재 모든 제공 모델의 정확도는 2% 미만임.
8. 🏆 Arc AGI에서의 새로운 성과
- Arc AGI는 03의 공격적인 테스트 시간 설정에서 25% 이상의 성과를 달성했습니다. 이는 AI 시스템의 효율성을 크게 향상시킨 결과입니다.
- Epic AI의 Frontier 수학 벤치마크 외에 Arc 벤치마크에 대한 새로운 발표가 있었습니다. 이는 AI 성능 평가의 새로운 기준을 제시합니다.
- Arc AGI 벤치마크는 2019년 Francois Cholle에 의해 개발되었으며, 5년 동안 AI 세계에서 무적의 기록을 유지하고 있습니다. 이는 Arc AGI의 지속적인 우수성을 입증합니다.
- Arc AGI를 능가하는 시스템은 AGI의 새로운 기준이 될 것입니다. 이는 AI 연구 및 개발의 방향성을 제시합니다.
9. 🧩 Arc AGI의 도전 과제와 AI의 학습 능력
- Arc AGI는 입력 예제와 출력 예제를 통해 변환 규칙을 이해하고 출력 결과를 예측하는 것을 목표로 한다.
- 인간에게는 직관적으로 쉬운 작업이 AI에게는 어려운 문제로 남아 있다.
- 예를 들어, 빈 공간에 어두운 파란색 사각형을 넣는 규칙을 이해하는 것은 AI에게 어려운 과제이다.
- 또한, 노란색 사각형의 개수를 세고 그에 따라 테두리를 만드는 작업도 AI가 아직 해결하지 못한 문제이다.
- AI는 복잡한 패턴 인식과 규칙 학습에서 어려움을 겪고 있으며, 이는 인간의 직관적 사고와 비교할 때 큰 도전 과제로 남아 있다.
- Arc AGI는 이러한 문제를 해결하기 위해 지속적인 학습과 개선이 필요하다.
10. 🎉 O3의 새로운 기록 발표
- Arc AGI 버전 1은 0%에서 5%로 발전하는 데 5년이 걸렸습니다.
- 각 작업은 고유한 기술을 요구하며, 모델의 새로운 기술 학습 능력을 테스트하기 위해 의도적으로 다양한 작업을 설정합니다.
- 기존에 암기한 내용을 반복하는 것이 아니라 새로운 기술을 즉석에서 학습하는 능력을 중시합니다.
11. 🤝 Arc AGI와의 협력 및 미래 계획
- Arc AI의 반공개 홀드아웃 세트에서 75.7점을 기록하여 새로운 최첨단 점수를 달성함.
- 이 점수는 공용 리더보드의 컴퓨팅 요구 사항 내에 있으며, rkg Pub에서 새로운 1위 항목으로 등재됨.
- 고성능 컴퓨팅으로 전환 시, 동일한 숨겨진 홀드아웃 세트에서 87.5%를 기록함.
- 인간 성능이 85% 임계값과 비교 가능한 수준이므로, 이를 초과하는 것은 중요한 이정표임.
- 이전에는 어떤 시스템이나 모델도 이러한 성과를 달성한 적이 없었음.
12. 🧩 O3 미니의 성능과 기능
- O3 미니는 새로운 비용 효율적인 추론 모델로, 03 패밀리의 일원으로서 새로운 추론의 경계를 정의합니다.
- 이 모델은 수학 및 코딩 능력에서 세계 최고 수준을 자랑하며, 저비용으로 제공됩니다.
- O3 미니는 아직 사용자에게 제공되지 않지만, 향후 출시될 예정입니다.
- 이 모델은 AI의 초기 단계에서 지속 가능한 벤치마크를 제공하며, AI의 발전을 가속화하는 데 기여할 것입니다.
13. 🛠️ O3 미니의 실시간 데모
- O3 미니는 API에 적응형 사고 시간을 도입하여 사용자가 저, 중, 고의 사고 노력 옵션을 선택할 수 있게 함으로써 다양한 사용 사례에 맞춰 사고 시간을 조정할 수 있습니다.
- 코딩 평가에서 O3 미니는 더 긴 사고 시간을 통해 더 높은 성능을 발휘하며, 중간 사고 시간에서도 O1 미니보다 더 나은 성능을 보여줍니다.
- O3 미니는 속도와 비용 면에서 O1 미니와 비교하여 동일한 코드 성능을 제공하며, 비용 대비 성능 향상이 두드러집니다.
- 오른쪽 그래프에서는 O3 미니가 새로운 비용 효율적 사고 프론티어를 정의하며, O1 미니보다 더 나은 성능을 더 낮은 비용으로 달성합니다.
- 실시간 데모에서는 O3 미니를 사용하여 Python으로 코드 생성기 및 실행기를 구현하는 작업을 수행하며, 로컬 서버와 UI를 통해 코딩 요청을 처리할 수 있습니다.
14. ⚙️ O3 미니의 코딩 및 수학 성능
- O3 미니 API는 요청을 받아 코드를 생성하고 이를 로컬에 저장한 후 자동으로 실행하여 복잡한 작업을 수행할 수 있습니다.
- 모델은 낮은 추론 노력으로도 빠르게 작업을 수행하며, 61.6%의 정확도로 어려운 GPQ 데이터셋을 평가할 수 있습니다.
- O3 미니는 AM 2024 데이터셋에서 다른 모델들과 비교하여 유사하거나 더 나은 성능을 보이며, 특히 O3 미니 하이 버전은 성능을 더욱 향상시킵니다.
- O3 미니 로우는 지연 시간을 크게 줄여 GBT 40과 유사한 수준의 지연 시간을 달성합니다.
15. 🔍 O3 미니의 API 기능 및 성능
- O3 미니는 즉각적인 응답을 제공하며, O1에 비해 지연 시간이 절반으로 줄어듭니다.
- 개발자 커뮤니티의 요청에 따라 함수 호출, 구조화된 출력, 개발자 메시지 지원 기능을 모든 미니 시리즈 모델에 제공합니다.
- O3 미니는 O1과 동일한 기능을 지원하며, 대부분의 평가에서 더 나은 성능을 발휘하여 비용 효율적인 솔루션을 제공합니다.
- 최근 실행된 성능 평가에서 O3 미니는 62%의 성능 향상을 보였습니다.
- 내부 안전 테스트와 함께 외부 안전 테스트도 시작하여 모델의 안전성을 강화하고 있습니다.
16. 🔒 안전성 테스트와 연구자 초대
- 연구자 초대 신청은 1월 10일에 마감됩니다.
- 새로운 보고서가 발표되었으며, 이는 안전 프로그램을 발전시키는 새로운 기술인 '숙고적 정렬'을 소개합니다.
- 숙고적 정렬은 모델의 추론 능력을 활용하여 더 정확한 안전 경계를 찾는 기술입니다.
- 이 기술은 모델이 프롬프트를 분석하고 안전한지 여부를 판단할 수 있게 합니다.
- 추론 과정에서 사용자의 숨겨진 의도를 파악할 수 있습니다.
- 거절 벤치마크에서의 성능이 향상되었습니다.
17. 🛡️ 새로운 안전성 기술: Deliberative Alignment
- Deliberative Alignment 기술을 통해 거부와 검토 시점을 정확히 판단하는 능력이 향상됨.
- 기존 모델의 성능을 나타내는 빨간색과 파란색 점에 비해, Deliberative Alignment를 적용한 모델은 오른쪽 상단의 녹색 점으로 성능이 개선됨.
- 안전성을 높이기 위해 추론 능력을 활용하는 전략이 효과적임을 입증함.