AI Explained - o3 - wow
OpenAI가 발표한 AI 모델 03은 기존의 AI 한계를 뛰어넘어 다양한 벤치마크를 압도적으로 뛰어넘고 있다. 이 모델은 강화 학습을 통해 수많은 후보 솔루션을 생성하고 검증 모델이 이를 평가하여 최적의 답을 찾는 방식으로 작동한다. 특히 수학과 코딩 분야에서 정확한 답을 생성하는 데 탁월한 성능을 보이며, Frontier Math와 같은 어려운 벤치마크에서 25%의 정확도를 기록했다. 이는 기존 AI 모델들이 2% 미만의 정확도를 보였던 것에 비해 큰 발전이다. 또한, 03은 경쟁 코딩에서도 상위 0.05%에 해당하는 성과를 보이며, 실제 소프트웨어 엔지니어링 문제에서도 높은 정확도를 기록했다. 이러한 성과는 AI가 인간의 작업을 대체할 수 있는 가능성을 보여주며, AI 안전성 연구의 중요성을 강조하고 있다.
Key Points:
- OpenAI의 03 모델은 다양한 벤치마크를 뛰어넘으며 AI의 한계를 재정의하고 있다.
- 03 모델은 강화 학습을 통해 수학과 코딩 분야에서 높은 정확도를 기록하고 있다.
- 03은 Frontier Math 벤치마크에서 25%의 정확도를 기록하며, 이는 기존 AI 모델보다 월등히 높은 성과이다.
- 경쟁 코딩에서 03은 상위 0.05%에 해당하는 성과를 보였다.
- AI의 발전은 AI 안전성 연구의 중요성을 강조하며, 인간의 작업을 대체할 가능성을 보여준다.
Details:
1. 🔍 AI 혁신의 밤
- OpenAI가 발표한 모델 03은 인공지능의 한계를 극복한 것으로 평가됨.
- 03 모델은 수십 년간 유지될 것으로 예상된 벤치마크를 돌파함.
- 벤치마크를 설정할 수 있는 모든 도전 과제는 O 시리즈 모델이 결국 극복할 수 있음.
- 03 모델이 일부 벤치마크를 극복하는 데 35만 달러의 비용이 소요되었으나, 비용만으로는 발전을 막을 수 없음.
- AI 분야의 중대한 날로, 모든 관련자는 자신의 계획을 조정해야 함.
2. 🧠 03 모델의 작동 원리
- AI는 기본 모델을 사용하여 수백 또는 수천 개의 후보 솔루션을 생성합니다.
- 검증 모델은 이러한 답변을 검토하고 순위를 매깁니다.
- 수학 및 코딩과 같은 과학적 분야에서는 올바른 답을 알 수 있습니다.
- 시스템이 올바른 추론 단계를 생성하면 모델을 미세 조정할 수 있습니다.
- 올바른 답변에 대한 미세 조정은 강화 학습으로 분류될 수 있습니다.
- 03 모델은 01 모델을 넘어 강화 학습을 확장하여 구동됩니다.
- O 시리즈 모델은 벤치마크를 통해 결국 이를 능가할 수 있습니다.
3. 📊 수학적 도전과 03의 성과
- 03 모델은 매우 어려운 수학 문제에서 25% 이상의 정확도를 달성했습니다.
- 기존의 다른 모델들은 이 벤치마크에서 2% 미만의 정확도를 보였습니다.
- 03 모델은 단일 시도로 정답을 맞추는 경우와 여러 해답 중 가장 빈번하게 나온 정답을 맞추는 경우로 나뉩니다.
- 03 모델은 대수 패키지에 의존하지 않고도 수학 분야의 전문가 수준의 성과를 보였습니다.
- 03 모델의 성과는 AI가 수학적 문제 해결에서 몇 년간 저항할 것이라는 예측을 뒤엎었습니다.
- 03 모델의 전체 버전은 내년 1분기에 출시될 가능성이 있습니다.
4. 🚀 AI 발전과 새로운 벤치마크의 도전
- AI 연구에서 01에서 03으로의 발전이 3개월 만에 이루어졌으며, 이는 강화 학습의 새로운 패러다임에서 얼마나 빠르게 발전이 이루어질 수 있는지를 보여준다.
- 새로운 모델이 1~2년마다 등장하는 사전 훈련 패러다임과 달리, 강화 학습을 통한 발전은 훨씬 빠르게 이루어질 수 있다.
- GPT-5가 나오지 않을 수도 있지만, AGI는 어쨌든 도달할 수 있을 것이다.
- 안전성 테스트가 새로운 모델의 대중 공개를 지연시킬 수 있으며, 최첨단 연구소와 대중이 사용할 수 있는 모델 간의 격차가 점점 더 커질 수 있다.
- 03 모델이 87.7%의 벤치마크를 달성하며, 벤치마크가 생성되자마자 거의 즉시 무너지고 있다.
5. 💻 코딩 경쟁에서의 03
- 글로벌 코딩 경쟁에서 175위에 오른 참가자는 99.95%의 인간보다 뛰어난 성과를 보임.
- sbench는 실제 소프트웨어 엔지니어들이 직면하는 문제를 테스트하는 벤치마크로, Claude 3.5 Sonic 모델이 49%의 성과를 기록.
- Sonet 3.5의 새로운 버전은 sbench에서 약 50%의 성과를 보이며, 이는 10개월 전 3%에서 크게 향상된 수치.
- 향후 1년 내에 90%에 도달할 가능성이 있으며, 이는 프로그래밍 대회에서의 데이터 오염이 없는 상태에서의 성과.
- Google의 Alpha code 2는 code forces 경쟁에서 99.5%의 참가자를 능가하며, 성능이 샘플 수에 따라 대략적으로 로그 선형적으로 증가함.
6. 📝 벤치마크의 한계
- OpenAI는 O 시리즈 모델이 일부 자연어 작업에 적합하지 않다고 인정했습니다.
- O 시리즈 모델은 특정 작업에서 객관적으로 올바른 답이 있는 경우 곧 이를 능가할 가능성이 높습니다.
- 답의 정확성이나 출력의 품질이 주관적인 경우, 해결하는 데 더 오랜 시간이 걸릴 수 있습니다.
- 분포 외 일반화와 같은 핵심 추론 작업은 여전히 도전 과제로 남아 있습니다.
7. 🧩 AI의 본질적 지능과 도전
- AI 모델의 본질적 지능은 비용이나 지연 시간을 고려하지 않고도 모든 것을 좌우하는 중요한 요소이다.
- 모델의 본질적 지능을 평가하기 위해 세 가지 예시를 통해 설명한다.
- 첫 번째 예시는 조합성(compositionality)으로, 이는 작년에 Nature에 발표된 유명한 논문에서 다루어졌다.
- 조합성 테스트는 '사이', '더블', '색상'과 같은 개념으로 가득 찬 언어를 만들어 모델이 이러한 개념을 올바른 답변으로 조합할 수 있는지를 평가한다.
- 이 개념들은 추상적이어서 훈련 데이터에서 본 적이 없는 것들이다.
- 원래의 GPT-4는 이 도전에서 크게 실패했으며, 01 PR 모드는 9분 동안 생각한 후 '누구'를 '더블'로 번역하는 데 성공했지만 '모로'를 이해하지 못했다.
- '모로'는 대칭에 관한 것이라고 생각했지만 '사이'를 의미한다는 것을 이해하지 못했다.
- 03 버전이 조합성을 마스터할 수 있을지는 아직 테스트할 수 없어 답할 수 없다.
8. 🔍 공간 추론과 AI의 한계
- 작은 모델인 Flash는 25%의 점수를 기록했으나, Google의 Gemini 실험 모델 126보다는 낮은 성과를 보임.
- OpenAI의 03 모델은 공간 추론을 마스터해야 하며, 이는 단순한 벤치마크를 넘어서는 도전 과제임.
- 01 모델은 공간 데이터와 사회적 추론 데이터가 훈련 데이터에 포함되어 있지 않다고 의심됨.
- 03 모델의 기본 모델이 무엇인지에 대한 명확한 정보는 없으나, 물리학에 대한 직관적 이해를 통해 공간 추론 시나리오를 해결할 수 있을 가능성이 있음.
- OpenAI는 03 모델을 통해 일반화 가능한 접근 방식을 입증했으며, 충분한 공간 추론 데이터와 강화 학습을 통해 모델의 성능을 향상시킬 수 있을 것으로 기대됨.
- Genesis와 같은 시뮬레이터는 물리학을 모델링하여 O3 모델에 무한한 훈련 데이터를 제공할 수 있음.
9. 🧠 AGI와 03의 도전
- 03 모델이 특정 벤치마크에서 88%의 성과를 달성했으며, 이는 350,000달러의 컴퓨팅 비용을 통해 이루어졌습니다.
- 03 모델은 새로운 과제에 적응하는 AI의 중요한 돌파구를 나타내며, 이는 과학적 관심을 요구합니다.
- 03 모델은 효율적인 함수 도출에 능숙해졌으며, 이는 AI가 새로운 과제에 적응하는 데 중요한 역할을 합니다.
- 평균 인간의 성과는 64.2%로, 03 모델의 성과와 비교됩니다.
- 03 모델은 16시간 동안 87.5%의 성과를 달성했으며, 이는 시간당 3.5%의 증가율을 보였습니다.
- 03 모델의 성능은 고비용의 컴퓨팅을 통해 달성되었으며, 이는 172배의 저비용 구성 대비 높은 비용을 요구합니다.
- 03 모델은 여전히 일부 쉬운 과제에서 실패하며, 이는 AI가 인간의 직관을 완전히 대체하지 못함을 시사합니다.
- AGI의 정의는 인간이 쉽게 이길 수 있는 벤치마크를 AI가 해결할 수 없을 때로 설정될 수 있습니다.
10. 🔒 AI 안전성과 미래
- OpenAI는 해로운 요청을 거부하면서도 무해한 요청을 과도하게 거부하지 않도록 모델을 조정하는 기술을 발표했습니다.
- Frontier Math 결과는 AI가 특정 분야에서 인간의 지능을 초월하고 있음을 시사하며, 이는 과학 연구의 가속화를 가져올 수 있습니다.
- AI 안전성 주제, 특히 확장 가능한 감독은 이제 가설적인 연구가 아닌 우선순위가 되어야 합니다.
- 더 똑똑한 모델에 대해 덜 똑똑한 모델이나 인간이 어떻게 감독할 수 있는지를 해결하는 것이 중요합니다.
- OpenAI 연구자들은 AGI가 다가오고 있으며, 이는 단순한 마케팅이 아니라 실제로 다가오는 현실이라고 강조합니다.