Digestly

Apr 16, 2025

o3 and o4-mini - they’re great, but easy to over-hype

AI Explained - o3 and o4-mini - they’re great, but easy to over-hype

OpenAI의 04 Mini와 03 모델은 이전 모델에 비해 성능이 향상되었지만, 여전히 완벽하지 않으며, 특히 환각 현상이 완전히 제거되지 않았다. 03 모델은 특정 벤치마크에서 좋은 성과를 보였지만, 비용 면에서 Gemini 2.5 Pro에 비해 비싸다. 또한, 03 모델은 도구 사용에 최적화되어 있어 특정 작업에서 뛰어난 성능을 발휘할 수 있다. 그러나 AGI로 간주되기에는 아직 부족하며, 인간 평균 이상의 성능을 보이지 않는다. OpenAI는 모델의 성능을 지속적으로 개선하고 있으며, 향후 몇 년 내에 AGI에 도달할 가능성이 있다.

Key Points:

  • 04 Mini와 03 모델은 이전 모델보다 성능이 향상되었지만, 여전히 환각 현상이 존재한다.
  • 03 모델은 특정 벤치마크에서 Gemini 2.5 Pro보다 높은 점수를 기록했지만, 비용 효율성에서 뒤처진다.
  • 모델은 도구 사용에 최적화되어 있어 특정 작업에서 뛰어난 성능을 발휘할 수 있다.
  • AGI로 간주되기에는 아직 부족하며, 인간 평균 이상의 성능을 보이지 않는다.
  • OpenAI는 모델의 성능을 지속적으로 개선하고 있으며, 향후 몇 년 내에 AGI에 도달할 가능성이 있다.

Details:

1. ✈️ 비행기 탑승 전 빠른 영상

1.1. Introduction and Upcoming Flight

1.2. OpenAI Releases: Mini 04 and 03

2. 🚀 새로운 모델 출시와 초기 반응

2.1. 🚀 새로운 모델 출시와 초기 반응

2.2. 모델의 주요 특징 및 개선점

2.3. 이전 모델과의 비교

3. 🤔 AI 모델과 AGI의 이해

3.1. AI 모델의 현재 성능

3.2. AGI의 현재 수준과 차이점

4. 🔍 AI의 오류와 한계 사례

  • ChatGPT와 같은 AI 모델은 특정 작업에서 인간 평균보다 뛰어난 성능을 발휘하지 못하는 경우가 많음.
  • AGI(Artificial General Intelligence)는 모델이 대부분의 인간 작업에서 인간 평균보다 나은 성과를 낼 때를 의미함.
  • Tyler Cohen이 주장하는 03 모델이 AGI라는 주장에 대해 회의적이며, AGI는 전문가가 아닌 일반인 수준에서의 성과를 기준으로 평가해야 함.
  • AI 모델의 경우 특정 상황에서 예측 오류가 발생할 수 있으며, 이는 데이터 편향이나 학습 데이터의 불완전성 때문일 수 있음.
  • 예를 들어, 자연어 처리 모델이 복잡한 문맥을 이해하지 못하고 잘못된 답변을 생성할 수 있음.

5. 🛠️ 도구 활용과 모델 개선 방법

  • 다섯 개의 선분이 교차하는 지점을 분석하여 8개의 교차점이 있다는 것을 확인함
  • OpenAI의 모델은 환각이 완전히 없는 것은 아니지만, 큰 개선을 보임
  • AGI에 대한 전체 이론을 설명할 수는 없지만, 제시된 예시를 통해 모델의 정확성을 강조함

6. 💰 비용 대비 성능 비교

6.1. 모델의 성능 성과

6.2. 모델 훈련 방법의 유용성

7. 📊 벤치마크 테스트와 결과 분석

  • O4 Mini High는 10점 만점에 4점을 받음
  • 테스트에서 기본적인 오류를 자주 범함
  • 차 트렁크에서 떨어진 장갑이 다리 아래 강으로 떨어질 가능성이 있다고 잘못 판단함
  • 예상보다 문제를 올바르게 해결하지 못함
  • 기본적인 오류가 전체 성능 점수에 큰 영향을 미침
  • 다른 모델과 비교했을 때, 오작동 비율이 높음
  • 향후 개선을 위해 구체적인 오류 수정이 필요함

8. 📈 AI 모델의 진화와 성과 강조

  • Gemini 2.5 Pro는 03에 비해 약 3~4배 저렴하다.
  • Gemini 2.5 Pro는 유튜브 비디오와 원시 비디오를 처리할 수 있는 반면, 03은 메타데이터 분석만 가능하다.
  • 03은 도구를 네이티브로 사용할 수 있도록 훈련되어 있으며, 벤치마크 웹사이트를 분석하고 커버 이미지를 생성하며 심층 분석을 수행했다.
  • Gemini 2.5 Pro의 성능은 다양한 비디오 형식을 처리할 수 있는 점에서 더욱 유연하고, 이러한 개선은 비디오 기반 콘텐츠 제작 및 분석에 큰 영향을 미친다.
  • Gemini 2.5 Pro와 03의 성능 차이는 AI 모델이 다양한 작업에서 얼마나 효율적으로 활용될 수 있는지를 보여준다.

9. 🧠 AI와 인간 지능의 비교

  • AI는 빠르게 발전하여 4~5개월 사이에도 큰 변화가 발생할 수 있음
  • 이전 AI 모델은 '벤치마크 최적화'되었으며, 이는 더 긴 추론 시간과 더 많은 컴퓨팅을 허용했다는 의미로 추정됨
  • 현재 제공되는 모델은 이전에 ARC AGI를 달성한 모델과 동일하지 않음
  • 두 모델 모두 20만 토큰 컨텍스트 윈도우를 가지고 있으며 최대 8만 단어를 출력할 수 있음
  • AI의 학습 데이터 한계는 2024년 6월 1일로 설정되어 있으며, 이는 Gemini 2.5 Pro의 2025년 1월과 비교됨
  • 경쟁 수학에서 03과 04 Mini 모델은 훈련 데이터에 없던 데이터셋에서도 우수한 성과를 보였으며, Gemini 2.5 Pro는 약 86%를 기록하고 Grock 3은 93%를 기록함
  • 도구 사용 시 모델은 매우 뛰어난 성능을 보여 경쟁 수학 벤치마크를 포화시킬 정도임
  • 경쟁 코드에서도 벤치마크가 가능하다면 이러한 모델들이 탁월한 성과를 보일 수 있음

10. 🔧 코드 활용과 비용 문제

  • Gemini 2.5는 단일 시도에서 83.3%와 81.4%의 성과를 보였으며, 이는 Claude 3.7 Sonnet의 84.8%와 비교된다.
  • Gemini 2.5 Pro는 MMLU와 유사한 MMU 벤치마크에서 81.7%를 기록했지만, 03은 82.9%로 더 나은 성과를 보였다.
  • 인류의 마지막 시험에서 Gemini 2.5 Pro는 18%를 기록했으며, 이전 기록인 OpenAI의 Deep Research와 비교해도 낮은 성과였다.
  • 03은 Python 및 브라우징 도구와 결합하여 더 많은 지식을 주입받을 것으로 예상되었으나 기대에 미치지 못했다.

11. 📚 학습 데이터와 성능 향상

11.1. 오류 감소 및 성능 평가

11.2. 비용 대비 성능 분석

11.3. 코드 실행 및 목표

12. 🔮 AI의 미래와 기대되는 발전

  • AI의 성능 향상은 데이터를 얼마나 잘 활용하느냐에 크게 의존하며, 데이터의 질과 다양성이 중요합니다.
  • SimpleBench 테스트가 없었지만 Weights and Biases의 지원으로 AI 모델의 성능을 정확하게 평가할 수 있게 되었습니다.
  • AI 모델의 과제 수행 능력이 매 7개월마다 두 배로 증가할 것으로 예상되며, 이는 기술 발전의 가속화를 의미합니다.
  • 03 모델은 다른 공개 모델보다 뛰어난 성능을 보였으며, 이는 AI 연구와 개발에서의 중요한 성과로 평가됩니다.
  • 1% 확률로 발생하는 보상 해킹 문제는 AI의 안전성과 윤리적 사용을 보장하기 위한 추가 연구가 필요함을 시사합니다.

13. 🌟 결론과 추천 영상 안내

  • OpenAI와 Anthropic의 책임 있는 확장 정책으로 인해 생물학적 위험을 유발할 수 있는 모델은 출시되지 않을 가능성이 있다는 점을 인식해야 합니다.
  • 03의 AGI에 대한 과장된 기대에 주목하기보다는 OpenAI 연구원의 성과에 집중하는 것이 중요합니다.
  • 01부터 04까지의 성능 차이는 기하급수적이지 않으며, Paperbench 결과는 AGI 과장과 맞지 않습니다. 01의 성과는 24%, 03의 성과는 18%, 04 Mini는 25%입니다.
  • 계산 성능의 지속적인 향상과 모델의 사고 시간을 늘리는 방식으로 AI가 발전할 가능성이 있습니다.
  • 03은 실제적인 진보를 나타내며, OpenAI의 성과를 인정해야 합니다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.