Fireship - Meta’s Llama 4 is mindblowing… but did it cheat?
메타는 주말 동안 라마 4라는 새로운 대형 언어 모델을 출시했다. 이 모델은 1천만 토큰의 컨텍스트 윈도우를 자랑하며, 여러 벤치마크에서 높은 순위를 기록했다. 그러나 실제 성능은 기대에 미치지 못하며, 일부 사용자들은 메타가 벤치마크 데이터를 사용해 모델을 훈련시켰다고 비난했다. 메타는 이러한 비난을 부인했다. 한편, Shopify의 CEO는 AI를 활용한 업무 효율성을 강조하며, AI 학습을 피할 수 없다고 밝혔다. 이는 AI가 직장 내에서 점점 더 중요한 역할을 하고 있음을 보여준다. Augment Code는 대규모 코드베이스를 위한 AI 에이전트를 제공하며, 팀의 코드 스타일에 맞춰 학습하고 최적화할 수 있다.
Key Points:
- 메타의 라마 4는 1천만 토큰의 컨텍스트 윈도우를 제공하지만 실제 성능은 기대 이하이다.
- Shopify는 AI를 활용한 업무 효율성을 강조하며, AI 학습을 피할 수 없다고 밝혔다.
- Augment Code는 대규모 코드베이스를 위한 AI 에이전트를 제공한다.
- 메타는 벤치마크 데이터를 사용해 모델을 훈련시켰다는 비난을 부인했다.
- AI는 직장 내에서 점점 더 중요한 역할을 하고 있다.
Details:
1. 🦙 메타의 새로운 Llama 모델 발표
- 메타는 주말 동안 Llama 모델을 발표하며, 이는 최초의 오픈웨이트 본토 다중 모달 전문가 조합의 대형 언어 모델 가족으로, 1000만 토큰의 전례 없는 컨텍스트 윈도우를 보유하고 있다.
- 이 모델은 현재 LM Arena 리더보드에서 정상을 차지하고 있으며, Gemini 2.5 Pro를 제외한 모든 독점 모델을 능가한다.
- LM Arena는 수천 개의 직접 대화에서 실시간 인간이 더 나은 대화를 선택하는 방식으로 순위가 매겨지기 때문에, 벤치마크를 조작할 수 없다.
- 메타는 LM Arena에서 리더보드를 지배하기 위해 인간 선호도에 맞게 미세 조정된 사기 모델을 사용했으며, 이는 정당한 방법이 아니었다는 비판을 받았다.
- Llama 모델은 대형 언어 모델의 새로운 기준을 제시하며, 향후 AI 연구 및 개발에 중요한 영향을 미칠 것으로 예상된다.
- 이 모델은 다양한 산업에 걸쳐 AI 활용을 혁신적으로 변화시킬 가능성을 가지고 있다.
2. 🤖 Shopify의 AI 우선 전략 유출
- Shopify는 AI 활용을 최우선으로 하는 전략을 채택하였으며, 모든 팀은 더 많은 인력이나 자원을 요청하기 전에 AI를 통해 작업을 수행할 수 없는 이유를 증명해야 한다.
- CEO는 AI 학습을 포기하는 것은 불가능하며, 기존 프로그래머도 AI 코딩을 습득하지 않으면 부적합하다고 강조했다. 이는 AI 기술에 대한 직원들의 재교육과 기술 습득이 필수적임을 의미한다.
- 이 메모는 기업 이미지에 부정적 영향을 미칠 수 있으며, 특히 트럼프 관세로 인해 어려움을 겪고 있는 상황에서 추가적인 부담이 될 수 있다. 이는 AI 전략이 조직 내 혼란을 초래할 수 있음을 시사한다.
- AI 우선 전략은 팀 단위에서의 효율성을 높이려는 목표가 있으나, 자원 배분과 기술 격차 문제가 발생할 가능성이 있으며, 이를 해결하기 위한 구체적 계획이 필요하다.
3. 🌐 Llama 4의 성능 및 한계
- Llama 4는 Meta에서 출시한 오픈 모델로, Maverick, Scout, Behemoth의 세 가지 버전이 있습니다. 이 모델들은 본질적으로 멀티모달로, 이미지와 비디오 입력을 이해할 수 있습니다.
- Scout 모델은 1,000만 토큰의 문맥 창을 가지고 있으며, 이는 Gemini의 200만 토큰과 비교됩니다. Maverick 모델은 100만 토큰의 문맥 창을 가지고 있으며, Behemoth 모델은 아직 훈련 중입니다.
- Llama 4의 성능은 벤치마크에서 뛰어나지만, 실제 대규모 코드베이스에서는 잘 작동하지 않으며, 메모리 요구사항이 높습니다. 또한, Llama 4의 성능에 대한 대중의 실망감이 있으며, 벤치마크 데이터로 훈련했다는 의혹이 있습니다. 그러나 Meta는 이를 부인했습니다.
- Llama 4는 완전히 오픈 소스는 아니지만 대부분의 사람들이 무료로 사용할 수 있습니다.