Digestly

Mar 4, 2025

How Claude 3.7 Plays Pokémon

Latent Space: The AI Engineer Podcast - How Claude 3.7 Plays Pokémon

How Claude 3.7 Plays Pokémon
이 프로젝트는 클라우드 기반의 AI 모델이 포켓몬 게임을 플레이하면서 발생하는 다양한 문제를 해결하고, 이를 통해 모델의 성능을 평가하는 데 중점을 둡니다. Anthropic의 David Hershey는 이 프로젝트를 통해 AI가 게임 내에서 어떻게 행동하는지를 관찰하고, 이를 통해 모델의 개선점을 찾고자 합니다. 특히, AI가 게임 내에서 방향 감각을 잃거나 시각적 정보를 잘못 해석하는 문제를 해결하기 위해 다양한 도구와 프롬프트를 사용하고 있습니다. 이 프로젝트는 AI가 게임을 통해 학습하고, 이를 통해 더 나은 에이전트로 발전할 수 있는 가능성을 보여줍니다. 또한, 이 프로젝트는 AI가 게임 내에서의 성과를 통해 모델의 성능을 측정하는 데 유용한 방법을 제공하며, 이는 향후 실제 세계의 문제 해결에도 적용될 수 있을 것으로 기대됩니다.

Key Points:

  • AI 모델이 포켓몬 게임을 통해 학습하고 성능을 평가함.
  • 게임 내에서 AI의 방향 감각 및 시각적 정보 해석 문제 해결 시도.
  • 프롬프트 및 도구를 사용하여 AI의 게임 플레이 개선.
  • 모델의 성능을 게임 내 성과로 측정하여 평가.
  • 실제 세계 문제 해결에 적용 가능한 가능성 탐색.

Details:

1. 🌟 라이트닝 팟 소개와 새로운 공동 진행자

  • 라이트닝 팟은 기술 및 혁신에 초점을 맞춘 팟캐스트로, 청취자에게 최신 정보를 제공하고 있습니다.
  • 이번 에피소드에서는 Alesso가 Decibel의 파트너이자 CTO로 참여하여 전문적인 의견을 나눕니다.
  • Swix가 이번 에피소드에 참여하지 않는 대신, Vibu가 새로운 공동 진행자로 소개됩니다.
  • Vibu는 Latentspace 커뮤니티에서 활발히 활동하며, Discord에서도 잘 알려진 인물입니다.

2. 🎙️ 데이비드 허쉬와의 인터뷰 시작

  • 데이비드 허쉬는 Anthropic의 클라우드 플레이스 포켓몬 프로젝트의 책임자입니다.
  • 매직 더 개더링 게임을 통해 현재의 인터뷰 기회가 생겼습니다.
  • 허쉬는 과거에 Anthropic과의 인터뷰 경험이 있으며, SWE 에이전트 에릭 슐란츠와의 에피소드가 있습니다.
  • 포켓몬에 대한 대화를 기대하고 있습니다.

3. 💡 클라우드 플레이 포켓몬의 아이디어와 기원

  • Sonic 3.7이 몇 주 전에 출시되었다.
  • 클라우드 플레이 포켓몬 프로젝트가 바이럴되었다.
  • 기존의 Twitch Plays Pokemon과 유사하지만 클라우드 기능을 활용하여 진행됨.
  • Mount Moon에서 52시간 동안 정체되어 있었으며, 약 15,000마리의 Zubat을 만남.

4. 🚀 클라우드 모델의 진화와 도전

  • 작년 6월부터 클라우드 모델 실험 시작. Anthropic에서 고객과 협력하여 에이전트 실험 위한 프레임워크 개발 시도.
  • 클라우드 모델의 장기 실행 작업을 위한 실험 진행. 포켓몬 관련 프로젝트로 동기 부여 및 목표 설정.
  • 새로운 모델 출시를 통한 클라우드 모델의 발전 관찰.

5. 📈 모델의 학습 과정과 발전

  • 모델이 특정 작업에서 이전보다 더 나은 성능을 발휘하는 것을 관찰함. 예를 들어, 집 밖으로 나가는 등의 과제를 더욱 신뢰성 있게 수행할 수 있게 되었다는 점이 주목됨.
  • 모델이 스스로 이름을 붙이는 수준에 도달했으며, 이는 자율성과 지능의 발전을 의미함.
  • 모델의 발전 상황을 슬랙 채널을 통해 지속적으로 업데이트하고 있으며, 이는 점차 인기를 얻고 있음. 이러한 업데이트는 팀의 참여와 협력을 촉진하며, 모델의 성능 개선을 체계적으로 관리할 수 있게 함.

6. 🛠️ 도구와 프롬프트 전략 탐구

  • 현재 모델은 방향 감각이 부족하고 스크린을 잘 인식하지 못함.
  • 게임 플레이는 가능하며, 포켓몬을 잡는 등의 기본적인 작업은 수행함.
  • 모델의 첫 포켓몬을 잡는 성과를 달성함.
  • 모델의 성능을 측정할 수 있는 유용한 방법으로 인식됨.
  • 내부적으로 업데이트를 게시하며, 사람들이 흥미를 보였음.

7. 🧠 모델의 지식과 학습 능력에 대한 통찰

  • 모델은 지난 8개월 동안 포켓몬 게임을 플레이하면서 수백만 개의 단어를 읽고 분석하여 지식을 축적했습니다. 이를 통해 초기 설정 목표와 일치하는 방향으로 상당한 개선을 이루었습니다.
  • 포켓몬 게임의 이등변 투영 방식은 객체의 숨겨진 정보가 적어 모델이 게임 내 정보를 이해하고 처리하는 데 유리합니다.
  • 개발자의 어린 시절 향수는 포켓몬 게임 선택에 큰 영향을 미쳤으며, 이는 모델의 데이터 학습에 감정적 요소를 추가했습니다.

8. 🔍 게임 내 내비게이션 문제 해결

  • 트위치 플레이 포켓몬처럼 과거의 게임 내비게이션 문제에 대한 관심은 여전함.
  • 포켓몬 레드는 20년 이상 된 게임으로, 많은 사람들이 이 문제를 해결하려고 노력함.
  • 게임에서 5초 동안 아무것도 하지 않을 때 큰 문제가 발생하지 않는 구조 덕분에 포켓몬은 모델 추론을 적용하기에 적합함.
  • 포켓몬에 대한 애정이 게임 내비게이션 문제 해결에 영감을 줌.
  • 아키텍처 다이어그램을 통해 게임 내비게이션 문제를 시각적으로 설명하고, 유튜브에서 공유하여 쉽게 이해할 수 있도록 함.

9. 🧩 메모리 및 프롬프트 최적화

  • 프롬프트 최적화 및 메모리 관리의 핵심 전략은 간단한 에이전트 하네스를 사용하여 쿼드의 장점을 이해하고 벤치마크하는 것입니다.
  • 에이전트 사용의 핵심 루프는 대화를 지속적으로 전개하여 정보를 유지하는 다양한 메커니즘을 활용하는 것입니다.
  • 프롬프트 구조는 도구 정의, 짧은 시스템 프롬프트로 구성되며, 모델이 도구를 사용하는 방법을 설명합니다.
  • 프롬프트 최적화의 실질적인 예로는, 시스템 프롬프트를 간결하게 유지하고, 모델의 의도를 명확히 전달하는 것이 있습니다.
  • 최적화된 메모리 관리를 통해 모델 성능을 향상시키고 리소스를 절약할 수 있습니다.

10. 💰 게임 실행 비용과 모델의 잠재력

10.1. 모델의 작동 방식

10.2. 게임 실행 비용과 도구 활용

11. 📊 에이전트 평가 및 향후 개선 방향

  • Quad 코드를 사용하여 프로그램을 역설계 하여 구현 가능
  • RAM에 저장된 데이터를 기반으로 작업 가능
  • Quad 코드를 통해 번거로운 메모리 주소 매핑 작업을 자동화
  • 게임에서 직접 읽은 상태 정보를 통해 작업 수행

12. 🤖 모델의 인지와 미래 가능성

  • 모델은 게임 보이 화면을 인식하는 데 어려움이 있어 시각 보조가 필요하며, 이는 모델의 시각적 인지를 강화할 방법을 모색해야 함을 시사한다.
  • 30번 이상 움직이지 못할 경우 모델의 지식 기반을 사용하도록 하는 리마인더가 설정되어 있으며, 이는 모델의 제한된 인지 능력을 보완하기 위한 전략으로 볼 수 있다.
  • 모델의 포켓몬 지식이 유용할지 해로운지 명확하지 않고, 가끔은 지식을 잘못 해석하는 문제가 있어 지속적인 개선이 필요하다.
  • 트위치 스트리밍에서 모델이 팔레트 타운의 NPC를 교수로 오인하는 사례는 모델의 지식 인덱싱에 문제가 있음을 보여주며, 이는 데이터 해석의 정확성을 높일 필요가 있음을 의미한다.
  • 인터넷의 다양한 게임 가이드로 인해 모델은 충분한 정보를 가지고 있지만, 정보 해석의 정확성을 높이기 위한 추가적인 학습이 필요하다.
  • 모델이 전광석화 기술을 지오듀드에게 사용하려 했으나 실패한 예시에서 보듯이, 포켓몬의 타입 상성을 항상 기억하지 못하는 문제를 해결하기 위한 인지 개선이 요구된다.

13. 🌟 프로젝트 하이라이트와 에이전트의 미래

  • 에이전트는 현재 게임 화면에서 자신의 위치를 인식하는 데 어려움을 겪고 있으며, 이는 공간 인식의 부족에서 기인합니다. 이로 인해 에이전트는 종종 자신을 다른 캐릭터로 오인하는 문제가 발생하고 있습니다.
  • 이 문제를 해결하기 위해, 에이전트의 공간 인식 기능을 강화하는 연구가 필요합니다. 예를 들어, AI 기반의 시각적 단서 분석이나 고급 좌표 파악 기술이 적용될 수 있습니다.
  • 에이전트의 이러한 한계는 게임 내 상호작용과 사용자 경험에 부정적인 영향을 미치며, 이를 개선하는 것은 에이전트의 성능 향상에 있어 핵심적인 과제가 될 것입니다.
  • 향후 발전 방향으로는 에이전트의 공간 인식 능력을 개선하기 위한 머신러닝 기술의 도입과, 실시간 위치 추적 시스템의 개발이 고려될 수 있습니다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.