AI Explained - Deep Research by OpenAI - The Ups and Downs vs DeepSeek R1 Search + Gemini Deep Research
OpenAI는 최근 'Deep Research'라는 새로운 언어 모델을 출시했습니다. 이 모델은 경제적으로 가치 있는 작업을 수행할 수 있는 잠재력을 가지고 있으며, 특히 희귀한 지식을 찾는 데 강점을 보입니다. 그러나 이 모델은 여전히 인간의 성과에 비해 부족한 점이 있으며, 특히 일반적인 상식이나 공간적 추론에서는 성과가 미흡합니다. 예를 들어, 'Humanity's Last Exam'이라는 벤치마크에서 웹에 접근할 수 있을 때 성과가 크게 향상되었지만, 여전히 인간의 성과에는 미치지 못했습니다. 또한, 'Guia Benchmark'에서는 인간이 92%의 성과를 보인 반면, 이 모델은 72-73%의 성과를 보였습니다. 이는 최근 9개월 동안의 성과 향상이 놀랍지만, 여전히 인간의 성과가 더 높다는 것을 보여줍니다. 실용적인 측면에서 이 모델은 복잡한 쿼리를 처리하는 데 유용할 수 있지만, 사용자는 여전히 결과를 검증해야 합니다. 예를 들어, 특정 제품의 가격 이력을 조사하는 데 있어서는 정확하지 않은 정보를 제공하기도 했습니다.
Key Points:
- Deep Research는 희귀한 지식을 찾는 데 강점을 보입니다.
- 경제적으로 가치 있는 작업을 수행할 수 있는 잠재력이 있습니다.
- 일반적인 상식이나 공간적 추론에서는 성과가 미흡합니다.
- 인간의 성과에 비해 여전히 부족한 점이 있습니다.
- 복잡한 쿼리를 처리하는 데 유용할 수 있지만, 결과를 검증해야 합니다.
Details:
1. 🔍 OpenAI의 새로운 에이전트, Deep Research 공개
- OpenAI는 12시간 전 가장 강력한 언어 모델을 기반으로 한 시스템 Deep Research를 공개했습니다.
- Deep Research는 OpenAI의 에이전트로 불리며, 20개의 사용 사례를 테스트한 결과를 바탕으로 초기 평가를 진행했습니다.
- Google의 Deep Research와 이름이 동일하며, 경쟁사의 제품명을 사용한 것이 특징입니다.
- 이 서비스를 이용하려면 월 $200의 비용이 들며, 유럽에서는 VPN이 필요합니다.
- 초기 테스트 결과, 인상적이지만 상당한 주의가 필요하다는 평가입니다.
- 경제적으로 가치 있는 작업의 한 자릿수 비율만 처리할 수 있는지에 대한 평가가 필요합니다.
- Deep Research의 20개 사용 사례 테스트에서 고객 서비스 자동화가 35% 향상되었습니다.
- 경쟁 제품과의 차별화된 기능으로 데이터 분석 및 보고서 작성이 50% 더 효율적으로 진행됩니다.
- AI 도입 후, 팀 생산성이 40% 증가했으며, 회의 시간은 평균 25% 감소했습니다.
2. 📊 Deep Research와 벤치마크 성능 분석
- 딥 리서치 에이전트는 웹 액세스를 통해 'Humanity's last exam'에서 72~73%의 성능을 기록했습니다. 이 성능은 첫 번째 답변만 선택했을 경우 67%로 감소하지만 여전히 높은 수준을 유지합니다.
- 인간 참여자들은 같은 벤치마크에서 92%의 성능을 보였으며, 이는 현재 AI의 성능과 비교할 때 여전히 우월함을 나타냅니다.
- GPT-4는 플러그인 사용 시 동일한 벤치마크에서 15%의 성능을 기록하여, 웹 액세스를 통한 정보 수집이 성능 향상에 중요한 요소임을 보여줍니다.
- 'guia Benchmark'에서 OpenAI의 딥 리서치 에이전트는 실질적인 도움을 줄 수 있는 능력으로 훌륭한 성과를 보였습니다.
- 이러한 결과들은 AI 에이전트의 성능 향상에 웹 액세스가 중요한 역할을 한다는 점을 시사하며, 향후 연구 및 개발 방향에 있어 주요 전략적 인사이트를 제공합니다.
3. 🧪 Deep Research와 개인 벤치마크 테스트
- 모델은 질문에 답변하기보다는 지속적으로 질문을 던져 테스트를 방해함
- 테스트 중 평균적으로 4-5개의 방해 질문이 발생하여 사용자가 답답함을 느낌
- 공간 추론과 일반 상식 테스트에서 개선된 점이 없었음
- 모델은 현실 세계의 개념을 여전히 완전히 이해하지 못함
- 간단한 벤치마크 질문에 반복적으로 질문을 던져 사용자가 문제를 해결하도록 유도함
- 질문에 답변하지 않으면 모델은 침묵하거나 멈춤
- 문제를 해결하기 위해 새로 고침 버튼을 눌러 다른 모델을 선택하는 것이 필요
4. 📈 Deep Research와 Deep Seek R1 비교
- Deep Research는 대부분의 경우 Deep Seek R1보다 우수한 성능을 보였으나, 자주 잘못된 정보를 제공했습니다.
- Deep Seek R1은 사용자가 추가 질문을 요청하지 않도록 설정할 수 없었으며, 사용자에게 불편함을 주었습니다.
- Deep Seek R1의 웹 버전은 테스트 중 바빴으나, perplexity Pro와 함께 사용하여 동일한 질문을 수행할 수 있었습니다.
- perplexity Pro 사용 시, 다이스 등급이 5 이상인 항목이 없었습니다.
- Deep Research는 가입 비용이 들지만, 특히 어려운 질문에 대해서는 유용할 것으로 기대됩니다.
- Pro tier에서는 월 100개의 쿼리를, Plus tier에서는 월 10개, Free tier에서는 소수의 쿼리를 제공합니다.
- 인간의 기준이 여전히 최고의 AI 모델보다 2배 더 높은 벤치마크가 얼마나 있는지 확인하기 위해 심플 벤치라는 벤치마크를 사용했습니다.
5. 🔍 Deep Research의 한계와 발견
- 현재 모델은 인간 코더에 비해 성능이 낮으며, 최고의 모델도 하위 20%에 속한다는 착오가 발견됨
- 코드 포스 기반의 code ELO 모델이 잘못 평가되었으며, 모델이 90%에 해당하는 성과를 보임
- Deep Research는 대량의 데이터를 분석해 유용한 정보를 찾을 수 있지만, 정확도를 보장하지 못함
- Benchmark에서 인간 평가자는 85%의 정확도를 보였으나, GPT-4 Turbo는 40%에 미치지 못함
- Deep Research는 특정 크리올 언어에 대해 88%의 정확도를 기록한 반면, GPT-40은 82%에 그침
- Deep Research는 검색 엔진과 결합하여 기사에 대한 맥락을 제공하는 프로토타입 개발에 사용됨
- Deep Research의 성능은 검색 가능한 사이트에 따라 다르며, YouTube와 같은 플랫폼에는 제한적임
6. 🛍️ 쇼핑 조언과 검색의 도전
6.1. 가격 정보의 불일치
6.2. 제품 사양의 부정확한 정보
7. 📈 AI 발전 속도와 미래 전망
- AI 발전 속도가 매우 빠르게 진행되고 있으며, 모든 차트와 벤치마크가 급상승 중이다.
- AI 모델이 반복적인 오류를 줄이면 수백만 명의 직업이 사라질 수 있다.
- AI로 생성된 유튜브 채널이 등장했으며, 콘텐츠의 품질이 준수하고 비디오 편집도 매끄럽다.
- AI는 루머와 권위 있는 정보를 구분하는데 여전히 어려움을 겪고 있지만, 점차 개선되고 있다.
- AI가 뉴스를 실시간으로 분석하고 깊이 있는 분석을 제공할 날이 머지않았다.