Digestly

Mar 20, 2025

Audio Models in the API

OpenAI - Audio Models in the API

OpenAI는 개발자들이 음성 에이전트를 쉽게 구축할 수 있도록 새로운 모델과 도구를 발표했습니다. 새로운 음성 인식 모델인 GPT-40 Transcribe와 GPT-4 Mini Transcribe는 이전 모델보다 더 높은 정확도를 자랑하며, 다양한 언어에서 뛰어난 성능을 보입니다. 또한, 새로운 텍스트-음성 변환 모델은 개발자가 음성의 톤과 스타일을 제어할 수 있게 해줍니다. 이러한 모델들은 API를 통해 저렴한 비용으로 제공되며, 실시간 스트리밍 기능도 포함되어 있어 빠른 응답을 제공합니다. 에이전트 SDK 업데이트를 통해 기존 텍스트 기반 에이전트를 음성 에이전트로 쉽게 전환할 수 있습니다. 이 모든 기능은 개발자들이 더욱 풍부하고 신뢰할 수 있는 음성 경험을 구축하는 데 도움을 줍니다.

Key Points:

  • 새로운 음성 인식 모델 GPT-40 Transcribe와 GPT-4 Mini Transcribe는 높은 정확도를 제공.
  • 텍스트-음성 변환 모델은 음성의 톤과 스타일을 제어 가능.
  • API를 통해 저렴한 비용으로 제공되며, 실시간 스트리밍 기능 포함.
  • 에이전트 SDK 업데이트로 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능.
  • 개발자들이 풍부하고 신뢰할 수 있는 음성 경험을 구축할 수 있도록 지원.

Details:

1. 🔊 새로운 Agent SDK와 음성 에이전트의 도입

  • 지난 몇 달 동안 에이전트 구축에 집중하여 Deep Operator Research를 진행했습니다.
  • 새로운 Agent SDK는 에이전트 구축 과정을 간소화하고 개발 시간을 단축시킵니다.
  • 음성 에이전트의 도입으로 고객 상호작용이 35% 향상되었습니다.
  • SDK를 통해 에이전트의 응답 속도가 평균 50% 증가했습니다.

2. 🗣️ 음성 에이전트의 가능성과 구현 사례

  • 이번 주에 우리는 사용자 정의 에이전트를 구축할 수 있는 agent asdk를 출시했다.
  • 텍스트에서 음성 에이전트로의 전환이 시작되었다.
  • 많은 사람들이 읽기와 쓰기보다 듣기와 말하기를 선호한다는 점에서 음성은 자연스러운 인터페이스이다.
  • 개발자와 기업이 신뢰성과 정확성을 갖춘 유연한 음성 에이전트를 구축할 수 있도록 여러 새로운 모델과 도구를 발표할 예정이다.
  • 새로운 모델은 음성 인식의 정확도를 30% 향상시켰고, 도구는 개발 시간을 절반으로 단축시켰다.
  • 기업은 맞춤형 솔루션을 통해 고객 참여를 40% 증가시킬 수 있다.

3. 📈 새로운 모델과 도구: 음성 경험의 혁신

3.1. 최첨단 음성 인식 모델 및 음성 합성 모델

3.2. 에이전트 SDK 및 도구 업데이트

4. 🛠️ 음성 에이전트 구축: 두 가지 접근 방식

  • 음성 에이전트는 사용자나 개발자를 대신하여 독립적으로 행동할 수 있는 AI 시스템으로, 웹사이트의 텍스트 에이전트와 유사하게 음성으로도 구현 가능하다.
  • 음성 에이전트는 언어 학습에서 발음 교정, 수업 계획 작성, 모의 대화 등을 통해 유용하게 활용될 수 있다.
  • 개발자들은 주로 두 가지 접근 방식을 사용한다. 첫째는 미래지향적인 음성-음성 모델을 사용하는 방식으로, 오디오를 직접 이해하고 응답할 수 있는 모델을 통해 빠른 속도로 작동한다.
  • 둘째는 체인 방식으로, 음성을 텍스트로 변환한 후 텍스트 기반 LLM(예: GPT-40)을 통해 적절한 응답을 생성하고, 이를 다시 텍스트-음성 변환 모델을 통해 사용자에게 전달한다.
  • 체인 방식은 모듈화되어 있어 다양한 컴포넌트를 혼합하여 사용 가능하며, 높은 신뢰성을 제공하는 가장 쉬운 방법으로 선호된다.
  • 텍스트 기반 모델이 여전히 지능의 골드 스탠다드로, 음성-음성 모델은 빠르게 발전 중이다.
  • 체인 방식은 시작하기 쉬우며, 기존의 텍스트 기반 에이전트를 활용해 음성-텍스트 모델과 텍스트-음성 변환 모델을 조합하여 음성 에이전트를 구축할 수 있다.

5. 🔍 새로운 Speech-to-Text 모델의 기술적 진보

5.1. 기술적 진보와 모델 성능

5.2. 가격 및 경제성

6. 🔊 Text-to-Speech 모델의 기능과 활용

  • 'GPT 40 Mini TTS'는 다양한 음성을 선택할 수 있으며, 사용자가 원하는 톤과 에너지를 지정할 수 있는 지시 필드를 추가하여 모델이 텍스트를 말하는 방식에 영향을 줄 수 있음.
  • OpenFM 웹사이트를 통해 모델을 쉽게 테스트 가능하며, Python, JavaScript 코드 스니펫 또는 curl 명령어로 통합할 수 있음.
  • 사용자는 구체적으로 원하는 음성의 속도와 감정을 지정하여 다양한 음성 콘텐츠를 제작할 수 있음.
  • API를 통해 모델을 사용할 수 있으며, 사용 요금은 분당 1센트로 경제적임.
  • 모델의 주요 응용 분야로는 고객 서비스 자동화, 접근성 향상, 개인화된 콘텐츠 제작 등이 있음.

7. 🔧 Voice Agent로의 변환과 디버깅 방법

  • 에이전트 SDK 업데이트를 통해 기존 텍스트 에이전트를 약 9줄의 코드로 Voice Agent로 변환할 수 있습니다.
  • Voice Pipeline을 사용하여 오디오를 텍스트로 변환하고 다시 텍스트를 오디오로 변환하는 프로세스를 통합합니다.
  • 새로운 Voice Pipeline 개념을 도입하여 기존 워크플로우에 음성 인식 및 음성 합성 기능을 추가할 수 있습니다.
  • UI 변경으로 인해 오디오 녹음 및 재생 기능이 추가되었으며, 웹소켓 백엔드를 통해 오디오 스트리밍이 가능합니다.
  • 고객 지원 에이전트는 과거 주문 접근 및 환불 제출 기능을 포함하여 강화되었습니다.

8. 🏆 콘테스트 안내와 마무리

  • 새로운 음성 에이전트 디버깅을 위한 트레이싱 UI가 업데이트되어 오디오 지원이 추가되었습니다.
  • 음성 에이전트를 구축할 때 디버깅에 도움이 되는 다양한 이벤트 추적 및 메타데이터 조회 기능이 제공됩니다.
  • 새로운 음성 인식 모델 GPT 40과 텍스트 변환 모델이 발표되었으며, 이는 더 풍부하고 신뢰할 수 있는 음성 경험을 제공합니다.
  • Open AI. FM에서 새로운 텍스트 변환 기술을 활용한 창의적인 사용 사례를 제안하는 콘테스트가 열립니다.
  • 콘테스트는 금요일 밤까지 진행되며, 세 명의 우승자에게는 특별 제작된 라디오가 상품으로 제공됩니다.
  • 참가자들은 혁신적인 텍스트 변환 기술을 활용하여 창의적인 프로젝트를 제출하고, 심사는 독창성, 실용 가능성, 기술적 구현 능력을 기준으로 이루어집니다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.