Digestly

Dec 17, 2024

OpenAI DevDay 2024 | Community Spotlight | Mindtrip

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Mindtrip

Mindtrip는 AI 기반의 여행 플랫폼으로, 여행의 영감부터 계획, 예약까지 모든 과정을 지원하는 것을 목표로 한다. 기존의 텍스트 기반 여행 계획 도구들은 실행 가능성이 부족하다는 문제를 해결하기 위해, Mindtrip는 대화에서의 엔티티를 지도에 연결하고, 사진과 리뷰를 통합하여 여행 계획을 보다 실질적으로 만든다. 또한, 블로그 포스트나 이미지, 비디오 등 다양한 형태의 콘텐츠를 활용하여 여행 계획의 출발점으로 삼을 수 있도록 한다. 이를 통해 사용자는 영감을 얻고, 이를 바탕으로 구체적인 여행 계획을 세울 수 있다. Mindtrip는 이미지와 텍스트를 활용하여 여행 계획을 실현 가능하게 만들며, 새로운 Realtime API를 통해 실시간 오디오와 같은 기능도 탐색 중이다.

Key Points:

  • Mindtrip는 AI를 활용하여 여행의 영감부터 계획, 예약까지 지원하는 플랫폼이다.
  • 텍스트와 이미지를 활용하여 여행 계획을 실현 가능하게 만든다.
  • 블로그 포스트, 이미지, 비디오 등 다양한 콘텐츠를 여행 계획의 출발점으로 활용한다.
  • 새로운 Realtime API를 통해 실시간 오디오 기능을 탐색 중이다.
  • 기존 콘텐츠를 활용하여 사용자에게 영감을 주고, 구체적인 계획을 세울 수 있도록 돕는다.

Details:

1. 🧠 Mindtrip 소개 및 목표

  • Mindtrip의 공동 창립자인 Garrick Toubassi가 멀티모달 입력에 대해 설명합니다.
  • Mindtrip에서는 새로운 Realtime API에 대한 프로토타입 작업을 진행 중입니다.
  • 주로 기존의 Chat Complete API를 활용한 다양한 기능에 대해 논의합니다.
  • Realtime API는 실시간 데이터 처리와 사용자 상호작용을 개선하는 데 중점을 둡니다.
  • Chat Complete API는 대화의 자연스러움과 효율성을 높이는 데 기여합니다.

2. ✈️ 여행 계획의 도전과 해결책

  • Mindtrip는 AI 기반 여행 플랫폼으로, 여행의 영감과 발견, 계획, 다른 여행자와의 협업, 예약, 여행 중 지원 등 전체 여행 라이프 사이클을 지원하는 것을 목표로 하고 있다.
  • 여행 계획 시 ChatGPT와 같은 LLM 기반 애플리케이션의 비활성 텍스트를 어떻게 실행 가능하고 생동감 있게 만들 것인가가 주요 도전 과제이다.
  • Mindtrip는 이러한 도전을 해결하기 위해 사용자 경험을 개인화하고, 실시간 피드백을 제공하며, 여행자 커뮤니티와의 상호작용을 강화하는 전략을 채택하고 있다.
  • 예를 들어, AI를 활용하여 여행자의 선호도에 맞춘 맞춤형 여행 일정을 제공하고, 여행 중 발생할 수 있는 문제를 실시간으로 해결할 수 있는 지원 시스템을 구축하였다.

3. 🌍 Mindtrip의 기능

  • Mindtrip은 대화에서 엔티티를 연결하고 이를 지도에 표시할 수 있는 기능을 제공합니다.
  • 사진과 리뷰를 포함하여 다양한 콘텐츠를 제공합니다.
  • 여행 계획을 시작할 때 영감을 얻는 방법에 대해 연구하였습니다.
  • 인터넷에는 여행 계획을 시작하는 데 도움이 되는 훌륭한 콘텐츠가 많이 있습니다.
  • 그러나 많은 콘텐츠가 비활성화되어 있고 실행 가능하지 않습니다.
  • 블로그 게시물, 여행 기사, 긴 형식의 비디오, 짧은 형식의 소셜 비디오, 영감을 주는 이미지 등 다양한 콘텐츠를 실행 가능하고 생동감 있게 만들고자 합니다.

4. 🖥️ Mindtrip 데모

  • Mindtrip를 사용하여 블로그 게시물의 내용을 기반으로 여행 일정을 계획할 수 있습니다.
  • Mindtrip는 블로그 게시물의 내용을 구조화된 형태로 변환하여 지도에 표시합니다.
  • 사용자는 생성된 여행 일정을 수정할 수 있으며, 이는 즉시 사용 가능합니다.
  • 현재 데모에서는 LLM 텍스트 기반의 기능만 사용되었으며, 멀티모달 기능은 포함되지 않았습니다.
  • 이미지를 복사하여 붙여넣거나 업로드하여 새로운 여행 계획을 시작할 수 있습니다.

5. 🖼️ 이미지와 여행 계획

5.1. 이미지 처리 기능

5.2. 여행 계획 지원

6. 🎥 비디오와 여행 계획

  • Chat Complete API는 이미지와 텍스트 두 가지 데이터 타입을 지원합니다. 이미지는 시각적 가치가 있는 경우 GPT-4o로 직접 전송하는 것이 좋습니다.
  • 텍스트 콘텐츠가 포함된 이미지는 OCR을 통해 텍스트를 추출한 후 전송해야 합니다.
  • 비디오는 모델에서 직접 지원되지 않으므로 오디오 트랜스크립트를 추출하여 사용해야 합니다.
  • FFmpeg를 사용하여 비디오에서 오디오를 분리하고 OpenAI의 Whisper 모델과 같은 음성 인식 API를 사용하여 텍스트로 변환할 수 있습니다.
  • 비디오가 순수 시각적 콘텐츠인 경우, 프레임을 샘플링하여 모델에 전송해야 합니다.
  • 이미지를 모델에 전송할 때 URL 또는 데이터 URL을 사용할 수 있으며, S3에 호스팅하여 URL을 전송하는 방법을 사용합니다.
  • 음성 인식이나 OCR과 같은 후처리를 할 때 캐시를 사용하여 비용 절감과 사용자 대기 시간 감소를 달성할 수 있습니다.

7. 🚀 Realtime API와 미래 전망

  • Realtime API는 실시간 지원을 위해 설계된 혁신적인 기술로, 기존 API와는 다른 형태를 가지고 있습니다.
  • 이 API는 실시간 오디오와 관련된 제품 개발에 활용될 수 있으며, 이미지와 멀티모달 기능을 통해 영감을 행동과 예약으로 연결할 수 있는 가능성을 제공합니다.
  • 애플리케이션 도메인에 따라 기존 콘텐츠를 활용하여 대화를 시작할 수 있는 방법을 고려해야 합니다.
  • 예를 들어, 실시간 데이터 스트리밍을 통해 사용자 경험을 향상시키고, 실시간 피드백을 제공하여 고객 만족도를 높일 수 있습니다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.