Digestly

Dec 17, 2024

OpenAI DevDay 2024 | Community Spotlight | Dust

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Dust

이 강연에서는 다양한 데이터 소스(데이터 웨어하우스, 스프레드시트, CSV 파일 등)에서 SQL 쿼리를 통합하여 비기술적 사용자도 쉽게 데이터 분석을 할 수 있도록 돕는 AI 시스템을 소개합니다. Dust라는 AI 운영 체제를 통해 사용자는 회사의 지식을 활용한 맞춤형 어시스턴트를 구축할 수 있습니다. 이 시스템은 다양한 데이터 소스를 통합하여 SQL 쿼리를 자동으로 생성하고, 이를 통해 사용자는 SQL이나 코딩 지식 없이도 데이터를 시각화하고 분석할 수 있습니다. 예를 들어, Snowflake 데이터 웨어하우스에서 데이터를 가져와 그래프를 생성하는 데모를 통해 시스템의 작동 방식을 설명합니다. 또한, Google Drive와 CSV 파일에서 데이터를 가져와 통합하는 방법도 소개합니다. 이 시스템은 데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고, 결과를 CSV 파일로 저장하여 사용자가 쉽게 접근할 수 있도록 합니다. 이를 통해 비기술적 사용자도 복잡한 데이터 분석을 수행할 수 있으며, 대시보드를 구축하는 데 소요되는 시간을 절약할 수 있습니다.

Key Points:

  • Dust AI 시스템은 다양한 데이터 소스에서 SQL 쿼리를 자동 생성하여 비기술적 사용자도 쉽게 데이터 분석 가능.
  • Snowflake와 같은 데이터 웨어하우스에서 데이터를 가져와 시각화 가능.
  • Google Drive와 CSV 파일의 데이터를 통합하여 분석 가능.
  • SQL이나 코딩 지식 없이도 데이터 분석 및 시각화 가능.
  • 데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고 결과를 CSV로 저장.

Details:

1. 📊 데이터 웨어하우스와 통합된 SQL 소개

  • 데이터 웨어하우스, 스프레드시트, CSV 파일을 위한 통합된 텍스트-SQL 솔루션 소개
  • 복잡한 제목이지만, 더 간단하고 실용적인 접근을 시도

2. 🤖 Dust의 AI 운영 시스템과 API 기능

  • Dust는 기업이 자체 지식을 활용하여 맞춤형 AI 어시스턴트를 구축할 수 있는 AI 운영 시스템을 제공합니다.
  • 이 시스템은 다양한 '브릭'을 통해 어시스턴트를 확장할 수 있는 기능을 제공하며, 각 브릭은 특정 기능을 수행하여 시스템의 유연성을 높입니다.
  • 예를 들어, 고객 지원 자동화, 데이터 분석, 자연어 처리 등 다양한 분야에 적용할 수 있는 브릭이 포함되어 있습니다.
  • 이러한 기능을 통해 기업은 운영 효율성을 높이고 고객 경험을 개선할 수 있습니다.

3. 🔍 테이블 쿼리와 텍스트 기반 데이터 검색

  • 강력한 API와 개발자 플랫폼을 통해 어디서나 임베드 가능
  • Zendesk와 같은 플랫폼에 더스트 어시스턴트를 추가하여 에이전트가 회사 데이터 및 다른 Zendesk 티켓과 직접 상호작용 가능
  • 내부 지식 추가, 시맨틱 검색 코드 해석, 웹 검색, 전사 등 다양한 기능 추가 가능
  • 오늘 논의할 주제는 테이블 쿼리

4. 📈 스노우플레이크 데이터 시각화 데모

  • 스노우플레이크 데이터 웨어하우스에 연결된 어시스턴트를 사용하여 일주일 동안 더스트 플랫폼에서 전송된 평균 메시지 수를 시각화함.
  • 상위 10개 작업 공간을 다른 색상으로 구분하고 나머지는 또 다른 색상으로 구분하여 시각화함.
  • 테이블 쿼리 후 스노우플레이크에서 데이터를 수신하고, 리액트 컴포넌트를 생성하여 시각화함.

5. 📊 SQL 쿼리와 데이터 분석의 자동화

  • SQL 쿼리를 자동으로 생성하여 데이터 분석을 수행할 수 있으며, 이는 복잡한 쿼리를 수동으로 작성하는 데 필요한 시간을 절약할 수 있음.
  • 자동화된 SQL 쿼리는 데이터 분석의 효율성을 높이며, SQL 지식이 부족한 사용자도 쉽게 사용할 수 있도록 지원함.
  • 자동화된 도구를 사용하여 데이터의 지수 곡선을 시각화할 수 있으며, 이는 데이터 성장 추세를 파악하는 데 유용함.
  • 예를 들어, 특정 자동화 도구는 사용자가 간단한 입력만으로 복잡한 SQL 쿼리를 생성할 수 있게 하여, 데이터 분석의 접근성을 크게 향상시킴.
  • 데이터 시각화 도구는 자동으로 생성된 SQL 쿼리 결과를 기반으로 다양한 차트와 그래프를 제공하여, 데이터의 패턴과 추세를 쉽게 이해할 수 있도록 함.

6. 📊 다양한 데이터 소스 통합 및 분석

  • 세 가지 그래프를 하나의 통합된 그래프로 결합하여 데이터 시각화 효율성을 높임
  • CSV 파일로 업로드된 데이터를 재사용하여 컴포넌트 생성 시간 절약
  • 실제 버튼을 사용하여 다양한 그래프 간 전환 가능

7. 🛠️ 어시스턴트와 도구 설정

  • 모델에 직접 파일을 제공하여 데이터 시각화를 구현합니다.
  • SQL이나 코딩 지식 없이도 데이터베이스에서 데이터를 가져와 그래프를 생성할 수 있습니다.
  • 다양한 출처의 데이터를 통합하여 분석할 수 있는 기능을 제공합니다.
  • Google Drive의 HR 파일과 CSV 파일을 사용하여 직원의 역할과 워크스페이스 사용량을 분석할 수 있습니다.
  • 어떤 팀이 어떤 용도로 도구를 사용하는지 파악하여 활용도를 높일 수 있습니다.

8. 🔗 데이터베이스와 파일의 통합 쿼리

  • 도구는 사용자 활동 및 역할에 대한 정보를 제공하는 쿼리 테이블로 구성되어 있음.
  • 웹 검색을 활성화하면 외부 데이터를 그래프로 시각화할 수 있음.
  • 직원 역할 스프레드시트와 CSV 사용 데이터를 통합하여 SQL 쿼리를 실행함.
  • SQL 쿼리를 통해 상위 5명의 사용자 역할을 분석할 수 있음.
  • 두 개의 파일은 서로 다른 저장소에서 가져옴.
  • 데이터 소스는 내부 데이터베이스와 외부 CSV 파일로 구성됨.
  • SQL 쿼리 실행 과정은 데이터 통합, 쿼리 작성, 결과 분석의 단계로 이루어짐.

9. 🗂️ Dust의 아키텍처와 데이터 처리 과정

  • Dust의 아키텍처는 'front', 'connectors', 'core'로 구성되어 있으며, 각 구성 요소는 특정 역할을 수행합니다.
  • 'front'는 고객이 API, 웹 UI 등을 통해 Dust에 접근하는 인터페이스를 제공합니다.
  • 'connectors'는 Google Drive, Notion, Slack, GitHub 등의 외부 데이터를 Dust에 동기화하며, posr 데이터베이스에 저장합니다.
  • 'core'는 Rust 애플리케이션으로, LLMs 및 벡터 검색 데이터베이스인 quadrant 데이터베이스와 직접 통신하여 데이터를 처리합니다.
  • 두 개의 파일을 직원 이메일을 기준으로 left join하여 이름, 사용자 메시지 수, 역할을 포함한 데이터를 병합할 수 있습니다.

10. 🧠 LLM과 데이터 쿼리의 상호작용

  • 사용자는 다양한 형식의 파일을 업로드할 수 있으며, 시스템은 이를 CSV 형식으로 변환하여 처리합니다.
  • Google Drive와 같은 커넥터를 통해 스프레드시트가 추가되면 자동으로 동기화되어 최신 데이터를 유지합니다.
  • 변환된 CSV 파일은 LLM에 적합한 열 이름을 자동으로 식별하여 데이터베이스에 저장합니다.
  • 저장된 데이터는 '증강 스키마'로 PG 데이터베이스에 저장되며, 이는 쿼리 시 사용됩니다.
  • 사용자가 질문을 하면, 시스템은 증강 스키마와 함께 쿼리를 LLM에 전송하여 답변을 생성합니다.
  • DBML 언어로 쿼리를 작성하여 모델에 전송하며, 이는 다양한 모델과 호환됩니다.
  • 이 과정은 모델에 종속되지 않으며, 함수 호출을 지원하는 모든 모델과 호환됩니다.

11. 🗃️ SQL 쿼리 실행 및 결과 처리

  • 전체 대화 기록을 LM에 전송하여 쿼리 실행
  • 문서화된 열과 특정 값을 포함한 스키마 전송
  • 테이블의 첫 16개 행을 LM에 전송하여 데이터 구조 인식
  • 구조화된 출력 호출을 통해 체인 오브 사고 및 SQL 파일 결과 제공
  • SQL 쿼리 실행 여부에 따라 다른 경로 선택
  • Snowflake, Redshift, BigQuery와 같은 데이터 웨어하우스에서 쿼리 실행
  • 파일 기반 쿼리의 경우, Rust에서 SQL Lite 데이터베이스를 스핀업하여 빠른 처리

12. 📊 데이터 시각화와 컴포넌트 생성

  • 쿼리 결과를 CSV 파일로 저장하고 S3 또는 GCS에 업로드하여 데이터 관리 효율성을 높임.
  • LLM을 사용하여 모든 데이터 포인트를 직접 입력하는 대신 파일을 사용하여 컴포넌트를 생성함으로써 비용과 시간을 절감함.
  • 데이터 구조를 이해하기 위해 LLM에 몇 줄의 데이터를 보여주고, 이를 통해 효과적인 차트 코드를 생성함.
  • Recharts와 D3.js를 사용하여 시각화 컴포넌트를 구현하고, CSV 파일을 다운로드하여 데이터 시각화를 완성함.

13. 🌐 자연어 BI와 비기술적 팀의 활용

  • 비기술적 팀이 자연어 BI를 활용하여 이전에 불가능했던 BI 작업을 수행할 수 있게 되었다.
  • 대시보드를 구축하는 데 소요되는 시간에 비해 자연어로 질문을 통해 데이터를 조회하는 시간이 크게 단축되었다.
  • 자연어 BI를 통해 비기술적 팀은 데이터 분석에 대한 접근성을 높이고, 실시간으로 인사이트를 얻을 수 있게 되었다.
  • 예를 들어, 마케팅 팀은 자연어 BI를 사용하여 캠페인 성과를 즉각적으로 분석하고 전략을 조정할 수 있다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.