OpenAI

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Dust

이 강연에서는 다양한 데이터 소스(데이터 웨어하우스, 스프레드시트, CSV 파일 등)에서 SQL 쿼리를 통합하여 비기술적 사용자도 쉽게 데이터 분석을 할 수 있도록 돕는 AI 시스템을 소개합니다. Dust라는 AI 운영 체제를 통해 사용자는 회사의 지식을 활용한 맞춤형 어시스턴트를 구축할 수 있습니다. 이 시스템은 다양한 데이터 소스를 통합하여 SQL 쿼리를 자동으로 생성하고, 이를 통해 사용자는 SQL이나 코딩 지식 없이도 데이터를 시각화하고 분석할 수 있습니다. 예를 들어, Snowflake 데이터 웨어하우스에서 데이터를 가져와 그래프를 생성하는 데모를 통해 시스템의 작동 방식을 설명합니다. 또한, Google Drive와 CSV 파일에서 데이터를 가져와 통합하는 방법도 소개합니다. 이 시스템은 데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고, 결과를 CSV 파일로 저장하여 사용자가 쉽게 접근할 수 있도록 합니다. 이를 통해 비기술적 사용자도 복잡한 데이터 분석을 수행할 수 있으며, 대시보드를 구축하는 데 소요되는 시간을 절약할 수 있습니다.

Key Points:

Dust AI 시스템은 다양한 데이터 소스에서 SQL 쿼리를 자동 생성하여 비기술적 사용자도 쉽게 데이터 분석 가능.
Snowflake와 같은 데이터 웨어하우스에서 데이터를 가져와 시각화 가능.
Google Drive와 CSV 파일의 데이터를 통합하여 분석 가능.
SQL이나 코딩 지식 없이도 데이터 분석 및 시각화 가능.
데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고 결과를 CSV로 저장.

Details:

1. 📊 데이터 웨어하우스와 통합된 SQL 소개

데이터 웨어하우스, 스프레드시트, CSV 파일을 위한 통합된 텍스트-SQL 솔루션 소개
복잡한 제목이지만, 더 간단하고 실용적인 접근을 시도

2. 🤖 Dust의 AI 운영 시스템과 API 기능

Dust는 기업이 자체 지식을 활용하여 맞춤형 AI 어시스턴트를 구축할 수 있는 AI 운영 시스템을 제공합니다.
이 시스템은 다양한 '브릭'을 통해 어시스턴트를 확장할 수 있는 기능을 제공하며, 각 브릭은 특정 기능을 수행하여 시스템의 유연성을 높입니다.
예를 들어, 고객 지원 자동화, 데이터 분석, 자연어 처리 등 다양한 분야에 적용할 수 있는 브릭이 포함되어 있습니다.
이러한 기능을 통해 기업은 운영 효율성을 높이고 고객 경험을 개선할 수 있습니다.

3. 🔍 테이블 쿼리와 텍스트 기반 데이터 검색

강력한 API와 개발자 플랫폼을 통해 어디서나 임베드 가능
Zendesk와 같은 플랫폼에 더스트 어시스턴트를 추가하여 에이전트가 회사 데이터 및 다른 Zendesk 티켓과 직접 상호작용 가능
내부 지식 추가, 시맨틱 검색 코드 해석, 웹 검색, 전사 등 다양한 기능 추가 가능
오늘 논의할 주제는 테이블 쿼리

4. 📈 스노우플레이크 데이터 시각화 데모

스노우플레이크 데이터 웨어하우스에 연결된 어시스턴트를 사용하여 일주일 동안 더스트 플랫폼에서 전송된 평균 메시지 수를 시각화함.
상위 10개 작업 공간을 다른 색상으로 구분하고 나머지는 또 다른 색상으로 구분하여 시각화함.
테이블 쿼리 후 스노우플레이크에서 데이터를 수신하고, 리액트 컴포넌트를 생성하여 시각화함.

5. 📊 SQL 쿼리와 데이터 분석의 자동화

SQL 쿼리를 자동으로 생성하여 데이터 분석을 수행할 수 있으며, 이는 복잡한 쿼리를 수동으로 작성하는 데 필요한 시간을 절약할 수 있음.
자동화된 SQL 쿼리는 데이터 분석의 효율성을 높이며, SQL 지식이 부족한 사용자도 쉽게 사용할 수 있도록 지원함.
자동화된 도구를 사용하여 데이터의 지수 곡선을 시각화할 수 있으며, 이는 데이터 성장 추세를 파악하는 데 유용함.
예를 들어, 특정 자동화 도구는 사용자가 간단한 입력만으로 복잡한 SQL 쿼리를 생성할 수 있게 하여, 데이터 분석의 접근성을 크게 향상시킴.
데이터 시각화 도구는 자동으로 생성된 SQL 쿼리 결과를 기반으로 다양한 차트와 그래프를 제공하여, 데이터의 패턴과 추세를 쉽게 이해할 수 있도록 함.

6. 📊 다양한 데이터 소스 통합 및 분석

세 가지 그래프를 하나의 통합된 그래프로 결합하여 데이터 시각화 효율성을 높임
CSV 파일로 업로드된 데이터를 재사용하여 컴포넌트 생성 시간 절약
실제 버튼을 사용하여 다양한 그래프 간 전환 가능

7. 🛠️ 어시스턴트와 도구 설정

모델에 직접 파일을 제공하여 데이터 시각화를 구현합니다.
SQL이나 코딩 지식 없이도 데이터베이스에서 데이터를 가져와 그래프를 생성할 수 있습니다.
다양한 출처의 데이터를 통합하여 분석할 수 있는 기능을 제공합니다.
Google Drive의 HR 파일과 CSV 파일을 사용하여 직원의 역할과 워크스페이스 사용량을 분석할 수 있습니다.
어떤 팀이 어떤 용도로 도구를 사용하는지 파악하여 활용도를 높일 수 있습니다.

8. 🔗 데이터베이스와 파일의 통합 쿼리

도구는 사용자 활동 및 역할에 대한 정보를 제공하는 쿼리 테이블로 구성되어 있음.
웹 검색을 활성화하면 외부 데이터를 그래프로 시각화할 수 있음.
직원 역할 스프레드시트와 CSV 사용 데이터를 통합하여 SQL 쿼리를 실행함.
SQL 쿼리를 통해 상위 5명의 사용자 역할을 분석할 수 있음.
두 개의 파일은 서로 다른 저장소에서 가져옴.
데이터 소스는 내부 데이터베이스와 외부 CSV 파일로 구성됨.
SQL 쿼리 실행 과정은 데이터 통합, 쿼리 작성, 결과 분석의 단계로 이루어짐.

9. 🗂️ Dust의 아키텍처와 데이터 처리 과정

Dust의 아키텍처는 'front', 'connectors', 'core'로 구성되어 있으며, 각 구성 요소는 특정 역할을 수행합니다.
'front'는 고객이 API, 웹 UI 등을 통해 Dust에 접근하는 인터페이스를 제공합니다.
'connectors'는 Google Drive, Notion, Slack, GitHub 등의 외부 데이터를 Dust에 동기화하며, posr 데이터베이스에 저장합니다.
'core'는 Rust 애플리케이션으로, LLMs 및 벡터 검색 데이터베이스인 quadrant 데이터베이스와 직접 통신하여 데이터를 처리합니다.
두 개의 파일을 직원 이메일을 기준으로 left join하여 이름, 사용자 메시지 수, 역할을 포함한 데이터를 병합할 수 있습니다.

10. 🧠 LLM과 데이터 쿼리의 상호작용

사용자는 다양한 형식의 파일을 업로드할 수 있으며, 시스템은 이를 CSV 형식으로 변환하여 처리합니다.
Google Drive와 같은 커넥터를 통해 스프레드시트가 추가되면 자동으로 동기화되어 최신 데이터를 유지합니다.
변환된 CSV 파일은 LLM에 적합한 열 이름을 자동으로 식별하여 데이터베이스에 저장합니다.
저장된 데이터는 '증강 스키마'로 PG 데이터베이스에 저장되며, 이는 쿼리 시 사용됩니다.
사용자가 질문을 하면, 시스템은 증강 스키마와 함께 쿼리를 LLM에 전송하여 답변을 생성합니다.
DBML 언어로 쿼리를 작성하여 모델에 전송하며, 이는 다양한 모델과 호환됩니다.
이 과정은 모델에 종속되지 않으며, 함수 호출을 지원하는 모든 모델과 호환됩니다.

11. 🗃️ SQL 쿼리 실행 및 결과 처리

전체 대화 기록을 LM에 전송하여 쿼리 실행
문서화된 열과 특정 값을 포함한 스키마 전송
테이블의 첫 16개 행을 LM에 전송하여 데이터 구조 인식
구조화된 출력 호출을 통해 체인 오브 사고 및 SQL 파일 결과 제공
SQL 쿼리 실행 여부에 따라 다른 경로 선택
Snowflake, Redshift, BigQuery와 같은 데이터 웨어하우스에서 쿼리 실행
파일 기반 쿼리의 경우, Rust에서 SQL Lite 데이터베이스를 스핀업하여 빠른 처리

12. 📊 데이터 시각화와 컴포넌트 생성

쿼리 결과를 CSV 파일로 저장하고 S3 또는 GCS에 업로드하여 데이터 관리 효율성을 높임.
LLM을 사용하여 모든 데이터 포인트를 직접 입력하는 대신 파일을 사용하여 컴포넌트를 생성함으로써 비용과 시간을 절감함.
데이터 구조를 이해하기 위해 LLM에 몇 줄의 데이터를 보여주고, 이를 통해 효과적인 차트 코드를 생성함.
Recharts와 D3.js를 사용하여 시각화 컴포넌트를 구현하고, CSV 파일을 다운로드하여 데이터 시각화를 완성함.

13. 🌐 자연어 BI와 비기술적 팀의 활용

비기술적 팀이 자연어 BI를 활용하여 이전에 불가능했던 BI 작업을 수행할 수 있게 되었다.
대시보드를 구축하는 데 소요되는 시간에 비해 자연어로 질문을 통해 데이터를 조회하는 시간이 크게 단축되었다.
자연어 BI를 통해 비기술적 팀은 데이터 분석에 대한 접근성을 높이고, 실시간으로 인사이트를 얻을 수 있게 되었다.
예를 들어, 마케팅 팀은 자연어 BI를 사용하여 캠페인 성과를 즉각적으로 분석하고 전략을 조정할 수 있다.

View Full Content

Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis

Starting at $5/month. Cancel anytime.