Latent Space: The AI Engineer Podcast - 2024 in Synthetic Data and Smol Models [LS Live @ NeurIPS]
2024년 NeurIPS에서 열린 Latent Space Live에서는 합성 데이터와 소형 모델의 발전에 대한 논의가 이루어졌다. Hugging Face의 Lubna Ben-Elal은 합성 데이터가 대규모 언어 모델(LLM) 파이프라인 전반에 걸쳐 사용되고 있으며, 이는 인간 주석자보다 저렴하고 빠르다는 점에서 인기를 끌고 있다고 설명했다. 또한, 합성 데이터는 모델의 성능을 평가하는 데에도 사용되며, 이를 통해 모델 붕괴를 방지할 수 있다고 강조했다. 소형 모델 분야에서는 Apple, Google, Microsoft 등이 소형 모델을 다양한 기기에 적용하고 있으며, 이는 효율성을 높이고 비용을 절감하는 데 기여하고 있다. 특히, 소형 모델은 개인 기기에서 실행 가능하여 데이터 프라이버시를 강화할 수 있다는 점에서 주목받고 있다. Lubna는 소형 모델의 효율성을 높이기 위해 다양한 데이터셋을 활용하고, 합성 데이터를 통해 모델을 사전 훈련하는 방법을 제안했다. 이를 통해 소형 모델이 대형 모델과 유사한 성능을 발휘할 수 있음을 보여주었다.
Key Points:
- 합성 데이터는 대규모 언어 모델 파이프라인 전반에 걸쳐 사용되며, 인간 주석자보다 저렴하고 빠르다.
- 소형 모델은 개인 기기에서 실행 가능하여 데이터 프라이버시를 강화할 수 있다.
- 소형 모델의 효율성을 높이기 위해 다양한 데이터셋과 합성 데이터를 활용한다.
- 합성 데이터는 모델 붕괴를 방지하고 성능 평가에 사용된다.
- 소형 모델은 대형 모델과 유사한 성능을 발휘할 수 있다.
Details:
1. 🎉 Latent Space Live 2024 Recap
- NeurIPS 2024에서 열린 첫 번째 미니 컨퍼런스 Latent Space Live에 다시 오신 것을 환영합니다.
- 이번 주에는 2024년의 최고를 도메인별로 요약합니다.
- 900명 이상의 참가자에게 설문조사를 보내 그들이 원하는 것을 파악했습니다.
- Latent Space Network의 최고의 연사들을 초청하여 각 분야를 다루었습니다.
- 200명이 하루 종일 현장에 참석했습니다.
- 2,200명 이상이 온라인으로 생중계를 시청했습니다.
2. 📊 Synthetic Data and Small Models: Keynote Highlights
2.1. Synthetic Data
2.2. Small Models
3. 🔍 Synthetic Data in LLMs: Trends and Innovations
- 애플의 파운데이션 모델이 모든 아이폰과 맥북에 롤아웃됨
- 구글이 크롬 브라우저에 Gemini Nano 도입
- 마이크로소프트가 윈도우에 RWKV 임베딩
- 2024년 최고의 논문 선정 및 유튜브 링크 제공
- 소형 온디바이스 모델에 대한 주의 필요
- 합성 데이터가 이제 어디에나 존재
4. 🧠 Synthetic Data: Quality and Concerns
- 합성 데이터는 초기에는 주로 사후 훈련에 사용되었으며, 인간 주석자가 모델에게 지침을 따르는 방법을 보여주기 위해 필요했습니다.
- 고성능 LLM의 등장으로 인간 주석자를 합성 데이터로 대체하게 되었습니다.
- 모델의 지침 준수, 창의성, 대화형 능력을 측정할 벤치마크가 부족하여 LLM을 심판으로 사용하기 시작했습니다.
- 작년 말부터 올해까지 사전 훈련에도 합성 데이터를 생성하기 시작했습니다.
- 합성 데이터는 웹의 일부를 대체하기 위해 생성되었으며, 데이터 생성에 대한 많은 통제력을 제공합니다.
- 웹을 필터링하는 대신 최상의 웹 페이지를 생성하여 모델을 훈련할 수 있습니다.
- 합성 데이터는 LLM 파이프라인에 전혀 없던 상태에서 모든 곳에 사용되는 상태로 발전했습니다.
5. 🔄 Rephrasing and Filtering: Enhancing Synthetic Data
- 현재 완전히 합성된 파이프라인으로 LLM을 훈련할 수 있음.
- Cosmopedia 데이터셋을 사용하여 100% 합성된 1500억 토큰으로 1B 모델 훈련 가능.
- 합성 SFT 데이터셋으로 모델을 튜닝할 수 있음.
- 합성 데이터셋으로 DPO 수행 가능.
- MTBench 또는 AlpacaEval과 같은 벤치마크를 사용하여 모델 평가 가능.
- 합성 데이터를 적절히 사용하고 신중하게 큐레이션하면 모델 붕괴 방지 가능.
- 합성 데이터는 인간 주석보다 저렴하고 빠름.
- 충분한 GPU가 있으면 많은 합성 데이터를 생성하기 쉬움.
- 웹에 합성 데이터가 많아 모델 붕괴 우려 존재.
- 합성 데이터의 양을 정확히 측정하는 방법은 없음.
- ChatGPT가 생성한 표현을 통해 합성 데이터 양을 추정 가능.
- Common Crawl의 덤프에서 합성 데이터 비율 증가 확인.
- 합성 데이터가 모델 성능을 저하시킨다는 증거는 없음.
6. 📚 Synthetic Data for Pre-Training: Classifiers and Benchmarks
6.1. Microsoft's Study on Synthetic Data
6.2. Hugging Face's Approach with Cosmopedia
6.3. Benchmark Suitability and NVIDIA's Contribution
7. 🔧 Post-Training and Diverse Datasets
7.1. 데이터셋 재작성
7.2. Nimotron CC 및 Pros 접근법
7.3. FineWebEDU 데이터셋
7.4. 다양한 분류기 사용
8. 📈 Small Models in 2024: Efficiency and Performance
- Microsoft의 에이전트 인스트럭트 데이터셋은 특정 기술을 목표로 하여 모델의 성능을 향상시킴. Mistral 7b를 미세 조정하여 원래의 Mistral 인스트럭트 모델을 능가함.
- Allen AI의 툴 세 가지 SFT 혼합 데이터셋은 다양한 작업을 포괄하며, 페르소나 허브 데이터셋을 사용하여 데이터셋의 다양성을 보장함. 예를 들어, 머신러닝 연구자 페르소나를 사용하여 새로운 코드 스니펫을 생성함.
- Smalltalk 데이터셋을 출시하여 다양한 작업을 포괄하고, 7b를 미세 조정하여 수학 및 ifEval을 통한 명령어 수행에서 원래의 Mistral 인스트럭트를 능가함.
- Cohere의 다국어 데이터 차익 거래 논문은 다국어 데이터셋을 생성하기 위해 여러 교사 모델을 사용하고, 라우터를 통해 프롬프트를 전송하여 가장 우수한 결과만을 유지함. 이는 금융의 차익 거래와 유사함.
- 합성 데이터는 단일 모델에서만 생성될 필요가 없으며, 여러 우수한 모델을 결합하여 고품질의 다양한 데이터셋을 생성할 수 있음.