Latent Space: The AI Engineer Podcast - 2024 in Post-Transformers Architectures (State Space Models, RWKV) [LS Live @ NeurIPS]
Latent Space Live는 NeurIPS 2024에서 열린 미니 컨퍼런스로, AI 및 대체 아키텍처의 최신 발전을 다루었습니다. Together AI와 Recursal AI의 전문가들이 참여하여, 트랜스포머 대체 아키텍처의 상태와 발전을 논의했습니다. 특히, RWKV-V5와 QRDADUKV-6 모델의 발전이 강조되었으며, 이 모델들은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다. 또한, 새로운 아키텍처가 어떻게 더 적은 계산 자원으로 동일한 성능을 달성할 수 있는지에 대한 논의가 있었습니다. 이와 함께, 효율적인 커널 지원의 중요성과 새로운 테스트 시간 패러다임에 대한 논의도 이루어졌습니다.
Key Points:
- 트랜스포머 대체 아키텍처의 발전: Together AI와 Recursal AI는 트랜스포머 대체 아키텍처의 발전을 주도하고 있습니다.
- RWKV 모델의 발전: RWKV-V5와 QRDADUKV-6 모델은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다.
- 효율적인 커널 지원: 새로운 아키텍처는 효율적인 커널 지원을 통해 더 적은 계산 자원으로 동일한 성능을 달성할 수 있습니다.
- 새로운 테스트 시간 패러다임: 새로운 아키텍처는 테스트 시간에 다른 접근 방식을 필요로 하며, 이는 모델의 성능을 향상시킬 수 있습니다.
- 미래의 AI 모델: AI 모델은 더 긴 문맥 길이를 처리할 수 있으며, 이는 다양한 응용 분야에서 유용할 수 있습니다.
Details:
1. 🎉 Latent Space Live 2024: Recap and Highlights
- NeurIPS 2024에서 열린 첫 번째 미니 컨퍼런스 Latent Space Live 개최
- 900명 이상의 참가자 설문조사 결과를 바탕으로 최고의 연사 초청
- 현장 참석자 200명, 온라인 생중계 시청자 2,200명
2. 🔍 Exploring Transformers and AI Innovations
- 트랜스포머 대체 아키텍처의 현재 상태에 대한 키노트 발표가 진행되었습니다.
- Together AI의 Dan Few와 Recursal AI 및 Featherless AI의 Eugene Cheer가 공동 발표를 맡았습니다.
- 이전에도 Together와 Recursal을 팟캐스트에서 다룬 적이 있습니다.
- 키노트에서는 트랜스포머 대체 아키텍처의 혁신과 발전 방향에 대한 심도 있는 논의가 이루어졌습니다.
- Dan Few는 Together AI의 혁신적인 접근 방식을 강조하며, Eugene Cheer는 Recursal AI의 최신 연구 결과를 공유했습니다.
3. 🚀 Together AI and Recursal AI: Pioneering AI Architectures
3.1. Together AI's Contributions to AI Architectures
3.2. Recursal AI's Innovations and Releases
4. 🦅 RWKV's Global Impact and Innovations
4.1. Microsoft Integration
4.2. Energy-Efficient Use Cases
4.3. RWKV-6 Updates
4.4. QRDADUKV-6 Announcement
4.5. Model Modification
4.6. Popular Guest Post
4.7. H100 GPU Market Insights
4.8. Featherless AI Launch
4.9. Additional Resources
5. 🧠 Post-Transformer Architectures: A New Era
- Dan은 Together AI에서 일하고 있으며, 1년 후 UCSD 교수로 합류할 예정입니다.
- Eugene은 Featherless의 CEO이자 공동 창립자로, Art of Theory 팀을 이끌고 있습니다.
- 두 발표자는 새로운 포스트-트랜스포머 아키텍처 공간에서 작업하고 있습니다.
- 발표는 최근 몇 년간의 비포스트-트랜스포머 아키텍처의 발전에 대한 개요를 제공할 것입니다.
- Eugene은 이 분야의 최신 프론티어 모델에 대해 설명할 예정입니다.
6. 📈 Scaling and Efficiency in AI Models
6.1. 📈 Scaling in AI Models
6.2. ⚙️ Efficiency in AI Models
7. 🔄 Advances in Attention Mechanisms
- 주의 메커니즘의 핵심 연산자는 문맥 길이에 따라 계산량이 제곱적으로 증가합니다.
- 테스트 시간 계산 시, 더 많은 토큰을 사용할수록 계산량이 제곱적으로 증가합니다.
- 기본 시퀀스 모델을 개선하여 n의 3/2승 또는 n log n으로 확장할 수 있는지 연구 중입니다.
- 2020년 초부터 현재까지 주의 메커니즘의 확장 가능성을 보여주는 주요 아이디어들이 발전해 왔습니다.
- 동일한 품질을 유지하면서도 더 나은 확장이 가능할 수 있습니다.
8. 🔬 State-Space Models and Efficient Computation
- 최근 몇 년간의 혼란도(perplexity) 감소 추세를 보여주는 그래프에서, 파란 점선은 기본적인 트랜스포머의 완전 밀집 주의(attention)를 나타냅니다.
- 주의(attention)를 서브쿼드래틱(subquadratic)으로 만들 수 있는지에 대한 질문이 제기되었습니다.
- 주의 연산자는 쿼드래틱(quadratic)이며, 입력의 모든 토큰을 서로 비교하는 방식으로 작동합니다.
- 이 방식은 인상적인 결과를 가져왔지만, 해석을 위한 일종의 무차별 대입 방식입니다.
9. 💡 Linear Attention and Computational Challenges
- 출력 크기는 항상 입력과 동일하게 유지되며, 이는 표준 셀프 어텐션에서 관찰되는 점이다.
- 2020년경, 선형 어텐션이라는 개념이 등장했으며, 이는 어텐션 연산의 중간에서 소프트맥스를 제거하고 비선형성을 제거함으로써 이루어진다.
- 키와 값 연산을 먼저 계산하면, 이로 인해 발생하는 이차 병목 현상을 피할 수 있다.
- 이 방법은 계산 효율성을 크게 높일 수 있는 잠재력을 가지고 있다.
- 특징 맵을 사용하거나 전체 어텐션 계산을 근사화하는 다양한 방법이 존재하지만, 2020년에는 이러한 작업이 한계에 부딪히기 시작했다.
- 기본적인 도전 과제는 두 가지로, 첫째는 품질 문제로, 선형 어텐션 연산자로 좋은 품질을 얻기 어려웠다.
- 둘째는 하드웨어 효율성 문제로, 단순화된 특징 맵이 상당히 계산 비용이 많이 든다.
10. 🔧 Innovations in AI Kernel Design
- 2022년 Worku의 연구는 포스트-트랜스포머 아키텍처의 미니 혁명을 시작한 중요한 작업으로, 전기공학에서 사용하는 신호 처리의 동적 시스템 모델링을 AI 입력 모델링에 적용하여 품질 격차를 줄이는 데 기여함.
- 초기 상태 기반 모델 논문들은 신호 처리 수업의 기본적인 재귀 업데이트 모델을 사용하여 숨겨진 상태와 시퀀스에서 최대의 성능을 이끌어내는 방법을 제시함.
11. ⚙️ Efficient Sequence Models and Hardware Integration
- S4 논문은 현재 모델을 컨볼루션으로 공식화할 수 있다는 통찰력을 제공함.
- PyTorch Conv1d 대신 FFT를 사용하여 n log n 계산을 가능하게 함.
- 현대 하드웨어에 최적화된 연산자를 사용하여 효율적인 계산을 구현함.
- 2022년 비변환기 아키텍처에서 돌파구를 마련한 두 가지 주요 아이디어 중 하나로 평가됨.
12. 🦛 H3 and Hyena Models: Enhancing AI Quality
12.1. Introduction of New Models
12.2. Mechanisms for Quality Enhancement
13. 🔍 Just Read Twice: Optimizing AI Efficiency
13.1. Hardware Efficiency in New Architectures
13.2. Linear Attention Resurgence
13.3. BASED Model and Linear Attention
13.4. Efficient Sequence Models and Just Read Twice
14. 🔍 Test Time Compute and AI Model Queries
- 트랜스포머 모델을 사용하여 긴 문서를 입력으로 받아 질문을 하는 표준 사용 사례를 설명합니다. 이 모델은 고정 상태 크기를 가진 순환 모델과 달리 긴 기사에서 특정 정보를 찾는 데 더 효율적입니다.
- 효율적인 모델 아키텍처를 통해 문서와 질문을 반복적으로 입력하여 더 나은 품질을 얻을 수 있습니다. 이는 특히 회상 집약적인 작업에서 더 나은 품질을 제공합니다.
- 모델의 기본 계산 능력과 확장 방식을 변경하면 테스트 시점에서 모델을 다르게 쿼리할 수 있습니다. 이는 대형 트랜스포머 모델의 테스트 시점 계산을 연구하는 흥미로운 연구 질문이 될 수 있습니다.
15. 📊 State of the Art in AI Models
- AI 모델의 최신 상태를 이해하기 위해서는 신호 처리와 같은 다른 분야의 아이디어를 활용하여 시퀀스 모델링에 더 원칙적인 접근 방식을 취하는 것이 중요합니다.
- 하드웨어와 커널 지원은 모델 개발 초기부터 필수적입니다. 이론적으로 더 효율적인 모델이라도 실행 속도가 두 배 느리다면 실질적으로 사용되지 않을 가능성이 큽니다.
- 모델의 품질을 결정하는 중요한 요소는 숨겨진 상태에서 선택할 수 있는 다양한 방법을 인코딩하는 것입니다.
- 새로운 테스트 시간 패러다임을 탐색하는 것이 중요하며, 이는 표준 트랜스포머와 비교하여 어떻게 변화하는지 이해해야 합니다.
16. 🔄 RWKV vs. State Space: A Comparative Analysis
- AI2가 개발한 하이브리드 MOE 모델 Jamba는 비변환기 아키텍처 중 최첨단을 자랑함. 이 모델은 다양한 모달리티와 응용 분야에서 뛰어난 성능을 발휘하며, 특히 대규모 데이터 처리에 강점을 보임.
- MIT의 새로운 확산 모델 SANA는 표준 변환기 확산 모델의 레이어를 선형 주의로 대체하여 더 큰 이미지와 시퀀스를 효율적으로 처리 가능하게 함. 이는 기존 모델 대비 처리 속도와 효율성을 크게 향상시킴.
- 게이트된 상태 기반 모델은 DNA 모델 훈련을 통해 과학 잡지 표지를 장식하며, 복잡한 생물학적 데이터를 효과적으로 분석할 수 있는 능력을 입증함.
- 2024년에는 비변환기, 포스트 변환기 아키텍처가 다양한 모달리티, 응용 분야 및 작업에서 가능성을 보여주고 있음. 이러한 아키텍처는 특히 AI 연구 및 개발의 새로운 패러다임을 제시하며, 기존의 변환기 모델을 대체할 수 있는 잠재력을 가짐.
17. 🌍 RWKV's Mission for Global AI Accessibility
- RWKV는 오픈 소스 커뮤니티와 학계의 협력으로, RNN과 선형 주의 메커니즘을 활용하여 AI 모델을 개발하고 있습니다.
- RWKV는 100개 이상의 언어로 모델을 주로 훈련하며, 모든 언어를 포괄하기 위해 200개 언어로 확장하는 것을 목표로 하고 있습니다.
- RWKV는 계산 비용을 낮추기 위한 아키텍처 작업을 진행하고 있으며, 이는 AI를 모든 사람에게 접근 가능하게 만드는 목표와 일치합니다.
- RWKV의 평균 H-지수는 거의 0에 가까웠으나, Eluter AI의 도움으로 첫 번째 논문을 작성하여 현재 H-지수는 3입니다.
- RWKV는 기술적 접근 방식을 통해 글로벌 AI 접근성을 높이기 위해 RNN과 선형 주의 메커니즘을 결합하여 계산 효율성을 극대화하고 있습니다.
- RWKV는 글로벌 AI 접근성을 위한 주요 도전 과제로 언어 다양성과 계산 비용을 식별하고 있으며, 이를 해결하기 위한 전략을 개발 중입니다.
18. 🔄 RWKV's Architectural Innovations
- RWKV는 LSTM 토큰 흐름의 종속성을 극복하기 위해 RNN의 비효율성과 확장성 부족 문제를 해결했다.
- RWKV는 R&M 렌즈를 통해 아키텍처를 이해하는 것이 더 쉽고 직관적이다.
- 모든 기초 모델은 토큰을 임베딩으로 변환하고 여러 레이어를 거쳐 내부 상태를 생성한다는 공통점을 가진다.
- RNN은 첫 번째 토큰을 처리한 후에야 다음 토큰을 처리할 수 있어 병목 현상이 발생한다.
- RWKV 버전 0은 이러한 병목 현상을 해결하기 위해 RNN의 종속성을 제거했으나 초기 성능은 좋지 않았다.
- RWKV는 이러한 문제를 해결하면서도 훈련 가능성을 유지하는 혁신적인 접근 방식을 개발했다.
19. 🔍 RWKV's Efficient Training and Conversion Techniques
- RWKV는 GPU를 빠르게 포화시킬 수 있는 흐름을 통해 100% GPU 사용을 달성함. 이는 훈련 속도를 크게 향상시킴.
- 효율성을 극대화하기 위해 일반적인 아키텍처를 유지하면서도 최적화된 원칙을 따름.
- RWA-KVR의 주요 블록은 'timelapse'와 'channelmapse'로 구성됨. 'timelapse'는 장기 메모리 상태를 처리하며, 행렬 곱셈과 C-loop 활성화 함수를 사용함. 이는 모델이 긴 시퀀스를 효과적으로 처리할 수 있도록 함.
- 'channelmapse'는 단기 주의력을 처리하며, 이전 토큰을 참조하여 빠른 응답을 가능하게 함.
- RWKV는 여러 버전으로 발전해왔으며, 현재 v7을 준비 중임. 이는 지속적인 개선과 혁신을 반영함.
20. 🔄 QRWKV6: Breakthroughs in AI Efficiency
- QRWKV6는 기존 QAN 32B 모델의 피드포워드 레이어를 동결하고 QKV 주의 레이어를 제거한 후 RWKV 선형 레이어로 대체하여 개발되었습니다. 이 과정에서 피드포워드 레이어를 동결하여 새로운 주의 메커니즘을 학습하고, 이후 모든 레이어를 함께 훈련하여 최적의 성능을 달성했습니다.
- QRWKV6는 단 두 개의 노드에서 몇 시간의 훈련만으로 원래의 QAN32B 모델과 동등한 성능을 달성했습니다. 이는 제한된 컴퓨팅 자원으로도 높은 효율성을 보여주었으며, 더 많은 훈련을 통해 더욱 향상될 수 있습니다.
- MMLU 점수는 76%로 일부 손실이 있었지만, 추가적인 훈련을 통해 개선 가능성이 있습니다. QRWKV6는 효율적인 자원 활용을 통해 AI 모델의 성능을 최적화할 수 있는 가능성을 보여줍니다.
21. 🔍 Future Directions and Hybrid Models
- SAM-TP 변환 과정에서 주의 메커니즘 테스트를 위한 컴퓨팅 효율성이 매우 높음. SAM-TP는 주의 메커니즘을 테스트하는 데 있어 매우 효율적인 컴퓨팅 성능을 제공함.
- 버전 7 및 하이브리드 아키텍처 개발 계획 중이며, 처음부터 훈련하여 우수한 모델을 얻음. 하이브리드 아키텍처는 처음부터 훈련하여 더 나은 성능을 발휘함.
- 현재 70B 모델을 사용 중이며, 128K 컨텍스트 길이로 확장 시 대부분의 엔터프라이즈 워크로드를 대체할 수 있음. 128K 컨텍스트 길이는 현재 AI 워크로드의 대다수를 대체할 수 있는 잠재력을 가짐.
- 128K 컨텍스트 길이로 확장 시, 현재 AI 워크로드의 대다수를 대체할 수 있으며, 더 긴 컨텍스트를 원할 경우 추가 GPU 필요. 더 긴 컨텍스트를 위해서는 추가적인 GPU 리소스가 필요함.
- RWKV에 국한되지 않고 Mamba에서도 변환 프로세스가 작동할 가능성이 높음. 변환 프로세스는 RWKV뿐만 아니라 Mamba에서도 효과적으로 작동할 가능성이 있음.
- Goldfinch 하이브리드 모델 실험에서 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함. Goldfinch 실험은 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함을 보여줌.
- 4개 팀에서 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구 필요. 4개의 팀이 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구가 필요함.
22. 🔧 Hardware and Model Co-Design: Thunder Kittens
- Thunder Kittens는 CUDA 라이브러리로, 새로운 아키텍처를 구축할 때마다 CUDA 코드를 작성하는 데 걸리는 시간을 줄이기 위해 개발되었습니다.
- H100 하드웨어에서의 핵심 연산은 warp group matrix multiply operation으로, 이를 활용하여 모델 설계 시 상태 크기와 업데이트 함수를 최적화할 수 있습니다.
- Thunder Kittens는 모든 기본 연산을 행렬 연산으로 처리하도록 설계되어 있으며, 기존 아키텍처를 재구현하거나 새로운 아키텍처를 설계하는 데 사용됩니다.
- 최근 몇 년간 언어 모델에 집중해왔으나, 실시간으로 실행 가능한 비디오 생성 모델 등 새로운 세대의 모델들이 등장하고 있습니다.
- 새로운 비디오 생성 모델은 긴 대기 시간과 생성 시간을 가지고 있으며, 이를 개선하기 위한 연구가 진행 중입니다.
23. 🤔 Hot Takes and Future Speculations
23.1. RAG 모델의 한계
23.2. 무한한 컨텍스트의 현실
23.3. 고정 상태 크기의 중요성
23.4. 언어 모델과 외부 데이터 저장소
24. 🔍 Long Context and AI Model Challenges
- 장기 컨텍스트는 실제로 중요하지 않다는 의견이 제시됨. 2백만 토큰을 사용하는 프롬프트는 거의 사용되지 않으며, 이를 위한 모델 설계가 필요할 수 있음.
- Google Gemini가 3백만 컨텍스트를 지원한다는 소식이 있었지만 실제로 사용해본 사람은 드뭄.
- VRAM 소비가 훈련 시간 동안 재사용되지 않아 VRAM 병목 현상이 발생함. 이는 1백만 컨텍스트를 훈련할 때 발생하는 문제로, 대형 연구소가 더 큰 역할을 할 수 있음.
- 400B 모델보다 70B 모델이 더 적은 자원을 사용하면서도 동일한 결과를 얻을 수 있음. 이는 효율적인 아키텍처를 통해 가능하며, 200B 이하의 모델을 최대한 빠르고 효율적으로 만드는 방향이 중요함.
- 무한한 컨텍스트 길이를 훈련할 수는 없지만, 장기 컨텍스트 벤치마크를 구축하여 모델이 이를 처리할 수 있는지 평가할 필요가 있음.
- 상태 공간 모델과 RWKB는 토큰 위치에 기반하지 않는 주의 메커니즘을 사용하여 8K 또는 1백만 컨텍스트를 넘어도 안정적으로 작동함. 이는 기상 데이터 모델링 등에서 기존 아키텍처보다 우수한 성능을 보임.