Latent Space: The AI Engineer Podcast

Latent Space: The AI Engineer Podcast - 2024 in Post-Transformers Architectures (State Space Models, RWKV) [LS Live @ NeurIPS]

Latent Space Live는 NeurIPS 2024에서 열린 미니 컨퍼런스로, AI 및 대체 아키텍처의 최신 발전을 다루었습니다. Together AI와 Recursal AI의 전문가들이 참여하여, 트랜스포머 대체 아키텍처의 상태와 발전을 논의했습니다. 특히, RWKV-V5와 QRDADUKV-6 모델의 발전이 강조되었으며, 이 모델들은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다. 또한, 새로운 아키텍처가 어떻게 더 적은 계산 자원으로 동일한 성능을 달성할 수 있는지에 대한 논의가 있었습니다. 이와 함께, 효율적인 커널 지원의 중요성과 새로운 테스트 시간 패러다임에 대한 논의도 이루어졌습니다.

Key Points:

트랜스포머 대체 아키텍처의 발전: Together AI와 Recursal AI는 트랜스포머 대체 아키텍처의 발전을 주도하고 있습니다.
RWKV 모델의 발전: RWKV-V5와 QRDADUKV-6 모델은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다.
효율적인 커널 지원: 새로운 아키텍처는 효율적인 커널 지원을 통해 더 적은 계산 자원으로 동일한 성능을 달성할 수 있습니다.
새로운 테스트 시간 패러다임: 새로운 아키텍처는 테스트 시간에 다른 접근 방식을 필요로 하며, 이는 모델의 성능을 향상시킬 수 있습니다.
미래의 AI 모델: AI 모델은 더 긴 문맥 길이를 처리할 수 있으며, 이는 다양한 응용 분야에서 유용할 수 있습니다.

Details:

1. 🎉 Latent Space Live 2024: Recap and Highlights

NeurIPS 2024에서 열린 첫 번째 미니 컨퍼런스 Latent Space Live 개최
900명 이상의 참가자 설문조사 결과를 바탕으로 최고의 연사 초청
현장 참석자 200명, 온라인 생중계 시청자 2,200명

2. 🔍 Exploring Transformers and AI Innovations

트랜스포머 대체 아키텍처의 현재 상태에 대한 키노트 발표가 진행되었습니다.
Together AI의 Dan Few와 Recursal AI 및 Featherless AI의 Eugene Cheer가 공동 발표를 맡았습니다.
이전에도 Together와 Recursal을 팟캐스트에서 다룬 적이 있습니다.
키노트에서는 트랜스포머 대체 아키텍처의 혁신과 발전 방향에 대한 심도 있는 논의가 이루어졌습니다.
Dan Few는 Together AI의 혁신적인 접근 방식을 강조하며, Eugene Cheer는 Recursal AI의 최신 연구 결과를 공유했습니다.

3. 🚀 Together AI and Recursal AI: Pioneering AI Architectures

3.1. Together AI's Contributions to AI Architectures

3.2. Recursal AI's Innovations and Releases

4. 🦅 RWKV's Global Impact and Innovations

4.1. Microsoft Integration

4.2. Energy-Efficient Use Cases

4.3. RWKV-6 Updates

4.4. QRDADUKV-6 Announcement

4.5. Model Modification

4.6. Popular Guest Post

4.7. H100 GPU Market Insights

4.8. Featherless AI Launch

4.9. Additional Resources

5. 🧠 Post-Transformer Architectures: A New Era

Dan은 Together AI에서 일하고 있으며, 1년 후 UCSD 교수로 합류할 예정입니다.
Eugene은 Featherless의 CEO이자 공동 창립자로, Art of Theory 팀을 이끌고 있습니다.
두 발표자는 새로운 포스트-트랜스포머 아키텍처 공간에서 작업하고 있습니다.
발표는 최근 몇 년간의 비포스트-트랜스포머 아키텍처의 발전에 대한 개요를 제공할 것입니다.
Eugene은 이 분야의 최신 프론티어 모델에 대해 설명할 예정입니다.

6. 📈 Scaling and Efficiency in AI Models

6.1. 📈 Scaling in AI Models

6.2. ⚙️ Efficiency in AI Models

7. 🔄 Advances in Attention Mechanisms

주의 메커니즘의 핵심 연산자는 문맥 길이에 따라 계산량이 제곱적으로 증가합니다.
테스트 시간 계산 시, 더 많은 토큰을 사용할수록 계산량이 제곱적으로 증가합니다.
기본 시퀀스 모델을 개선하여 n의 3/2승 또는 n log n으로 확장할 수 있는지 연구 중입니다.
2020년 초부터 현재까지 주의 메커니즘의 확장 가능성을 보여주는 주요 아이디어들이 발전해 왔습니다.
동일한 품질을 유지하면서도 더 나은 확장이 가능할 수 있습니다.

8. 🔬 State-Space Models and Efficient Computation

최근 몇 년간의 혼란도(perplexity) 감소 추세를 보여주는 그래프에서, 파란 점선은 기본적인 트랜스포머의 완전 밀집 주의(attention)를 나타냅니다.
주의(attention)를 서브쿼드래틱(subquadratic)으로 만들 수 있는지에 대한 질문이 제기되었습니다.
주의 연산자는 쿼드래틱(quadratic)이며, 입력의 모든 토큰을 서로 비교하는 방식으로 작동합니다.
이 방식은 인상적인 결과를 가져왔지만, 해석을 위한 일종의 무차별 대입 방식입니다.

9. 💡 Linear Attention and Computational Challenges

출력 크기는 항상 입력과 동일하게 유지되며, 이는 표준 셀프 어텐션에서 관찰되는 점이다.
2020년경, 선형 어텐션이라는 개념이 등장했으며, 이는 어텐션 연산의 중간에서 소프트맥스를 제거하고 비선형성을 제거함으로써 이루어진다.
키와 값 연산을 먼저 계산하면, 이로 인해 발생하는 이차 병목 현상을 피할 수 있다.
이 방법은 계산 효율성을 크게 높일 수 있는 잠재력을 가지고 있다.
특징 맵을 사용하거나 전체 어텐션 계산을 근사화하는 다양한 방법이 존재하지만, 2020년에는 이러한 작업이 한계에 부딪히기 시작했다.
기본적인 도전 과제는 두 가지로, 첫째는 품질 문제로, 선형 어텐션 연산자로 좋은 품질을 얻기 어려웠다.
둘째는 하드웨어 효율성 문제로, 단순화된 특징 맵이 상당히 계산 비용이 많이 든다.

10. 🔧 Innovations in AI Kernel Design

2022년 Worku의 연구는 포스트-트랜스포머 아키텍처의 미니 혁명을 시작한 중요한 작업으로, 전기공학에서 사용하는 신호 처리의 동적 시스템 모델링을 AI 입력 모델링에 적용하여 품질 격차를 줄이는 데 기여함.
초기 상태 기반 모델 논문들은 신호 처리 수업의 기본적인 재귀 업데이트 모델을 사용하여 숨겨진 상태와 시퀀스에서 최대의 성능을 이끌어내는 방법을 제시함.

11. ⚙️ Efficient Sequence Models and Hardware Integration

S4 논문은 현재 모델을 컨볼루션으로 공식화할 수 있다는 통찰력을 제공함.
PyTorch Conv1d 대신 FFT를 사용하여 n log n 계산을 가능하게 함.
현대 하드웨어에 최적화된 연산자를 사용하여 효율적인 계산을 구현함.
2022년 비변환기 아키텍처에서 돌파구를 마련한 두 가지 주요 아이디어 중 하나로 평가됨.

12. 🦛 H3 and Hyena Models: Enhancing AI Quality

12.1. Introduction of New Models

12.2. Mechanisms for Quality Enhancement

13. 🔍 Just Read Twice: Optimizing AI Efficiency

13.1. Hardware Efficiency in New Architectures

13.2. Linear Attention Resurgence

13.3. BASED Model and Linear Attention

13.4. Efficient Sequence Models and Just Read Twice

14. 🔍 Test Time Compute and AI Model Queries

트랜스포머 모델을 사용하여 긴 문서를 입력으로 받아 질문을 하는 표준 사용 사례를 설명합니다. 이 모델은 고정 상태 크기를 가진 순환 모델과 달리 긴 기사에서 특정 정보를 찾는 데 더 효율적입니다.
효율적인 모델 아키텍처를 통해 문서와 질문을 반복적으로 입력하여 더 나은 품질을 얻을 수 있습니다. 이는 특히 회상 집약적인 작업에서 더 나은 품질을 제공합니다.
모델의 기본 계산 능력과 확장 방식을 변경하면 테스트 시점에서 모델을 다르게 쿼리할 수 있습니다. 이는 대형 트랜스포머 모델의 테스트 시점 계산을 연구하는 흥미로운 연구 질문이 될 수 있습니다.

15. 📊 State of the Art in AI Models

AI 모델의 최신 상태를 이해하기 위해서는 신호 처리와 같은 다른 분야의 아이디어를 활용하여 시퀀스 모델링에 더 원칙적인 접근 방식을 취하는 것이 중요합니다.
하드웨어와 커널 지원은 모델 개발 초기부터 필수적입니다. 이론적으로 더 효율적인 모델이라도 실행 속도가 두 배 느리다면 실질적으로 사용되지 않을 가능성이 큽니다.
모델의 품질을 결정하는 중요한 요소는 숨겨진 상태에서 선택할 수 있는 다양한 방법을 인코딩하는 것입니다.
새로운 테스트 시간 패러다임을 탐색하는 것이 중요하며, 이는 표준 트랜스포머와 비교하여 어떻게 변화하는지 이해해야 합니다.

16. 🔄 RWKV vs. State Space: A Comparative Analysis

AI2가 개발한 하이브리드 MOE 모델 Jamba는 비변환기 아키텍처 중 최첨단을 자랑함. 이 모델은 다양한 모달리티와 응용 분야에서 뛰어난 성능을 발휘하며, 특히 대규모 데이터 처리에 강점을 보임.
MIT의 새로운 확산 모델 SANA는 표준 변환기 확산 모델의 레이어를 선형 주의로 대체하여 더 큰 이미지와 시퀀스를 효율적으로 처리 가능하게 함. 이는 기존 모델 대비 처리 속도와 효율성을 크게 향상시킴.
게이트된 상태 기반 모델은 DNA 모델 훈련을 통해 과학 잡지 표지를 장식하며, 복잡한 생물학적 데이터를 효과적으로 분석할 수 있는 능력을 입증함.
2024년에는 비변환기, 포스트 변환기 아키텍처가 다양한 모달리티, 응용 분야 및 작업에서 가능성을 보여주고 있음. 이러한 아키텍처는 특히 AI 연구 및 개발의 새로운 패러다임을 제시하며, 기존의 변환기 모델을 대체할 수 있는 잠재력을 가짐.

17. 🌍 RWKV's Mission for Global AI Accessibility

RWKV는 오픈 소스 커뮤니티와 학계의 협력으로, RNN과 선형 주의 메커니즘을 활용하여 AI 모델을 개발하고 있습니다.
RWKV는 100개 이상의 언어로 모델을 주로 훈련하며, 모든 언어를 포괄하기 위해 200개 언어로 확장하는 것을 목표로 하고 있습니다.
RWKV는 계산 비용을 낮추기 위한 아키텍처 작업을 진행하고 있으며, 이는 AI를 모든 사람에게 접근 가능하게 만드는 목표와 일치합니다.
RWKV의 평균 H-지수는 거의 0에 가까웠으나, Eluter AI의 도움으로 첫 번째 논문을 작성하여 현재 H-지수는 3입니다.
RWKV는 기술적 접근 방식을 통해 글로벌 AI 접근성을 높이기 위해 RNN과 선형 주의 메커니즘을 결합하여 계산 효율성을 극대화하고 있습니다.
RWKV는 글로벌 AI 접근성을 위한 주요 도전 과제로 언어 다양성과 계산 비용을 식별하고 있으며, 이를 해결하기 위한 전략을 개발 중입니다.

18. 🔄 RWKV's Architectural Innovations

RWKV는 LSTM 토큰 흐름의 종속성을 극복하기 위해 RNN의 비효율성과 확장성 부족 문제를 해결했다.
RWKV는 R&M 렌즈를 통해 아키텍처를 이해하는 것이 더 쉽고 직관적이다.
모든 기초 모델은 토큰을 임베딩으로 변환하고 여러 레이어를 거쳐 내부 상태를 생성한다는 공통점을 가진다.
RNN은 첫 번째 토큰을 처리한 후에야 다음 토큰을 처리할 수 있어 병목 현상이 발생한다.
RWKV 버전 0은 이러한 병목 현상을 해결하기 위해 RNN의 종속성을 제거했으나 초기 성능은 좋지 않았다.
RWKV는 이러한 문제를 해결하면서도 훈련 가능성을 유지하는 혁신적인 접근 방식을 개발했다.

19. 🔍 RWKV's Efficient Training and Conversion Techniques

RWKV는 GPU를 빠르게 포화시킬 수 있는 흐름을 통해 100% GPU 사용을 달성함. 이는 훈련 속도를 크게 향상시킴.
효율성을 극대화하기 위해 일반적인 아키텍처를 유지하면서도 최적화된 원칙을 따름.
RWA-KVR의 주요 블록은 'timelapse'와 'channelmapse'로 구성됨. 'timelapse'는 장기 메모리 상태를 처리하며, 행렬 곱셈과 C-loop 활성화 함수를 사용함. 이는 모델이 긴 시퀀스를 효과적으로 처리할 수 있도록 함.
'channelmapse'는 단기 주의력을 처리하며, 이전 토큰을 참조하여 빠른 응답을 가능하게 함.
RWKV는 여러 버전으로 발전해왔으며, 현재 v7을 준비 중임. 이는 지속적인 개선과 혁신을 반영함.

20. 🔄 QRWKV6: Breakthroughs in AI Efficiency

QRWKV6는 기존 QAN 32B 모델의 피드포워드 레이어를 동결하고 QKV 주의 레이어를 제거한 후 RWKV 선형 레이어로 대체하여 개발되었습니다. 이 과정에서 피드포워드 레이어를 동결하여 새로운 주의 메커니즘을 학습하고, 이후 모든 레이어를 함께 훈련하여 최적의 성능을 달성했습니다.
QRWKV6는 단 두 개의 노드에서 몇 시간의 훈련만으로 원래의 QAN32B 모델과 동등한 성능을 달성했습니다. 이는 제한된 컴퓨팅 자원으로도 높은 효율성을 보여주었으며, 더 많은 훈련을 통해 더욱 향상될 수 있습니다.
MMLU 점수는 76%로 일부 손실이 있었지만, 추가적인 훈련을 통해 개선 가능성이 있습니다. QRWKV6는 효율적인 자원 활용을 통해 AI 모델의 성능을 최적화할 수 있는 가능성을 보여줍니다.

21. 🔍 Future Directions and Hybrid Models

SAM-TP 변환 과정에서 주의 메커니즘 테스트를 위한 컴퓨팅 효율성이 매우 높음. SAM-TP는 주의 메커니즘을 테스트하는 데 있어 매우 효율적인 컴퓨팅 성능을 제공함.
버전 7 및 하이브리드 아키텍처 개발 계획 중이며, 처음부터 훈련하여 우수한 모델을 얻음. 하이브리드 아키텍처는 처음부터 훈련하여 더 나은 성능을 발휘함.
현재 70B 모델을 사용 중이며, 128K 컨텍스트 길이로 확장 시 대부분의 엔터프라이즈 워크로드를 대체할 수 있음. 128K 컨텍스트 길이는 현재 AI 워크로드의 대다수를 대체할 수 있는 잠재력을 가짐.
128K 컨텍스트 길이로 확장 시, 현재 AI 워크로드의 대다수를 대체할 수 있으며, 더 긴 컨텍스트를 원할 경우 추가 GPU 필요. 더 긴 컨텍스트를 위해서는 추가적인 GPU 리소스가 필요함.
RWKV에 국한되지 않고 Mamba에서도 변환 프로세스가 작동할 가능성이 높음. 변환 프로세스는 RWKV뿐만 아니라 Mamba에서도 효과적으로 작동할 가능성이 있음.
Goldfinch 하이브리드 모델 실험에서 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함. Goldfinch 실험은 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함을 보여줌.
4개 팀에서 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구 필요. 4개의 팀이 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구가 필요함.

22. 🔧 Hardware and Model Co-Design: Thunder Kittens

Thunder Kittens는 CUDA 라이브러리로, 새로운 아키텍처를 구축할 때마다 CUDA 코드를 작성하는 데 걸리는 시간을 줄이기 위해 개발되었습니다.
H100 하드웨어에서의 핵심 연산은 warp group matrix multiply operation으로, 이를 활용하여 모델 설계 시 상태 크기와 업데이트 함수를 최적화할 수 있습니다.
Thunder Kittens는 모든 기본 연산을 행렬 연산으로 처리하도록 설계되어 있으며, 기존 아키텍처를 재구현하거나 새로운 아키텍처를 설계하는 데 사용됩니다.
최근 몇 년간 언어 모델에 집중해왔으나, 실시간으로 실행 가능한 비디오 생성 모델 등 새로운 세대의 모델들이 등장하고 있습니다.
새로운 비디오 생성 모델은 긴 대기 시간과 생성 시간을 가지고 있으며, 이를 개선하기 위한 연구가 진행 중입니다.

23. 🤔 Hot Takes and Future Speculations

23.1. RAG 모델의 한계

23.2. 무한한 컨텍스트의 현실

23.3. 고정 상태 크기의 중요성

23.4. 언어 모델과 외부 데이터 저장소

24. 🔍 Long Context and AI Model Challenges

장기 컨텍스트는 실제로 중요하지 않다는 의견이 제시됨. 2백만 토큰을 사용하는 프롬프트는 거의 사용되지 않으며, 이를 위한 모델 설계가 필요할 수 있음.
Google Gemini가 3백만 컨텍스트를 지원한다는 소식이 있었지만 실제로 사용해본 사람은 드뭄.
VRAM 소비가 훈련 시간 동안 재사용되지 않아 VRAM 병목 현상이 발생함. 이는 1백만 컨텍스트를 훈련할 때 발생하는 문제로, 대형 연구소가 더 큰 역할을 할 수 있음.
400B 모델보다 70B 모델이 더 적은 자원을 사용하면서도 동일한 결과를 얻을 수 있음. 이는 효율적인 아키텍처를 통해 가능하며, 200B 이하의 모델을 최대한 빠르고 효율적으로 만드는 방향이 중요함.
무한한 컨텍스트 길이를 훈련할 수는 없지만, 장기 컨텍스트 벤치마크를 구축하여 모델이 이를 처리할 수 있는지 평가할 필요가 있음.
상태 공간 모델과 RWKB는 토큰 위치에 기반하지 않는 주의 메커니즘을 사용하여 8K 또는 1백만 컨텍스트를 넘어도 안정적으로 작동함. 이는 기상 데이터 모델링 등에서 기존 아키텍처보다 우수한 성능을 보임.

View Full Content

Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis

Starting at $5/month. Cancel anytime.