Digestly

Dec 22, 2024

2024 in Vision [LS Live @ NeurIPS]

Latent Space: The AI Engineer Podcast - 2024 in Vision [LS Live @ NeurIPS]

2024 in Vision [LS Live @ NeurIPS]
Latent Space Live는 NeurIPS 2024에서 개최된 미니 컨퍼런스로, 컴퓨터 비전 분야의 최신 동향을 다루었습니다. 주요 발표자로는 Roboflow의 Peter Robichaux와 Isaac Robinson, Moondream의 Vic Corapatti가 참여했습니다. 이들은 2024년의 컴퓨터 비전 분야에서 주목할 만한 연구와 기술 발전을 소개했습니다. 특히, 비전 언어 모델의 주류화와 YOLO를 대체하는 새로운 객체 탐지 모델의 부상을 강조했습니다. 또한, SAM2와 같은 비디오 세분화 기술과 MagVIT을 활용한 비디오 생성의 발전을 다루었습니다. Moondream의 Vic Corapatti는 작은 파라미터의 비전 언어 모델을 소개하며, 이를 통해 다양한 비전 애플리케이션을 구축할 수 있는 가능성을 제시했습니다. 이러한 발표들은 컴퓨터 비전 분야의 최신 기술과 연구 동향을 이해하는 데 큰 도움이 되었습니다.

Key Points:

  • 비전 언어 모델의 주류화: GPT-40, CLAWD Claude 3, Gemini 1 및 2, Lama 3.2 등 다양한 모델이 멀티모달로 발전했습니다.
  • YOLO를 대체하는 새로운 객체 탐지 모델: RT-DETTER, LW-DETTER, DEFINE 등이 YOLO를 능가하는 성능을 보였습니다.
  • SAM2를 통한 비디오 세분화: SAM 전략을 비디오에 적용하여 객체 추적의 정확성을 높였습니다.
  • MagVIT을 활용한 비디오 생성: 비디오 토크나이저를 통해 고품질의 비디오 생성이 가능해졌습니다.
  • Moondream의 작은 파라미터 모델: Vic Corapatti는 작은 파라미터의 비전 언어 모델을 통해 다양한 애플리케이션 구축 가능성을 제시했습니다.

Details:

1. 🎉 Latent Space Live 소개

  • Latent Space Live는 NeurIPS 2024에서 밴쿠버에서 개최된 첫 번째 미니 컨퍼런스입니다.
  • 이 이벤트는 인공지능과 머신러닝 분야의 최신 발전을 논의하고, 업계 전문가들과 네트워킹할 수 있는 기회를 제공합니다.
  • 주요 발표자에는 AI 연구의 선두주자들이 포함되어 있으며, 다양한 워크숍과 패널 토론이 진행됩니다.
  • 참가자들은 최신 기술 트렌드와 연구 결과를 공유하고, 협업의 기회를 모색할 수 있습니다.

2. 🗣️ 설문조사와 발표자 초대

  • 900명 이상의 참가자에게 설문조사를 실시하여 원하는 내용을 파악함
  • 각 분야를 다루기 위해 Latent Space Network의 최고의 발표자를 초대함

3. 👁️ 비전 2024 키노트와 비전 언어 모델의 주류화

  • 비전 2024 키노트에는 200명이 현장에 참석하고 2,200명이 온라인으로 시청했습니다. 이는 올해 가장 높은 관심 분야로, 비전 언어 모델의 중요성을 강조했습니다.
  • Roboflow의 Peter Robichaux와 Isaac Robinson이 키노트를 진행하며, 오픈 소스 비전 모델과 도구의 발전을 소개했습니다.
  • Roboflow는 최근 SuperVision 라이브러리가 PyTorch의 Vision 라이브러리를 능가하는 성과를 이루며, 오픈 소스 비전 모델의 선두주자로 자리매김했습니다.
  • RoboFlow Universe는 수십만 개의 오픈 소스 비전 데이터셋과 모델을 호스팅하여, 연구자와 개발자에게 중요한 자원을 제공합니다.
  • Google Ventures가 주도한 4천만 달러의 시리즈 B 투자를 발표하며, Roboflow의 성장과 혁신을 지원하고 있습니다.

4. 📊 비디오 생성과 SAM2의 혁신

4.1. Sora의 비디오 생성 혁신

4.2. SAM2의 비디오 생성 혁신

5. 🔍 실시간 객체 탐지와 Debtors의 발전

  • MagVIT는 VQGAN과 유사한 비디오 토크나이저로, 비디오 시퀀스에 적용되어 수작업 비디오 압축 프레임워크를 초과하는 성능을 발휘합니다.
  • 비트레이트 대비 인간의 품질 선호도에서 우수한 성능을 보입니다.
  • 자동 회귀를 통해 생성된 비디오는 최대 5초 길이로 생성되며, 세부 사항은 다소 부족합니다.
  • 몇 달 후, 1080p 해상도와 1분 길이의 비디오가 등장하며, RTX 데모와 유사한 그래픽 품질을 보여줍니다.
  • 배경에 약간의 문제가 있지만, 대부분의 사용자들은 이를 인식하지 못할 가능성이 큽니다.

6. 🧠 Sora와 OpenSora의 비디오 생성 및 디퓨전 모델

  • DALI 3에서 도입된 트릭으로, 이미지 캡셔닝 모델을 훈련하여 대규모 코퍼스에 대해 매우 고품질의 캡션을 생성하고, 이를 기반으로 디퓨전 모델을 훈련함.
  • SORA와 복제 노력은 비디오 생성에 필요한 여러 단계를 보여주며, 미적 점수로 필터링하고 충분한 움직임이 있는지 확인하여 정적 프레임만 생성하지 않도록 함.
  • OpenSora는 MagVIT v2를 사용하여 디스크리타이제이션 단계를 클래식 VAE 오토인코더 프레임워크로 교체함.
  • 시간 압축을 통해 중복 정보를 피하면서 잠재 공간에 더 많은 의미 정보를 보유할 수 있음.
  • OpenSora는 MagVIT V2를 사용하여 원래는 오토리그레시브 트랜스포머 디코더를 사용했으나, 이제는 디퓨전 트랜스포머를 사용함.
  • 고성능 디퓨전 모델은 DDPM에서 벗어나 정류 흐름으로 전환하고 있으며, 이는 단일 단계로 샘플링할 수 있는 가능성을 높임.
  • DDPM 모델은 고품질 샘플을 생성하는 데 많은 단계가 필요했으나, 정류 흐름은 이를 개선함.
  • 페이스북의 원본 논문에서는 트랜스포머의 특정 하이퍼파라미터가 크게 중요하지 않으며, 모델에 더 많은 컴퓨팅을 투입하는 것이 중요하다고 언급함.

7. 🔄 SAM2의 비디오 적용과 메모리 뱅크

  • Roboflow의 SAM은 사용자들의 라벨링 시간을 75년 절약했습니다.
  • SAM API는 가장 큰 규모로 운영되고 있으며, 순수 바운딩 박스 회귀 모델을 통해 고품질 마스크를 생성할 수 있습니다.
  • SAM2는 비디오에 적용되어 플러그 앤 플레이 방식으로 사용자 사례에 적합합니다.
  • SAM2는 기존의 VIT 대신 계층적 인코더를 사용하여 6배 빠른 추론 속도를 제공합니다.
  • 비디오 세그멘테이션에서는 메모리 뱅크를 생성하여 이미지 인코더의 특징을 기반으로 교차 주의합니다.

8. 📊 Debtors와 YOLO의 비교 및 성능 향상

  • SAM2 전략은 최신 기술 수준을 개선함.
  • 메모리 수를 늘리는 것이 성능을 의미 있게 증가시키지 않으며, 속도를 감소시킴.
  • FIFO 큐 메모리 사용이 정당화됨.
  • 실시간 객체 탐지기 훈련에 대한 관심 증가.

9. 🚀 Debtors의 프리트레이닝과 최적화

  • YOLOs는 실시간 객체 탐지에서 오랫동안 지배적인 방법이었으나, 최근 성능이 정체됨.
  • RT-DETTER, LW-DETTER, DEFINE 모델은 COCO 데이터셋에서 동일한 지연 시간에 4.6 AP 증가를 달성.
  • RT-Dedr는 YOLOs와 속도를 맞추거나 초과할 수 있음을 보여줌.
  • LW-Dedr는 프리트레이닝이 Debtors에 매우 효과적임을 입증.
  • Define은 복잡한 손실 함수를 Debtors에 도입하여 다양한 프레임워크에서 일관된 개선을 보여줌.
  • Debtors는 10밀리초 내에 거의 60 AP를 달성하며, 적은 데이터로 더 나은 모델을 구축하는 방향으로 발전 중.
  • LW debtor는 50 에포크, RT debtor는 60 에포크로 빠르게 수렴.
  • RobofFlow 100 데이터셋에서 우수한 성능을 보여줌.
  • 프리트레이닝은 긴 훈련 주기로 인해 원래 가중치를 손상시키지 않음.
  • 대규모 추론에서 백본을 교체할 때 잘 확장되는 모델을 기대.

10. 🔍 LLM의 시각적 한계와 Florence 2의 혁신

  • LLM은 시각적 세부 사항을 인식하지 못하며, 이는 Claude나 ChatGPT와 같은 모델이 시계의 시간을 읽지 못하는 테스트에서 확인됨.
  • MMVP 논문은 LLM이 세부 사항을 인식하지 못하는 이유를 조사하며, Clip을 비전 인코더로 초기화한 모델이 세부 사항을 잘 인식하지 못한다고 가정함.
  • DynaV2는 이미지 데이터만으로 자가 지도 학습된 모델로, Clip 공간에서는 가깝지만 DynaV2 공간에서는 먼 임베딩을 찾아 어려운 이미지를 식별함.
  • Clip과 DynaV2 특징을 혼합하여 시도했으나, DynaV2 특징이 언어 모델링 작업에 부정적인 영향을 미침.
  • DynaV2 특징을 직접 사용하는 것은 효과적이지 않으며, 이는 DynaV2가 언어 작업에 충분하지 않음을 의미함.

11. 📈 PolyGemma와 PolyGemma 2의 발전

11.1. Florence 모델의 발전

11.2. PolyGemma 모델의 발전

12. 🔍 AIM-V2와 시각적 특징 학습

  • AIM-V2 모델은 해상도와 언어 모델의 파라미터 수가 증가함에 따라 성능이 향상됨을 보여줍니다.
  • AIM-V2는 2억 개의 파라미터를 가진 언어 모델로, ChatGPT와 비교할 때 상당한 성과를 보였습니다.
  • AIM-V2는 복잡한 주석 없이 이미지 토큰과 픽셀 토큰을 결합하는 간단하고 효율적인 방법을 제안합니다.
  • AIM-V2는 PolyGemo와 유사하게 비전 인코더가 이미지 토큰을 디코더 전용 트랜스포머에 덤프하는 방식을 사용합니다.
  • AIM-V2는 이미지 토큰의 평균 제곱 오차를 자가 회귀적으로 학습하여 세밀한 특징을 학습합니다.
  • AIM-V2는 고품질의 인터넷 스케일 데이터를 사용하여 훈련되었으며, 이는 최고의 클립 데이터로 평가받습니다.
  • AIM-V2는 해상도가 증가할수록 성능이 향상되며, 이는 세밀한 시각적 특징을 잘 활용하고 있음을 의미합니다.
  • AIM-V2는 Cocoa 데이터셋에서 60.2의 성능을 기록하며, 이는 시각적 특징을 잘 찾아내는 데 뛰어난 성과를 보입니다.

13. 🧠 AIM-V2의 성능과 한계

13.1. AIM-V2의 성능

13.2. AIM-V2의 한계

14. 🔍 Moonbeam의 비전 언어 모델과 최적화

  • Moonbeam은 초기 작은 비전 언어 모델로 시작하여 툴링 및 클라이언트 라이브러리를 개발하여 배포를 지원합니다. 이는 개발자가 비전 애플리케이션을 어디서나 실행할 수 있도록 돕는 데 중점을 두고 있습니다.
  • 엣지 및 실시간 실행을 중시하며, 다양한 출력 모달리티를 지원합니다. 이미지에 대한 일반적인 질문에 인간과 같은 답변을 제공하는 쿼리 기능을 제공합니다.
  • 합성 데이터셋 생성을 위한 캡셔닝 기능을 제공하며, 이는 확산 모델 훈련에 사용됩니다. 환각을 최소화하기 위한 작업도 수행합니다.
  • 오픈 보캐블러리 객체 탐지 기능이 내장되어 있어 특정 객체를 탐지할 수 있으며, 최근 포인팅 기능이 출시되어 객체의 중심을 식별할 수 있습니다. 이는 EOI 자동화에 유용합니다.
  • 현재 두 가지 모델을 제공합니다: 일반 목적 2B 파라미터 모델과 0.5B 파라미터 모델. 2B 모델은 서버 및 플래그십 모바일에서 실행 가능하며, 0.5B 모델은 메모리 사용량이 적어 구형 모바일 및 엣지 디바이스에 적합합니다.
  • 0.5B 모델은 2B 모델을 기반으로 가지치기 및 지속적 훈련을 통해 성능을 유지합니다. 모델의 다양한 구성 요소의 중요성을 추정하여 가지치기를 수행하며, 성능 손실을 최소화하고 성능을 회복하기 위해 모델을 재훈련합니다.
  • 0.5B 모델은 개념 증명으로, 개발자가 2B 모델을 사용하여 애플리케이션을 탐색하고 배포 준비 시 필요한 기능을 작은 형태로 가지치기할 수 있습니다.

15. 🔧 게이지 판독 문제와 체인 오브 생각의 적용

  • 제조 및 석유 가스 산업에서 아날로그 장치를 모니터링하는 것은 비용이 많이 든다. 기존 모델은 게이지 판독 문제를 해결하지 못했다.
  • 인터넷에서 수집된 이미지 텍스트 데이터는 편향될 수 있으며, 게이지 이미지 대부분은 제품 세부 이미지로 실제 게이지 판독과는 차이가 있다.
  • 합성 데이터를 사용하여 문제를 해결하려 했으나, 수백만 개의 합성 게이지 이미지가 필요했다.
  • 게이지 판독은 단순한 과정이 아니며, 여러 단계의 사고 과정이 필요하다. 체인 오브 생각을 추가하여 모델이 더 나은 이해를 할 수 있도록 했다.
  • 모델은 체인 오브 생각을 통해 더 효율적으로 학습할 수 있었으며, 예측 오류를 통해 체인 오브 생각을 조정할 수 있다.
  • 고객이 특정 게이지에 대해 몇 가지 예시를 제공하면, 체인 오브 생각을 통해 오류를 수정할 수 있다.
  • 현재 시계와 게이지에만 적용했지만, 일반화 가능성이 있다.
  • 이미지 기반 체인 오브 생각 외에도 철자 기반 체인 오브 생각을 추가했다.
  • VLMs는 LLMs에 비해 인식 능력이 뒤처지고 있다. 인터넷에는 문제 해결에 대한 데이터는 많지만, 인식에 대한 데이터는 부족하다.
  • Moon Dream에서는 모든 곳에서 실행 가능한 PLMs를 개발 중이다.
View Full Content
Upgrade to Plus to unlock complete episodes, key insights, and in-depth analysis
Starting at $5/month. Cancel anytime.