IOSG Ventures: 실리콘부터 지능까지, 인공지능 훈련 및 추론 기술 스택에 대한 자세한 설명

BTC0.0₂₀

ETH0.0₂₀

HTX0.0₂₀

SOL0.0₂₀

BNB0.0₂₀

BTC0.0₂₀

ETH0.0₂₀

HTX0.0₂₀

SOL0.0₂₀

BNB0.0₂₀

IOSG Ventures: 실리콘부터 지능까지, 인공지능 훈련 및 추론 기술 스택에 대한 자세한 설명

星球君的朋友们

2024-08-06 04:00

本文约2886字，阅读全文需要约12分钟

AI 기술 스택은 현재 AI 혁명의 근간이 되는 하드웨어와 소프트웨어로 구성된 계층화된 아키텍처이다.

원저자: IOSG Ventures

인공지능의 급속한 발전은 복잡한 인프라를 기반으로 한다. AI 기술 스택은 현재 AI 혁명의 근간이 되는 하드웨어와 소프트웨어로 구성된 계층화된 아키텍처이다. 여기에서는 기술 스택의 주요 계층에 대한 심층 분석을 제공하고 AI 개발 및 구현에 대한 각 계층의 기여를 설명합니다. 마지막으로, 특히 GPU 네트워크와 같은 DePIN(분산형 물리적 인프라) 프로젝트와 같이 암호화폐와 AI의 교차점에서 기회를 평가할 때 이러한 기본 사항을 숙지하는 것의 중요성에 대해 생각해 보겠습니다.

1. 하드웨어 레이어: 실리콘 기초

가장 낮은 수준에는 AI에 물리적 컴퓨팅 성능을 제공하는 하드웨어가 있습니다.

CPU(중앙 처리 장치): 컴퓨팅을 위한 기본 프로세서입니다. 이는 순차 작업 처리에 탁월하며 데이터 전처리, 소규모 인공 지능 작업 및 기타 구성 요소 조정을 포함한 범용 컴퓨팅에 중요합니다.
GPU(그래픽 처리 장치): 원래 그래픽 렌더링을 위해 설계되었지만 많은 수의 간단한 계산을 동시에 수행할 수 있는 능력으로 인해 인공 지능의 중요한 부분이 되었습니다. 이러한 병렬 처리 기능을 통해 GPU는 딥 러닝 모델 학습에 매우 적합합니다. GPU 개발이 없었다면 최신 GPT 모델은 불가능했을 것입니다.
AI 가속기: 일반적인 AI 작업에 최적화된 AI 워크로드용으로 특별히 설계된 칩으로, 교육 및 추론 작업에 높은 성능과 에너지 효율성을 제공합니다.
FPGA(Programmable Array Logic): 재프로그래밍이 가능한 특성으로 유연성을 제공합니다. 특히 짧은 대기 시간이 필요한 추론 시나리오에서 특정 인공 지능 작업에 맞게 최적화할 수 있습니다.

2. 기본 소프트웨어: 미들웨어

AI 기술 스택의 이 계층은 높은 수준의 AI 프레임워크와 기본 하드웨어 사이에 브리지를 구축하기 때문에 중요합니다. CUDA, ROCm, OneAPI 및 SNPE와 같은 기술은 상위 수준 프레임워크와 특정 하드웨어 아키텍처 간의 연결을 강화하여 성능 최적화를 달성합니다.

NVIDIA의 독점 소프트웨어 레이어인 CUDA는 AI 하드웨어 시장에서 회사가 성장하는 초석입니다. NVIDIA의 리더십 위치는 하드웨어 장점뿐만 아니라 소프트웨어 및 생태계 통합의 강력한 네트워크 효과도 반영합니다.

CUDA가 그토록 큰 영향을 미치는 이유는 AI 기술 스택에 깊이 통합되어 있으며 해당 분야의 사실상 표준이 된 최적화 라이브러리 세트를 제공하기 때문입니다. 이 소프트웨어 생태계는 강력한 네트워크 효과를 구축했습니다. CUDA에 능숙한 AI 연구원과 개발자는 교육 과정에서 학계와 산업계에 CUDA 사용을 확산시켰습니다.

CUDA 기반 도구 및 라이브러리의 생태계가 AI 실무자에게 점점 더 필수 불가결해짐에 따라 결과적인 선순환은 NVIDIA의 시장 리더십을 강화합니다.

하드웨어와 소프트웨어의 이러한 공생은 AI 컴퓨팅의 최전선에서 NVIDIA의 위치를 확고히 할 뿐만 아니라, 흔히 상품화되는 하드웨어 시장에서는 보기 드문 상당한 가격 결정력을 회사에 제공합니다.

CUDA의 지배력과 경쟁업체의 상대적인 모호함은 상당한 진입 장벽을 만드는 여러 가지 요인에 기인할 수 있습니다. GPU 가속 컴퓨팅 분야에서 NVIDIA의 선두주자 이점을 통해 CUDA는 경쟁업체가 발판을 마련하기 전에 강력한 생태계를 구축할 수 있습니다. AMD 및 Intel과 같은 경쟁업체는 뛰어난 하드웨어를 갖추고 있지만 소프트웨어 계층에는 필요한 라이브러리와 도구가 부족하고 기존 기술 스택과 원활하게 통합할 수 없습니다. 이는 NVIDIA/CUDA와 다른 경쟁업체 사이에 큰 격차가 있는 이유입니다.

3. 컴파일러: 번역기

TVM(Tensor Virtual Machine), MLIR(Multi-Layered Intermediate Representation) 및 PlaidML은 여러 하드웨어 아키텍처에서 AI 워크로드를 최적화하는 과제에 대한 다양한 솔루션을 제공합니다.

TVM은 워싱턴 대학의 연구에서 시작되었으며 고성능 GPU부터 리소스가 제한된 엣지 장치에 이르기까지 다양한 장치에 대한 딥 러닝 모델을 최적화하는 능력으로 빠르게 주목을 받았습니다. 그 장점은 추론 시나리오에서 특히 효과적인 엔드투엔드 최적화 프로세스에 있습니다. 이는 기본 공급업체 및 하드웨어 차이점을 완전히 추상화하여 NVIDIA 장치, AMD, Intel 등 다양한 하드웨어에서 추론 워크로드를 원활하게 실행할 수 있도록 합니다.

그러나 추론을 넘어 상황은 더욱 복잡해집니다. AI 훈련을 위한 하드웨어 교체 가능 컴퓨팅의 궁극적인 목표는 아직 해결되지 않았습니다. 그러나 이와 관련하여 언급할 만한 몇 가지 계획이 있습니다.

Google 프로젝트인 MLIR은 보다 근본적인 접근 방식을 취합니다. 여러 추상화 수준에 대한 통합된 중간 표현을 제공함으로써 추론 및 교육 사용 사례 모두에 대한 전체 컴파일러 인프라를 단순화하는 것을 목표로 합니다.

현재 인텔이 이끄는 PlaidML은 경쟁에서 다크호스로 자리매김했습니다. 이는 기존 AI 가속기 이상의 아키텍처를 포함하여 여러 하드웨어 아키텍처 간의 이식성에 중점을 두고 AI 워크로드가 다양한 컴퓨팅 플랫폼에서 원활하게 실행될 수 있는 미래를 구상합니다.

이러한 컴파일러 중 하나라도 모델 성능에 영향을 주지 않고 개발자의 추가 수정 없이 기술 스택에 잘 통합될 수 있다면 이는 CUDA의 해자를 위협할 가능성이 높습니다. 그러나 현재 MLIR과 PlaidML은 충분히 성숙되지 않았고 인공 지능 기술 스택에 잘 통합되지 않았기 때문에 현재 CUDA의 리더십 위치에 명확한 위협을 가하지 않습니다.

4. 분산 컴퓨팅:코디네이터

Ray와 Horovod는 AI 분야의 분산 컴퓨팅에 대한 두 가지 서로 다른 접근 방식을 나타내며, 각각 대규모 AI 애플리케이션에서 확장 가능한 처리에 대한 중요한 요구 사항을 해결합니다.

UC Berkeley의 RISELab에서 개발한 Ray는 범용 분산 컴퓨팅 프레임워크입니다. 유연성이 뛰어나 머신러닝을 넘어 다양한 유형의 워크로드 분산이 가능합니다. Ray의 행위자 기반 모델은 Python 코드의 병렬화 프로세스를 크게 단순화하므로 강화 학습 및 복잡하고 다양한 워크플로가 필요한 기타 인공 지능 작업에 특히 적합합니다.

원래 Uber가 설계한 Horovod는 딥 러닝의 분산 구현에 중점을 둡니다. 이는 여러 GPU 및 서버 노드에 걸쳐 딥 러닝 훈련 프로세스를 확장하기 위한 간결하고 효율적인 솔루션을 제공합니다. Horovod의 하이라이트는 신경망 데이터의 병렬 훈련에 대한 사용자 친화성과 최적화입니다. 이를 통해 TensorFlow 및 PyTorch와 같은 주류 딥 러닝 프레임워크와 완벽하게 통합될 수 있으므로 개발자는 기존 훈련 코드를 쉽게 확장할 수 있습니다. 광범위한 코드 수정을 수행합니다.

5. 결론: 암호화폐 관점에서

분산 컴퓨팅 시스템 구축을 목표로 하는 DePin 프로젝트에서는 기존 AI 스택과의 통합이 매우 중요합니다. 이러한 통합은 현재 AI 워크플로우 및 도구와의 호환성을 보장하여 채택 장벽을 낮춥니다.

암호화폐 분야에서 현재 GPU 네트워크는 본질적으로 분산형 GPU 임대 플랫폼으로, 보다 복잡한 분산형 AI 인프라를 향한 첫 걸음을 내디뎠습니다. 이러한 플랫폼은 분산형 클라우드라기보다는 Airbnb 스타일의 마켓플레이스처럼 운영됩니다. 특정 애플리케이션에는 유용하지만 이러한 플랫폼은 대규모 AI 개발을 발전시키기 위한 핵심 요구 사항인 진정한 분산 교육을 지원할 만큼 강력하지 않습니다.

Ray 및 Horovod와 같은 현재 분산 컴퓨팅 표준은 전 세계적으로 분산된 네트워크용으로 설계되지 않았습니다. 실제로 작동하는 분산 네트워크를 위해서는 이 계층에서 또 다른 프레임워크를 개발해야 합니다. 일부 회의론자들은 Transformer 모델이 학습 과정에서 집중적인 의사소통과 전역 기능의 최적화를 요구하기 때문에 분산 훈련 방법과 호환되지 않는다고 생각합니다. 반면에 낙관론자들은 전 세계적으로 분산된 하드웨어와 잘 작동하는 새로운 분산 컴퓨팅 프레임워크를 고안하려고 노력하고 있습니다. 요타(Yota)는 이 문제를 해결하려는 스타트업 중 하나입니다.

NeuroMesh는 한 단계 더 나아갑니다. 특히 혁신적인 방식으로 기계 학습 프로세스를 재설계합니다. NeuroMesh는 전역 손실 함수에 대한 최적의 솔루션을 직접 찾는 대신 예측 코딩 네트워크(PCN)를 사용하여 로컬 오류 최소화의 수렴을 찾아 분산 AI 훈련의 근본적인 병목 현상을 해결합니다.

이 접근 방식은 전례 없는 병렬화를 가능하게 할 뿐만 아니라 RTX 4090과 같은 소비자급 GPU 하드웨어에서 모델을 훈련할 수 있게 하여 AI 훈련을 민주화합니다. 구체적으로 4090 GPU의 컴퓨팅 성능은 H 100과 유사하지만 대역폭이 부족하여 모델 학습 중에 완전히 활용되지 않습니다. PCN은 대역폭의 중요성을 줄이므로 이러한 저가형 GPU를 활용하는 것이 가능해지며, 이는 상당한 비용 절감과 효율성 향상을 가져올 수 있습니다.

또 다른 야심 찬 암호화 AI 스타트업인 GenSyn은 컴파일러 제품군을 구축하는 것을 목표로 합니다. Gensyn의 컴파일러를 사용하면 모든 유형의 컴퓨팅 하드웨어를 AI 워크로드에 원활하게 사용할 수 있습니다. 예를 들어 TVM이 추론을 위해 수행하는 것과 마찬가지로 GenSyn은 모델 교육을 위해 유사한 도구를 구축하려고 노력하고 있습니다.

성공할 경우 다양한 하드웨어를 효율적으로 활용하여 더욱 복잡하고 다양한 AI 작업을 처리할 수 있도록 분산형 AI 컴퓨팅 네트워크의 기능을 크게 확장할 수 있습니다. 이 야심찬 비전은 다양한 하드웨어 아키텍처에 걸쳐 최적화하는 데 따른 복잡성과 높은 기술적 위험으로 인해 도전적이기는 하지만, 실행할 수 있다면 이기종 시스템 성능 유지와 같은 장애물을 극복하고 CUDA와 NVIDIA의 해자를 약화시키는 기술이 될 수 있습니다.

추론 관련: 검증 가능한 추론과 이기종 컴퓨팅 리소스의 분산형 네트워크를 결합하는 Hyperbolic의 접근 방식은 상대적으로 실용적인 전략을 구현합니다. TVM과 같은 컴파일러 표준을 활용함으로써 Hyperbolic은 성능과 안정성을 유지하면서 광범위한 하드웨어 구성을 활용할 수 있습니다. 소비자급 하드웨어 및 고성능 하드웨어를 포함하여 여러 공급업체(NVIDIA에서 AMD, Intel 등)의 칩을 통합할 수 있습니다.

암호화-AI 교차점에서의 이러한 발전은 AI 컴퓨팅이 더욱 분산되고 효율적이며 접근 가능해질 수 있는 미래를 예고합니다. 이러한 프로젝트의 성공은 기술적 장점뿐만 아니라 기존 AI 워크플로와 원활하게 통합하고 AI 실무자와 기업의 실질적인 문제를 해결하는 능력에도 달려 있습니다.