
原作者: IOSG Ventures
人工知能の急速な発展は、複雑なインフラストラクチャに基づいています。 AI テクノロジー スタックは、現在の AI 革命のバックボーンであるハードウェアとソフトウェアから構成される階層化されたアーキテクチャです。ここでは、テクノロジー スタックの主要なレイヤーを詳細に分析し、AI の開発と実装に対する各レイヤーの貢献について説明します。最後に、特に GPU ネットワークなどの DePIN (分散型物理インフラストラクチャ) プロジェクトなど、暗号通貨と AI が交差する機会を評価する場合に、これらの基礎を習得することの重要性について考えます。
1. ハードウェア層: シリコン基盤
最下位レベルはハードウェアであり、AI に物理的なコンピューティング能力を提供します。
CPU (Central Processing Unit): コンピューティングのための基本的なプロセッサです。これらは逐次タスクの処理に優れており、データの前処理、小規模な人工知能タスク、他のコンポーネントの調整などの汎用コンピューティングにとって重要です。
GPU (グラフィックス プロセッシング ユニット): 元々はグラフィックス レンダリング用に設計されましたが、多数の単純な計算を同時に実行できるため、人工知能の重要な部分になりました。この並列処理機能により、GPU はディープ ラーニング モデルのトレーニングに非常に適しています。GPU の開発がなければ、最新の GPT モデルは実現できません。
AI アクセラレータ: 一般的な AI 操作に最適化された AI ワークロード専用に設計されたチップで、トレーニングと推論タスクに高いパフォーマンスとエネルギー効率を提供します。
FPGA (プログラマブル アレイ ロジック): 再プログラム可能な性質により柔軟性が得られます。これらは、特に低遅延が要求される推論シナリオにおいて、特定の人工知能タスク向けに最適化できます。
2. 基盤となるソフトウェア: ミドルウェア
AI テクノロジー スタックのこのレイヤーは、高レベルの AI フレームワークと基盤となるハードウェア間のブリッジを構築するため、非常に重要です。 CUDA、ROCm、OneAPI、SNPE などのテクノロジーは、高レベルのフレームワークと特定のハードウェア アーキテクチャ間の接続を強化し、パフォーマンスの最適化を実現します。
NVIDIA 独自のソフトウェア レイヤーとして、CUDA は AI ハードウェア市場における同社の台頭の基礎となっています。 NVIDIA のリーダー的地位は、そのハードウェアの利点によるものだけではなく、ソフトウェアとエコシステムの統合による強力なネットワーク効果も反映しています。
CUDA がこれほど大きな影響力を持つ理由は、CUDA が AI テクノロジー スタックに深く統合されており、この分野で事実上の標準となっている一連の最適化ライブラリを提供しているためです。このソフトウェア エコシステムは強力なネットワーク効果を構築しました。CUDA に習熟した AI 研究者や開発者は、トレーニング プロセス中にその使用を学界や産業界に広めました。
CUDA ベースのツールとライブラリのエコシステムが AI 実践者にとってますます不可欠になるにつれて、その結果生じる好循環により NVIDIA の市場リーダーシップが強化されます。
このハードウェアとソフトウェアの共生により、AI コンピューティングの最前線における NVIDIA の地位が確固たるものとなるだけでなく、コモディティ化することが多いハードウェア市場では稀な、同社に大きな価格決定力も与えられます。
CUDA の優位性と競合他社の相対的な無名さは、大きな参入障壁を生み出す多くの要因に起因すると考えられます。 GPU アクセラレーション コンピューティングにおける NVIDIA の先行者優位性により、CUDA は競合他社が足場を築く前に強力なエコシステムを構築できます。 AMD や Intel などの競合他社は優れたハードウェアを備えていますが、ソフトウェア層には必要なライブラリやツールが不足しており、既存のテクノロジー スタックとシームレスに統合できないため、NVIDIA/CUDA と他の競合他社との間には大きなギャップがあります。
3. コンパイラ: トランスレータ
TVM (Tensor Virtual Machine)、MLIR (Multi-Layered Intermediate Representation)、および PlaidML は、複数のハードウェア アーキテクチャ間で AI ワークロードを最適化するという課題に対するさまざまなソリューションを提供します。
TVM はワシントン大学の研究に由来し、高性能 GPU からリソースに制約のあるエッジ デバイスに至るまで、さまざまなデバイスのディープ ラーニング モデルを最適化できる機能ですぐに注目を集めました。その利点はエンドツーエンドの最適化プロセスにあり、特に推論シナリオで効果的です。基盤となるベンダーとハードウェアの違いを完全に抽象化し、NVIDIA デバイス、AMD、Intel などの異なるハードウェア上で推論ワークロードをシームレスに実行できるようにします。
しかし、推論を超えて、状況はさらに複雑になります。 AI トレーニング用のハードウェア交換可能なコンピューティングの最終目標は未解決のままです。ただし、この点に関しては、言及する価値のある取り組みがいくつかあります。
Google のプロジェクトである MLIR は、より根本的なアプローチを採用しています。複数の抽象化レベルに統一された中間表現を提供することで、推論とトレーニングの両方のユースケースでコンパイラ インフラストラクチャ全体を簡素化することを目的としています。
現在Intelが率いるPlaidMLは、自らをこの競争のダークホースとして位置づけている。従来の AI アクセラレータを超えたものを含む、複数のハードウェア アーキテクチャにわたる移植性に重点を置き、AI ワークロードがさまざまなコンピューティング プラットフォーム上でシームレスに実行できる未来を構想しています。
これらのコンパイラーのいずれかを、モデルのパフォーマンスに影響を与えることなく、また開発者による追加の変更を必要とせずにテクノロジー スタックにうまく統合できれば、CUDA の堀を脅かす可能性が高くなります。ただし、現時点では MLIR と PlaidML は十分に成熟しておらず、人工知能テクノロジー スタックに十分に統合されていないため、現時点では CUDA のリーダーシップの地位に対する明らかな脅威にはなりません。
4. 分散コンピューティング:コーディネーター
Ray と Horovod は、AI 分野における分散コンピューティングに対する 2 つの異なるアプローチを代表しており、それぞれが大規模 AI アプリケーションにおけるスケーラブルな処理の重要なニーズに対応しています。
Ray は、カリフォルニア大学バークレー校の RISELab によって開発された、汎用の分散コンピューティング フレームワークです。柔軟性に優れ、機械学習を超えたさまざまな種類のワークロードの分散が可能です。 Ray のアクターベースのモデルは、Python コードの並列化プロセスを大幅に簡素化し、複雑で多様なワークフローを必要とする強化学習やその他の人工知能タスクに特に適しています。
Horovod は、もともと Uber によって設計されたもので、深層学習の分散実装に重点を置いています。複数の GPU とサーバー ノードにわたってディープ ラーニング トレーニング プロセスをスケーリングするための、簡潔で効率的なソリューションを提供します。 Horovod のハイライトは、その使いやすさとニューラル ネットワーク データの並列トレーニングの最適化です。これにより、TensorFlow や PyTorch などの主流の深層学習フレームワークと完全に統合できるため、開発者は既存のトレーニング コードを簡単に拡張できます。コードに大規模な変更を加えます。
5. 結論: 暗号通貨の観点から
分散コンピューティング システムの構築を目的とする DePin プロジェクトにとって、既存の AI スタックとの統合は非常に重要です。この統合により、現在の AI ワークフローおよびツールとの互換性が確保され、導入の障壁が低くなります。
暗号通貨の分野では、現在の GPU ネットワークは本質的に分散型 GPU レンタル プラットフォームであり、より複雑な分散型 AI インフラストラクチャに向けた最初のステップとなります。これらのプラットフォームは、分散型クラウドとしてではなく、Airbnb スタイルのマーケットプレイスのように動作します。これらのプラットフォームは特定のアプリケーションには役立ちますが、大規模な AI 開発を進めるための重要な要件である真の分散トレーニングをサポートするには十分強力ではありません。
Ray や Horovod などの現在の分散コンピューティング標準は、グローバルに分散されたネットワーク向けに設計されていません。真に機能する分散ネットワークのためには、この層で別のフレームワークを開発する必要があります。一部の懐疑論者は、Transformer モデルは学習プロセス中に集中的な通信とグローバル関数の最適化を必要とするため、分散トレーニング手法とは互換性がないとさえ信じています。一方、楽観主義者は、世界的に分散されたハードウェアでうまく動作する新しい分散コンピューティング フレームワークを考え出そうとしています。 Yotta は、この問題を解決しようとしているスタートアップの 1 つです。
NeuroMesh はさらに一歩先へ進みます。特に革新的な方法で機械学習プロセスを再設計します。 NeuroMesh は、グローバル損失関数の最適解を直接見つけるのではなく、予測コーディング ネットワーク (PCN) を使用して局所的なエラー最小化の収束を見つけることで、分散型 AI トレーニングの根本的なボトルネックを解決します。
このアプローチにより、前例のない並列化が可能になるだけでなく、RTX 4090 などのコンシューマー グレードの GPU ハードウェアでモデルをトレーニングできるようになり、AI トレーニングが民主化されます。具体的には、4090 GPU の計算能力は H 100 の計算能力と同様ですが、帯域幅が不十分なため、モデルのトレーニング中に十分に活用されません。 PCN により帯域幅の重要性が軽減されるため、これらのローエンド GPU を活用できるようになり、大幅なコスト削減と効率の向上がもたらされる可能性があります。
もう一つの野心的な暗号 AI スタートアップである GenSyn は、コンパイラー スイートの構築を目指しています。 Gensyn のコンパイラを使用すると、あらゆるタイプのコンピューティング ハードウェアを AI ワークロードにシームレスに使用できます。たとえば、TVM が推論のために行うのと同じように、GenSyn はモデルのトレーニングのために同様のツールを構築しようとしています。
成功すれば、分散型 AI コンピューティング ネットワークの機能が大幅に拡張され、さまざまなハードウェアを効率的に活用することで、より複雑で多様な AI タスクを処理できるようになります。この野心的なビジョンは、多様なハードウェア アーキテクチャ間での最適化の複雑さと高い技術的リスクにより困難ではありますが、実行できれば、CUDA と NVIDIA の外堀を弱めるなど、異種システムのパフォーマンスを維持するなどの障害を克服できるテクノロジーになる可能性があります。
推論に関して: 検証可能な推論と異種コンピューティング リソースの分散ネットワークを組み合わせた Hyperbolic のアプローチは、比較的実用的な戦略を体現しています。 TVM などのコンパイラ標準を活用することで、Hyperbolic はパフォーマンスと信頼性を維持しながら、幅広いハードウェア構成を利用できます。消費者向けハードウェアや高性能ハードウェアを含む、複数のベンダー (NVIDIA から AMD、Intel など) のチップを集約できます。
暗号と AI の交差点におけるこうした発展は、AI コンピューティングがより分散され、効率的で、アクセスしやすくなる未来を予感させます。これらのプロジェクトの成功は、その技術的なメリットだけでなく、既存の AI ワークフローとシームレスに統合し、AI 実践者や企業の実際的な懸念に対処できるかどうかにもかかっています。