

Tác giả gốc: IOSG Ventures
Sự phát triển nhanh chóng của trí tuệ nhân tạo dựa trên cơ sở hạ tầng phức tạp. Ngăn xếp công nghệ AI là một kiến trúc phân lớp bao gồm phần cứng và phần mềm là xương sống của cuộc cách mạng AI hiện nay. Ở đây, chúng tôi sẽ cung cấp phân tích chuyên sâu về các lớp chính của ngăn xếp công nghệ và giải thích sự đóng góp của từng lớp đối với việc phát triển và triển khai AI. Cuối cùng, chúng tôi sẽ suy nghĩ về tầm quan trọng của việc nắm vững các nguyên tắc cơ bản này, đặc biệt là khi đánh giá các cơ hội ở điểm giao thoa giữa tiền điện tử và AI, chẳng hạn như các dự án DePIN (cơ sở hạ tầng vật lý phi tập trung) như mạng GPU.
1. Lớp phần cứng: Nền silicon
Ở cấp độ thấp nhất là phần cứng, cung cấp sức mạnh tính toán vật lý cho AI.
CPU (Bộ xử lý trung tâm): Đây là bộ xử lý cơ bản để tính toán. Chúng vượt trội trong việc xử lý các tác vụ tuần tự và rất quan trọng đối với điện toán có mục đích chung, bao gồm tiền xử lý dữ liệu, các tác vụ trí tuệ nhân tạo quy mô nhỏ và điều phối các thành phần khác.
GPU (Bộ xử lý đồ họa): Ban đầu được thiết kế để kết xuất đồ họa, nhưng đã trở thành một phần quan trọng của trí tuệ nhân tạo vì khả năng thực hiện đồng thời số lượng lớn các phép tính đơn giản. Khả năng xử lý song song này khiến GPU rất phù hợp để đào tạo các mô hình deep learning. Nếu không có sự phát triển của GPU, các mô hình GPT hiện đại sẽ không thể thực hiện được.
Bộ tăng tốc AI: Chip được thiết kế dành riêng cho khối lượng công việc AI được tối ưu hóa cho các hoạt động AI thông thường, mang lại hiệu suất cao và tiết kiệm năng lượng cho các nhiệm vụ đào tạo và suy luận.
FPGA (Logic mảng lập trình): Cung cấp tính linh hoạt với tính chất có thể lập trình lại. Chúng có thể được tối ưu hóa cho các nhiệm vụ trí tuệ nhân tạo cụ thể, đặc biệt là trong các tình huống suy luận yêu cầu độ trễ thấp.
2. Phần mềm cơ bản: phần mềm trung gian
Lớp này trong ngăn xếp công nghệ AI rất quan trọng vì nó xây dựng cầu nối giữa các khung AI cấp cao và phần cứng cơ bản. Các công nghệ như CUDA, ROCm, OneAPI và SNPE tăng cường kết nối giữa các khung cấp cao và kiến trúc phần cứng cụ thể để đạt được tối ưu hóa hiệu suất.
Là lớp phần mềm độc quyền của NVIDIA, CUDA là nền tảng cho sự phát triển của công ty trên thị trường phần cứng AI. Vị trí dẫn đầu của NVIDIA không chỉ nhờ lợi thế về phần cứng mà còn phản ánh hiệu ứng mạng mạnh mẽ của việc tích hợp phần mềm và hệ sinh thái.
Lý do CUDA có tác động to lớn như vậy là vì nó được tích hợp sâu vào nền tảng công nghệ AI và cung cấp một bộ thư viện tối ưu hóa đã trở thành tiêu chuẩn thực tế trong lĩnh vực này. Hệ sinh thái phần mềm này đã xây dựng một hiệu ứng mạng mạnh mẽ: Các nhà nghiên cứu và phát triển AI thành thạo CUDA đã phổ biến việc sử dụng nó cho giới học thuật và ngành công nghiệp trong quá trình đào tạo.
Chu kỳ tích cực đạt được sẽ củng cố vị trí dẫn đầu thị trường của NVIDIA, khi hệ sinh thái gồm các công cụ và thư viện dựa trên CUDA ngày càng trở nên không thể thiếu đối với những người thực hành AI.
Sự cộng sinh giữa phần cứng và phần mềm này không chỉ củng cố vị trí dẫn đầu về điện toán AI của NVIDIA mà còn mang lại cho công ty khả năng định giá đáng kể, điều hiếm thấy trên thị trường phần cứng thường được hàng hóa hóa.
Sự thống trị của CUDA và sự mờ mịt tương đối của các đối thủ cạnh tranh có thể là do một số yếu tố tạo ra rào cản gia nhập đáng kể. Lợi thế đi đầu của NVIDIA trong lĩnh vực điện toán tăng tốc GPU cho phép CUDA xây dựng một hệ sinh thái mạnh mẽ trước khi các đối thủ cạnh tranh giành được chỗ đứng. Mặc dù các đối thủ cạnh tranh như AMD và Intel có phần cứng xuất sắc nhưng các lớp phần mềm của họ thiếu các thư viện và công cụ cần thiết và không thể tích hợp liền mạch với các công nghệ hiện có. Đây là lý do có khoảng cách lớn giữa NVIDIA/CUDA và các đối thủ khác.
3. Trình biên dịch: Trình dịch
TVM (Máy ảo Tensor), MLIR (Biểu diễn trung gian nhiều lớp) và PlaidML cung cấp các giải pháp khác nhau cho thách thức tối ưu hóa khối lượng công việc AI trên nhiều kiến trúc phần cứng.
TVM có nguồn gốc từ nghiên cứu tại Đại học Washington và nhanh chóng gây được sự chú ý nhờ khả năng tối ưu hóa các mô hình học sâu cho nhiều loại thiết bị, từ GPU hiệu suất cao đến các thiết bị biên có giới hạn tài nguyên. Ưu điểm của nó nằm ở quy trình tối ưu hóa từ đầu đến cuối, đặc biệt hiệu quả trong các kịch bản suy luận. Nó hoàn toàn trừu tượng hóa sự khác biệt cơ bản của nhà cung cấp và phần cứng, cho phép khối lượng công việc suy luận chạy liền mạch trên các phần cứng khác nhau, cho dù đó là thiết bị NVIDIA, AMD, Intel, v.v.
Tuy nhiên, ngoài lý luận, tình hình trở nên phức tạp hơn. Mục tiêu cuối cùng của điện toán có thể thay thế phần cứng để đào tạo AI vẫn chưa được giải quyết. Tuy nhiên, có một số sáng kiến đáng được đề cập về vấn đề này.
MLIR, một dự án của Google, áp dụng cách tiếp cận cơ bản hơn. Bằng cách cung cấp một biểu diễn trung gian thống nhất cho nhiều mức độ trừu tượng, nó nhằm mục đích đơn giản hóa toàn bộ cơ sở hạ tầng trình biên dịch cho cả trường hợp sử dụng suy luận và đào tạo.
PlaidML, hiện do Intel dẫn đầu, đã tự định vị mình là chú ngựa đen trong cuộc đua. Nó tập trung vào tính di động trên nhiều kiến trúc phần cứng, bao gồm cả những kiến trúc ngoài bộ tăng tốc AI truyền thống và hình dung ra một tương lai nơi khối lượng công việc AI có thể chạy liền mạch trên nhiều nền tảng điện toán khác nhau.
Nếu bất kỳ trình biên dịch nào trong số này có thể được tích hợp tốt vào ngăn xếp công nghệ mà không ảnh hưởng đến hiệu suất mô hình và không yêu cầu bất kỳ sửa đổi bổ sung nào từ nhà phát triển, điều này rất có thể sẽ đe dọa đến hào nước của CUDA. Tuy nhiên, hiện tại MLIR và PlaidML chưa đủ trưởng thành và chưa được tích hợp tốt vào nền tảng công nghệ trí tuệ nhân tạo nên hiện tại chúng chưa gây ra mối đe dọa rõ ràng cho vị trí dẫn đầu của CUDA.
4. Máy tính phân tán: Điều phối viên
Ray và Horovod đại diện cho hai cách tiếp cận khác nhau đối với điện toán phân tán trong lĩnh vực AI, mỗi cách đều giải quyết nhu cầu quan trọng về khả năng xử lý có thể mở rộng trong các ứng dụng AI quy mô lớn.
Ray, được phát triển bởi RISELab của UC Berkeley, là một khung tính toán phân tán có mục đích chung. Nó vượt trội về tính linh hoạt, cho phép phân phối nhiều loại khối lượng công việc khác nhau ngoài học máy. Mô hình dựa trên tác nhân trong Ray đơn giản hóa đáng kể quá trình song song hóa mã Python, khiến nó đặc biệt phù hợp cho việc học tăng cường và các tác vụ trí tuệ nhân tạo khác đòi hỏi quy trình công việc phức tạp và đa dạng.
Horovod, ban đầu được thiết kế bởi Uber, tập trung vào việc triển khai học sâu một cách phân tán. Nó cung cấp một giải pháp ngắn gọn và hiệu quả để mở rộng quy trình đào tạo deep learning trên nhiều GPU và nút máy chủ. Điểm nổi bật của Horovod là tính thân thiện với người dùng và tối ưu hóa việc đào tạo song song dữ liệu mạng thần kinh, cho phép nó được tích hợp hoàn hảo với các khung học sâu chính thống như TensorFlow và PyTorch, cho phép các nhà phát triển dễ dàng mở rộng mã đào tạo hiện có của họ mà không cần phải thực hiện sửa đổi mã mở rộng.
5. Kết luận: Từ góc độ tiền điện tử
Việc tích hợp với các hệ thống AI hiện có là rất quan trọng đối với dự án DePin, nhằm mục đích xây dựng các hệ thống máy tính phân tán. Sự tích hợp này đảm bảo khả năng tương thích với các công cụ và quy trình làm việc AI hiện tại, giảm bớt rào cản trong việc áp dụng.
Trong lĩnh vực tiền điện tử, mạng GPU hiện tại về cơ bản là một nền tảng cho thuê GPU phi tập trung, đánh dấu bước khởi đầu hướng tới cơ sở hạ tầng AI phân tán phức tạp hơn. Các nền tảng này hoạt động giống như các thị trường kiểu Airbnb hơn là các đám mây phân tán. Mặc dù hữu ích cho một số ứng dụng nhất định nhưng những nền tảng này không đủ mạnh để hỗ trợ đào tạo phân tán thực sự, một yêu cầu then chốt để thúc đẩy phát triển AI quy mô lớn.
Các tiêu chuẩn điện toán phân tán hiện tại như Ray và Horovod không được thiết kế cho các mạng phân tán toàn cầu. Để có một mạng phi tập trung thực sự hoạt động, chúng ta cần phát triển một khuôn khổ khác trên lớp này. Một số người hoài nghi thậm chí còn tin rằng vì các mô hình Transformer yêu cầu giao tiếp chuyên sâu và tối ưu hóa các chức năng toàn cầu trong quá trình học tập nên chúng không tương thích với các phương pháp đào tạo phân tán. Mặt khác, những người lạc quan đang cố gắng đưa ra các khung máy tính phân tán mới hoạt động tốt với phần cứng phân tán toàn cầu. Yotta là một trong những công ty khởi nghiệp đang cố gắng giải quyết vấn đề này.
NeuroMesh tiến thêm một bước nữa. Nó thiết kế lại quá trình học máy theo một cách đặc biệt sáng tạo. NeuroMesh giải quyết nút thắt cơ bản trong đào tạo AI phân tán bằng cách sử dụng mạng mã hóa dự đoán (PCN) để tìm ra điểm hội tụ của việc giảm thiểu lỗi cục bộ, thay vì trực tiếp tìm ra giải pháp tối ưu cho hàm mất mát toàn cục.
Cách tiếp cận này không chỉ cho phép song song hóa chưa từng có mà còn dân chủ hóa việc đào tạo AI bằng cách cho phép đào tạo các mô hình trên phần cứng GPU cấp độ người tiêu dùng như RTX 4090. Cụ thể, sức mạnh tính toán của GPU 4090 tương đương với H 100 nhưng do băng thông không đủ nên chúng không được tận dụng hết trong quá trình huấn luyện mô hình. Vì PCN làm giảm tầm quan trọng của băng thông nên có thể tận dụng các GPU cấp thấp này, điều này có thể giúp tiết kiệm đáng kể chi phí và tăng hiệu quả.
GenSyn, một công ty khởi nghiệp AI về tiền điện tử đầy tham vọng khác, nhằm mục đích xây dựng một bộ trình biên dịch. Trình biên dịch của Gensyn cho phép mọi loại phần cứng máy tính được sử dụng liền mạch cho khối lượng công việc AI. Ví dụ: những gì TVM làm để suy luận, GenSyn đang cố gắng xây dựng các công cụ tương tự để đào tạo mô hình.
Nếu thành công, nó có thể mở rộng đáng kể khả năng của các mạng điện toán AI phi tập trung để xử lý các tác vụ AI phức tạp và đa dạng hơn bằng cách sử dụng hiệu quả các phần cứng khác nhau. Tầm nhìn đầy tham vọng này, tuy đầy thách thức do tính phức tạp và rủi ro kỹ thuật cao trong việc tối ưu hóa trên các kiến trúc phần cứng đa dạng, nhưng có thể là một công nghệ mà nếu họ có thể thực thi, vượt qua các trở ngại như duy trì hiệu năng hệ thống không đồng nhất, làm suy yếu các hào quang của CUDA và NVIDIA.
Về lý luận: Cách tiếp cận của Hyperbolic, kết hợp lý luận có thể kiểm chứng được với mạng lưới tài nguyên máy tính không đồng nhất phi tập trung, thể hiện một chiến lược tương đối thực dụng. Bằng cách tận dụng các tiêu chuẩn trình biên dịch như TVM, Hyperbolic có thể tận dụng nhiều cấu hình phần cứng trong khi vẫn duy trì hiệu suất và độ tin cậy. Nó có thể tổng hợp chip từ nhiều nhà cung cấp (từ NVIDIA đến AMD, Intel, v.v.), bao gồm phần cứng cấp độ người tiêu dùng và phần cứng hiệu suất cao.
Những phát triển này ở điểm giao thoa giữa tiền điện tử-AI báo trước một tương lai trong đó điện toán AI có thể trở nên phân tán, hiệu quả và dễ tiếp cận hơn. Sự thành công của các dự án này không chỉ phụ thuộc vào giá trị kỹ thuật mà còn phụ thuộc vào khả năng tích hợp hoàn hảo với quy trình công việc AI hiện có và giải quyết các mối quan tâm thực tế của những người thực hành AI và doanh nghiệp.
