Các dự án Web3 về khái niệm AI trở thành mục tiêu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân tán để phối hợp nguồn cung tiềm năng trong đuôi dài - qua dữ liệu, lưu trữ và tính toán; đồng thời xây dựng mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI trong ngành Web3 chủ yếu được sử dụng cho tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung lẫn nhau của cả hai: Web3 hy vọng chống lại sự tập trung của AI, AI hy vọng giúp Web3 mở rộng ra ngoài vòng tròn.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được ấn nút tăng tốc. Cơn sóng do Chatgpt khơi dậy không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh sinh mà còn tạo ra một làn sóng mạnh mẽ trong lĩnh vực Web3.
Dưới sự hỗ trợ của khái niệm AI, thị trường tiền điện tử đã được thúc đẩy rõ rệt về việc huy động vốn. Chỉ trong nửa đầu năm 2024, đã có 64 dự án Web3 + AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt mức huy động vốn cao nhất 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, trang tổng hợp tiền điện tử Coingecko cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD. Những lợi ích rõ ràng từ sự tiến bộ công nghệ AI đã xuất hiện, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%. Hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực thu hút tiền điện tử, Meme: MemeCoin đầu tiên với khái niệm AI Agent - GOAT đã nhanh chóng nổi bật và đạt giá trị 1,4 tỷ USD, thành công trong việc tạo ra cơn sốt AI Meme.
Nghiên cứu và các chủ đề về AI+Web3 cũng đang rất nóng, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, cảm xúc FOMO dường như không theo kịp tốc độ luân chuyển của câu chuyện mới.
AI+Web3, cụm thuật ngữ tràn đầy tiền nóng, cơ hội và ảo tưởng về tương lai này, khó tránh khỏi bị coi như một cuộc hôn nhân sắp đặt do vốn chủ động, chúng ta dường như khó phân biệt dưới chiếc áo choàng lộng lẫy này, rốt cuộc đây là sân chơi của những kẻ đầu cơ, hay là đêm trước khi bình minh bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là liệu có thể trở nên tốt hơn với nhau không? Liệu có thể hưởng lợi từ mô hình của đối phương không? Trong bài viết này, chúng tôi cũng cố gắng đứng trên vai những người đi trước để xem xét cấu trúc này: Web3 có thể phát huy vai trò gì trong từng khâu của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 như thế nào?
Phần 1: Cơ hội gì cho Web3 dưới AI stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về ngăn xếp công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ dễ hiểu hơn: "Mô hình lớn" giống như bộ não của con người, ở giai đoạn đầu, bộ não này thuộc về một em bé mới chào đời, cần quan sát và tiếp nhận lượng thông tin khổng lồ từ thế giới xung quanh để hiểu biết về thế giới, đây là giai đoạn "thu thập" dữ liệu. Do máy tính không có nhiều giác quan như con người như thị giác, thính giác, v.v., trước khi huấn luyện, thông tin không có nhãn quy mô lớn từ bên ngoài cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" đã xây dựng một mô hình có khả năng hiểu và dự đoán, có thể được coi như quá trình trẻ sơ sinh dần dần hiểu và học hỏi từ thế giới bên ngoài. Các tham số của mô hình giống như khả năng ngôn ngữ của trẻ em được điều chỉnh liên tục trong quá trình học tập. Khi nội dung học bắt đầu phân ngành, hoặc khi giao tiếp với con người nhận được phản hồi và điều chỉnh, thì sẽ bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Trẻ em dần lớn lên và khi biết nói, chúng có thể hiểu ý nghĩa và diễn đạt cảm xúc cũng như suy nghĩ của mình trong các cuộc hội thoại mới. Giai đoạn này giống như "suy luận" của mô hình AI lớn, mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ sơ sinh thể hiện cảm xúc, mô tả các đối tượng và giải quyết các vấn đề khác nhau thông qua khả năng ngôn ngữ, điều này cũng tương tự như mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể sau khi hoàn thành đào tạo và đưa vào sử dụng, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói, v.v.
AI Agent thì gần gũi hơn với hình thái tiếp theo của mô hình lớn - có khả năng thực hiện nhiệm vụ độc lập và theo đuổi mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có khả năng ghi nhớ, lập kế hoạch, và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, đối với những điểm đau của AI trong các ngăn xếp khác nhau, Web3 hiện đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm các giai đoạn khác nhau của quy trình mô hình AI.
Một, Cơ bản: Airbnb cho sức mạnh tính toán và dữ liệu
sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết cho việc huấn luyện mô hình và suy diễn mô hình.
Một ví dụ là, một mô hình ngôn ngữ lớn của một công ty công nghệ lớn cần 16.000 GPU hiệu suất cao do một nhà sản xuất chip nổi tiếng sản xuất trong 30 ngày để hoàn thành việc huấn luyện. Giá của phiên bản 80GB dao động từ 30.000 đến 40.000 đô la, điều này cần khoảng 400-700 triệu đô la đầu tư vào phần cứng tính toán (GPU + chip mạng), đồng thời, việc huấn luyện hàng tháng tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng hàng tháng gần 20 triệu đô la.
Việc giải nén sức mạnh tính toán AI cũng chính là lĩnh vực giao thoa đầu tiên giữa Web3 và AI - DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án đại diện cho việc chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó nằm ở chỗ: nền tảng cho phép các cá nhân hoặc thực thể sở hữu tài nguyên GPU nhàn rỗi đóng góp sức mạnh tính toán của họ theo cách phi tập trung không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như nền kinh tế chia sẻ, nhằm nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác đầy đủ. Người dùng cuối cũng vì vậy mà nhận được tài nguyên tính toán hiệu quả với chi phí thấp hơn. Đồng thời, cơ chế staking cũng đảm bảo rằng nếu có vi phạm cơ chế kiểm soát chất lượng hoặc làm gián đoạn mạng, người cung cấp tài nguyên sẽ phải chịu các hình phạt tương ứng.
Điểm nổi bật của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập vừa và nhỏ bên thứ ba, các nhà điều hành mỏ tiền điện tử và các tài nguyên tính toán dư thừa khác, phần cứng khai thác sử dụng cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án đang nỗ lực khởi động thiết bị có ngưỡng gia nhập thấp hơn, như exolab sử dụng các thiết bị địa phương như MacBook, iPhone, iPad để thiết lập mạng tính toán cho việc suy diễn mô hình lớn.
Đối mặt với thị trường dài hạn về sức mạnh tính toán AI:
a. "Về mặt kỹ thuật" thị trường sức mạnh phi tập trung phù hợp hơn cho các bước suy luận. Việc đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi suy luận yêu cầu hiệu suất tính toán GPU tương đối thấp, chẳng hạn như Aethir tập trung vào công việc kết xuất độ trễ thấp và ứng dụng suy luận AI.
b. "Về phía nhu cầu" thì các bên có nhu cầu tính toán nhỏ sẽ không tự đào tạo mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa và tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này rất phù hợp với tài nguyên tính toán rỗi phân tán.
Quyền sở hữu phi tập trung: Ý nghĩa công nghệ của blockchain là chủ sở hữu tài nguyên luôn giữ quyền kiểm soát đối với tài nguyên, điều chỉnh linh hoạt theo nhu cầu, đồng thời thu được lợi nhuận.
Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô ích, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, những khó khăn về nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Cơn khát dữ liệu: Việc huấn luyện mô hình AI phụ thuộc vào việc nhập vào một lượng lớn dữ liệu. Tài liệu công khai cho thấy, một công ty AI nổi tiếng nào đó đã huấn luyện mô hình ngôn ngữ lớn của họ với số lượng tham số lên tới hàng nghìn tỷ.
Chất lượng dữ liệu: Với sự kết hợp của AI và các ngành công nghiệp, tính kịp thời của dữ liệu, sự đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo lĩnh vực, và việc tiếp nhận các nguồn dữ liệu mới như cảm xúc trên mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các tập dữ liệu chất lượng, và đang áp đặt các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp Web3 được thể hiện ở bốn khía cạnh sau:
Thu thập dữ liệu: Việc cung cấp miễn phí dữ liệu thực tế được thu thập đang nhanh chóng cạn kiệt, chi tiêu của các công ty AI cho dữ liệu đang tăng lên hàng năm. Nhưng đồng thời, chi tiêu này không được chuyển lại cho những người đóng góp thực sự cho dữ liệu, các nền tảng hoàn toàn tận hưởng giá trị tạo ra từ dữ liệu, chẳng hạn như một nền tảng mạng xã hội đã đạt được tổng doanh thu 203 triệu USD thông qua việc ký kết các thỏa thuận cấp phép dữ liệu với các công ty AI.
Cho phép những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân tán và cơ chế khuyến khích, để có được dữ liệu cá nhân hơn và có giá trị hơn với chi phí thấp là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung gian để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token.
Vana đã giới thiệu một khái niệm độc đáo về hồ dữ liệu lưu động (DLP), cho phép người dùng tải lên dữ liệu cá nhân của họ (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt chọn có cấp quyền sử dụng dữ liệu này cho các bên thứ ba cụ thể hay không.
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại và @PublicAI trên một nền tảng mạng xã hội để thực hiện việc thu thập dữ liệu.
Tiền xử lý dữ liệu: Trong quá trình xử lý dữ liệu của AI, do dữ liệu thu thập thường ng noisy và chứa lỗi, nên trước khi đào tạo mô hình, dữ liệu phải được làm sạch và chuyển đổi thành định dạng có thể sử dụng, liên quan đến việc tiêu chuẩn hóa, lọc và xử lý các giá trị thiếu. Giai đoạn này là một trong số ít các công đoạn thủ công trong ngành AI, đã phát sinh ra ngành nghề nhân viên gán nhãn dữ liệu, khi yêu cầu về chất lượng dữ liệu của mô hình ngày càng cao, ngưỡng để trở thành nhân viên gán nhãn dữ liệu cũng theo đó mà tăng, và nhiệm vụ này tự nhiên phù hợp với cơ chế khuyến khích phi tập trung của Web3.
Hiện tại, Grass và OpenLayer đang xem xét việc tham gia vào giai đoạn quan trọng này của việc đánh dấu dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến các nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cọc điểm để kiếm thêm điểm.
Quyền riêng tư và bảo mật dữ liệu: Cần làm rõ rằng quyền riêng tư và bảo mật dữ liệu là hai khái niệm khác nhau. Quyền riêng tư dữ liệu liên quan đến việc xử lý dữ liệu nhạy cảm, trong khi bảo mật dữ liệu bảo vệ thông tin dữ liệu khỏi việc truy cập, phá hủy và đánh cắp trái phép. Do đó, lợi thế công nghệ quyền riêng tư Web3 và các tình huống ứng dụng tiềm năng thể hiện ở hai khía cạnh: (1) Huấn luyện dữ liệu nhạy cảm; (2) Hợp tác dữ liệu: Nhiều chủ sở hữu dữ liệu có thể cùng tham gia vào việc huấn luyện AI mà không cần chia sẻ dữ liệu gốc của họ.
Các công nghệ bảo mật phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi đáng tin cậy ( TEE ), chẳng hạn như Super Protocol.
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network.
Công nghệ không biết (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng không biết cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn đang ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một trong những khó khăn hiện tại là chi phí tính toán quá cao, một số ví dụ là:
Khung zkML EZKL cần khoảng 80 phút để tạo ra một chứng thực cho mô hình 1M-nanoGPT.
Theo dữ liệu từ Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.
Lưu trữ dữ liệu: Sau khi có dữ liệu, cần một nơi để lưu trữ dữ liệu trên chuỗi, cũng như LLM được tạo ra từ dữ liệu đó. Vấn đề cốt lõi là khả năng sẵn có của dữ liệu (DA), trước khi nâng cấp Danksharding trên Ethereum, thông lượng của nó là 0.08MB. Trong khi đó, việc huấn luyện mô hình AI và suy diễn thời gian thực thường cần từ 50 đến 100GB thông lượng dữ liệu mỗi giây. Sự chênh lệch quy mô này khiến cho các giải pháp trên chuỗi hiện có không thể đáp ứng được "các ứng dụng AI tiêu tốn tài nguyên."
0g.AI là đại diện cho danh mục này
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Sự kết hợp giữa AI và Web3: Cơ hội mới để xây dựng cơ sở hạ tầng AI phân tán
AI+Web3: Tòa tháp và Quảng trường
TL;DR
Các dự án Web3 về khái niệm AI trở thành mục tiêu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân tán để phối hợp nguồn cung tiềm năng trong đuôi dài - qua dữ liệu, lưu trữ và tính toán; đồng thời xây dựng mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI trong ngành Web3 chủ yếu được sử dụng cho tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung lẫn nhau của cả hai: Web3 hy vọng chống lại sự tập trung của AI, AI hy vọng giúp Web3 mở rộng ra ngoài vòng tròn.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được ấn nút tăng tốc. Cơn sóng do Chatgpt khơi dậy không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh sinh mà còn tạo ra một làn sóng mạnh mẽ trong lĩnh vực Web3.
Dưới sự hỗ trợ của khái niệm AI, thị trường tiền điện tử đã được thúc đẩy rõ rệt về việc huy động vốn. Chỉ trong nửa đầu năm 2024, đã có 64 dự án Web3 + AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt mức huy động vốn cao nhất 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, trang tổng hợp tiền điện tử Coingecko cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD. Những lợi ích rõ ràng từ sự tiến bộ công nghệ AI đã xuất hiện, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%. Hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực thu hút tiền điện tử, Meme: MemeCoin đầu tiên với khái niệm AI Agent - GOAT đã nhanh chóng nổi bật và đạt giá trị 1,4 tỷ USD, thành công trong việc tạo ra cơn sốt AI Meme.
Nghiên cứu và các chủ đề về AI+Web3 cũng đang rất nóng, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, cảm xúc FOMO dường như không theo kịp tốc độ luân chuyển của câu chuyện mới.
AI+Web3, cụm thuật ngữ tràn đầy tiền nóng, cơ hội và ảo tưởng về tương lai này, khó tránh khỏi bị coi như một cuộc hôn nhân sắp đặt do vốn chủ động, chúng ta dường như khó phân biệt dưới chiếc áo choàng lộng lẫy này, rốt cuộc đây là sân chơi của những kẻ đầu cơ, hay là đêm trước khi bình minh bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là liệu có thể trở nên tốt hơn với nhau không? Liệu có thể hưởng lợi từ mô hình của đối phương không? Trong bài viết này, chúng tôi cũng cố gắng đứng trên vai những người đi trước để xem xét cấu trúc này: Web3 có thể phát huy vai trò gì trong từng khâu của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 như thế nào?
Phần 1: Cơ hội gì cho Web3 dưới AI stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về ngăn xếp công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ dễ hiểu hơn: "Mô hình lớn" giống như bộ não của con người, ở giai đoạn đầu, bộ não này thuộc về một em bé mới chào đời, cần quan sát và tiếp nhận lượng thông tin khổng lồ từ thế giới xung quanh để hiểu biết về thế giới, đây là giai đoạn "thu thập" dữ liệu. Do máy tính không có nhiều giác quan như con người như thị giác, thính giác, v.v., trước khi huấn luyện, thông tin không có nhãn quy mô lớn từ bên ngoài cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" đã xây dựng một mô hình có khả năng hiểu và dự đoán, có thể được coi như quá trình trẻ sơ sinh dần dần hiểu và học hỏi từ thế giới bên ngoài. Các tham số của mô hình giống như khả năng ngôn ngữ của trẻ em được điều chỉnh liên tục trong quá trình học tập. Khi nội dung học bắt đầu phân ngành, hoặc khi giao tiếp với con người nhận được phản hồi và điều chỉnh, thì sẽ bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Trẻ em dần lớn lên và khi biết nói, chúng có thể hiểu ý nghĩa và diễn đạt cảm xúc cũng như suy nghĩ của mình trong các cuộc hội thoại mới. Giai đoạn này giống như "suy luận" của mô hình AI lớn, mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ sơ sinh thể hiện cảm xúc, mô tả các đối tượng và giải quyết các vấn đề khác nhau thông qua khả năng ngôn ngữ, điều này cũng tương tự như mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể sau khi hoàn thành đào tạo và đưa vào sử dụng, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói, v.v.
AI Agent thì gần gũi hơn với hình thái tiếp theo của mô hình lớn - có khả năng thực hiện nhiệm vụ độc lập và theo đuổi mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có khả năng ghi nhớ, lập kế hoạch, và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, đối với những điểm đau của AI trong các ngăn xếp khác nhau, Web3 hiện đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm các giai đoạn khác nhau của quy trình mô hình AI.
Một, Cơ bản: Airbnb cho sức mạnh tính toán và dữ liệu
sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết cho việc huấn luyện mô hình và suy diễn mô hình.
Một ví dụ là, một mô hình ngôn ngữ lớn của một công ty công nghệ lớn cần 16.000 GPU hiệu suất cao do một nhà sản xuất chip nổi tiếng sản xuất trong 30 ngày để hoàn thành việc huấn luyện. Giá của phiên bản 80GB dao động từ 30.000 đến 40.000 đô la, điều này cần khoảng 400-700 triệu đô la đầu tư vào phần cứng tính toán (GPU + chip mạng), đồng thời, việc huấn luyện hàng tháng tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng hàng tháng gần 20 triệu đô la.
Việc giải nén sức mạnh tính toán AI cũng chính là lĩnh vực giao thoa đầu tiên giữa Web3 và AI - DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án đại diện cho việc chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó nằm ở chỗ: nền tảng cho phép các cá nhân hoặc thực thể sở hữu tài nguyên GPU nhàn rỗi đóng góp sức mạnh tính toán của họ theo cách phi tập trung không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như nền kinh tế chia sẻ, nhằm nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác đầy đủ. Người dùng cuối cũng vì vậy mà nhận được tài nguyên tính toán hiệu quả với chi phí thấp hơn. Đồng thời, cơ chế staking cũng đảm bảo rằng nếu có vi phạm cơ chế kiểm soát chất lượng hoặc làm gián đoạn mạng, người cung cấp tài nguyên sẽ phải chịu các hình phạt tương ứng.
Điểm nổi bật của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập vừa và nhỏ bên thứ ba, các nhà điều hành mỏ tiền điện tử và các tài nguyên tính toán dư thừa khác, phần cứng khai thác sử dụng cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án đang nỗ lực khởi động thiết bị có ngưỡng gia nhập thấp hơn, như exolab sử dụng các thiết bị địa phương như MacBook, iPhone, iPad để thiết lập mạng tính toán cho việc suy diễn mô hình lớn.
Đối mặt với thị trường dài hạn về sức mạnh tính toán AI:
a. "Về mặt kỹ thuật" thị trường sức mạnh phi tập trung phù hợp hơn cho các bước suy luận. Việc đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi suy luận yêu cầu hiệu suất tính toán GPU tương đối thấp, chẳng hạn như Aethir tập trung vào công việc kết xuất độ trễ thấp và ứng dụng suy luận AI.
b. "Về phía nhu cầu" thì các bên có nhu cầu tính toán nhỏ sẽ không tự đào tạo mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa và tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này rất phù hợp với tài nguyên tính toán rỗi phân tán.
Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô ích, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, những khó khăn về nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Cơn khát dữ liệu: Việc huấn luyện mô hình AI phụ thuộc vào việc nhập vào một lượng lớn dữ liệu. Tài liệu công khai cho thấy, một công ty AI nổi tiếng nào đó đã huấn luyện mô hình ngôn ngữ lớn của họ với số lượng tham số lên tới hàng nghìn tỷ.
Chất lượng dữ liệu: Với sự kết hợp của AI và các ngành công nghiệp, tính kịp thời của dữ liệu, sự đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo lĩnh vực, và việc tiếp nhận các nguồn dữ liệu mới như cảm xúc trên mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các tập dữ liệu chất lượng, và đang áp đặt các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp Web3 được thể hiện ở bốn khía cạnh sau:
Cho phép những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân tán và cơ chế khuyến khích, để có được dữ liệu cá nhân hơn và có giá trị hơn với chi phí thấp là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung gian để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token.
Vana đã giới thiệu một khái niệm độc đáo về hồ dữ liệu lưu động (DLP), cho phép người dùng tải lên dữ liệu cá nhân của họ (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt chọn có cấp quyền sử dụng dữ liệu này cho các bên thứ ba cụ thể hay không.
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại và @PublicAI trên một nền tảng mạng xã hội để thực hiện việc thu thập dữ liệu.
Hiện tại, Grass và OpenLayer đang xem xét việc tham gia vào giai đoạn quan trọng này của việc đánh dấu dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến các nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cọc điểm để kiếm thêm điểm.
Các công nghệ bảo mật phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi đáng tin cậy ( TEE ), chẳng hạn như Super Protocol.
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network.
Công nghệ không biết (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng không biết cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn đang ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một trong những khó khăn hiện tại là chi phí tính toán quá cao, một số ví dụ là:
Khung zkML EZKL cần khoảng 80 phút để tạo ra một chứng thực cho mô hình 1M-nanoGPT.
Theo dữ liệu từ Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.