Projetos Web3 com conceito de IA tornam-se alvos de captação de recursos nos mercados primário e secundário.
As oportunidades do Web3 na indústria de IA manifestam-se na: utilização de incentivos distribuídos para coordenar o fornecimento potencial na cauda longa, através de dados, armazenamento e computação; ao mesmo tempo, a construção de um modelo de código aberto e de um mercado descentralizado para Agentes de IA.
A IA no setor Web3 é principalmente utilizada em finanças on-chain, pagamentos criptográficos, transações, análise de dados e desenvolvimento assistido.
A utilidade do AI+Web3 está na complementaridade entre os dois: o Web3 promete combater a centralização da IA, enquanto a IA promete ajudar o Web3 a expandir seu alcance.
Introdução
Nos últimos dois anos, o desenvolvimento da IA parece ter sido acelerado, e este efeito borboleta provocado pelo Chatgpt não apenas abriu um novo mundo de inteligência artificial generativa, mas também gerou uma onda no Web3 do outro lado.
Com o conceito de IA em destaque, a recuperação do financiamento no mercado de criptomoedas, que está a desacelerar, é bastante evidente. Apenas no primeiro semestre de 2024, foram financiados 64 projetos Web3+IA, sendo que o sistema operacional baseado em inteligência artificial Zyber365 alcançou um valor máximo de financiamento de 100 milhões de dólares na sua rodada A.
O mercado secundário está mais próspero, os dados dos sites de agregação de cripto mostram que, em pouco mais de um ano, o valor total de mercado da pista de AI atingiu 48,5 bilhões de dólares, com um volume de negociação de 8,6 bilhões de dólares em 24 horas; os benefícios claros trazidos pelos avanços das tecnologias de AI são evidentes, após o lançamento do modelo de texto para vídeo Sora da OpenAI, o preço médio do setor de AI subiu 151%; o efeito da AI também se espalhou para um dos segmentos que atraem capital em criptomoedas, Meme: o primeiro conceito de MemeCoin com AI Agent ------ GOAT rapidamente se tornou popular e alcançou uma avaliação de 1,4 bilhão de dólares, gerando um grande entusiasmo por Memes de AI.
A pesquisa e os tópicos sobre AI+Web3 também estão em alta, desde AI+Depin até AI Memecoin, passando pelos atuais AI Agent e AI DAO, a emoção FOMO já não consegue acompanhar a velocidade da rotação das novas narrativas.
AI+Web3, esta combinação de termos repleta de dinheiro fácil, oportunidades e fantasias futuras, é inevitavelmente vista como um casamento arranjado mediado pelo capital; parece-nos difícil distinguir, sob este manto esplêndido, se realmente se trata de um palco para especuladores ou da véspera de uma explosão ao amanhecer?
Para responder a esta questão, uma reflexão fundamental para ambas as partes é: será que a presença do outro tornará tudo melhor? Será que é possível beneficiar-se dos padrões do outro? Neste artigo, também tentamos, com a ajuda de predecessores, examinar este padrão: como o Web3 pode desempenhar um papel em todas as camadas da pilha de tecnologia de IA, e o que a IA pode trazer de novo ao Web3?
Parte.1 Quais são as oportunidades do Web3 sob a pilha de IA?
Antes de abordar este tópico, precisamos entender a pilha tecnológica dos grandes modelos de IA:
Expresse todo o processo em uma linguagem mais simples: "O 'grande modelo' é como o cérebro humano, nas fases iniciais, esse cérebro pertence a um bebê que acabou de chegar ao mundo, precisando observar e absorver uma enorme quantidade de informações do ambiente para entender este mundo, essa é a fase de 'coleta' de dados; como os computadores não possuem a visão, audição e outros sentidos humanos, antes do treinamento, as enormes informações não rotuladas do ambiente precisam ser convertidas através de 'pré-processamento' em um formato de informação que o computador possa entender e utilizar.
Após inserir os dados, a IA construiu um modelo com capacidade de compreensão e previsão através de "treinamento", o que pode ser visto como o processo em que um bebê gradualmente compreende e aprende sobre o mundo exterior. Os parâmetros do modelo são como a capacidade linguística do bebê, que é ajustada continuamente durante o processo de aprendizado. Quando o conteúdo de aprendizado começa a ser dividido em disciplinas ou quando se comunica com outras pessoas obtendo feedback e correções, entra na fase de "ajuste fino" do grande modelo.
As crianças, ao crescerem e aprenderem a falar, conseguem entender o significado nas novas conversas e expressar seus sentimentos e pensamentos. Esta fase é semelhante à "razão" dos grandes modelos de IA, onde o modelo consegue prever e analisar novas entradas de linguagem e texto. Os bebês expressam sentimentos, descrevem objetos e resolvem vários problemas através da habilidade linguística, o que também é similar ao uso de grandes modelos de IA após o treinamento na fase de raciocínio aplicada a diversas tarefas específicas, como classificação de imagens, reconhecimento de voz, entre outros.
O Agente de IA está mais próximo da próxima forma do grande modelo - capaz de executar tarefas de forma independente e perseguir objetivos complexos, não apenas possuindo a capacidade de pensar, mas também podendo lembrar, planejar e interagir com o mundo usando ferramentas.
Atualmente, em resposta aos pontos problemáticos da IA em várias pilhas, o Web3 está atualmente a formar um ecossistema multilayer, interconectado, que abrange todas as etapas do fluxo de modelos de IA.
( Uma, Camada Básica: Airbnb de Poder Computacional e Dados
)# Poder de Cálculo
Atualmente, um dos maiores custos da IA é a potência computacional e a energia necessária para treinar modelos e realizar inferência.
Um exemplo é que o LLAMA3 da Meta precisa de 16.000 GPUs H100 produzidas pela NVIDIA###, que é uma unidade de processamento gráfico de topo projetada para cargas de trabalho de inteligência artificial e computação de alto desempenho.### O treinamento leva 30 dias para ser concluído. O preço unitário da versão de 80GB varia entre 30.000 e 40.000 dólares, o que requer um investimento em hardware de computação de 400 a 700 milhões de dólares( GPU + chip de rede), ao mesmo tempo, o treinamento mensal consome 1,6 bilhões de quilowatts-hora, com despesas de energia de quase 20 milhões de dólares por mês.
A descompressão do poder computacional de IA é precisamente uma das áreas onde o Web3 se cruzou pela primeira vez com a IA ------ DePin( rede de infraestrutura física descentralizada) atualmente, um site de dados já listou mais de 1400 projetos, entre os quais os projetos representativos de compartilhamento de poder de GPU incluem io.net, Aethir, Akash, Render Network, entre outros.
A sua lógica principal é: a plataforma permite que indivíduos ou entidades com recursos de GPU ociosos contribuam com sua capacidade de computação de forma descentralizada e sem necessidade de autorização, através de um mercado online semelhante ao Uber ou Airbnb, aumentando a utilização de recursos de GPU que não estão sendo plenamente utilizados, e os usuários finais também obtêm, assim, recursos de computação eficientes a um custo mais baixo; ao mesmo tempo, o mecanismo de staking também garante que, se houver violação do mecanismo de controle de qualidade ou interrupção da rede, os provedores de recursos enfrentem as penalidades correspondentes.
As suas características são:
Agregar recursos de GPU ociosos: Os fornecedores são principalmente operadores de centros de dados independentes de pequeno e médio porte, fazendas de criptomoedas, etc., com recursos de computação excedentes, hardware de mineração com mecanismo de consenso PoS, como máquinas de mineração FileCoin e ETH. Atualmente, também há projetos dedicados a iniciar equipamentos com barreiras de entrada mais baixas, como o exolab, que utiliza dispositivos locais como MacBook, iPhone, iPad, etc., para estabelecer uma rede de computação para a inferência de grandes modelos.
Enfrentando o mercado de cauda longa da computação AI:
a. "Do ponto de vista técnico", o mercado de poder computacional descentralizado é mais adequado para etapas de inferência. O treinamento depende mais da capacidade de processamento de dados proporcionada por clusters de GPU de grande escala, enquanto a inferência requer um desempenho computacional de GPU relativamente baixo, como Aethir, que se concentra em trabalhos de renderização de baixa latência e aplicações de inferência de IA.
b. No que diz respeito à «demanda», os pequenos e médios consumidores de poder computacional não treinarão individualmente os seus próprios grandes modelos, mas apenas escolherão otimizar e ajustar finamente em torno de alguns grandes modelos de topo, sendo que esses cenários são naturalmente adequados para recursos de poder computacional ocioso distribuídos.
Propriedade descentralizada: O significado técnico da blockchain reside no fato de que os proprietários de recursos mantêm sempre o controle sobre seus recursos, ajustando-se de forma flexível de acordo com a demanda, ao mesmo tempo em que obtêm lucros.
(# Dados
Os dados são a base da IA. Sem dados, o cálculo é tão inútil quanto um tronco flutuante, e a relação entre dados e modelos é como o ditado "Garbage in, Garbage out"; a quantidade de dados e a qualidade da entrada determinam a qualidade da saída final do modelo. Para o treinamento dos modelos de IA atuais, os dados determinam a capacidade linguística do modelo, a capacidade de compreensão, e até mesmo a sua visão de mundo e a sua expressividade humanizada. Atualmente, as dificuldades na demanda por dados de IA estão principalmente focadas nos seguintes quatro aspectos:
Fome de dados: O treinamento de modelos de IA depende de uma grande quantidade de dados de entrada. Dados públicos mostram que a OpenAI treinou o GPT-4 com um número de parâmetros na casa dos trilhões.
Qualidade dos dados: Com a integração da IA em várias indústrias, a atualidade dos dados, a diversidade dos dados, a especialização de dados específicos de setores e a incorporação de novas fontes de dados, como a emoção nas redes sociais, também impuseram novas exigências à sua qualidade.
Questões de privacidade e conformidade: Atualmente, vários países e empresas estão gradualmente reconhecendo a importância de conjuntos de dados de qualidade e estão a impor restrições na coleta de conjuntos de dados.
Custo elevado de processamento de dados: grande volume de dados, processo de tratamento complexo. Dados públicos mostram que mais de 30% dos custos de P&D das empresas de IA são utilizados na coleta e processamento de dados básicos.
Atualmente, as soluções web3 manifestam-se nas seguintes quatro áreas:
Coleta de dados: A capacidade de fornecer dados do mundo real de forma gratuita está rapidamente se esgotando, e os gastos das empresas de IA com dados estão aumentando ano após ano. No entanto, ao mesmo tempo, esses gastos não estão retornando aos verdadeiros contribuidores dos dados, pois as plataformas desfrutam inteiramente da criação de valor que os dados proporcionam, como uma plataforma que gerou uma receita total de 203 milhões de dólares através de um contrato de licença de dados com uma empresa de IA.
Permitir que os usuários que realmente contribuem participem da criação de valor trazido pelos dados, assim como adquirir dados mais privados e valiosos de forma de baixo custo por meio de redes distribuídas e mecanismos de incentivo, é a visão do Web3.
O Grass é uma camada de dados e rede descentralizada, onde os usuários podem executar nós Grass, contribuindo com largura de banda ociosa e fluxo de retransmissão para capturar dados em tempo real de toda a Internet e receber recompensas em tokens;
Vana introduziu um conceito único de pool de liquidez de dados )DLP###, onde os usuários podem fazer upload de seus dados privados (, como registros de compras, hábitos de navegação, atividades em redes sociais, etc. ) para um DLP específico, e escolher de forma flexível se autorizam ou não o uso desses dados por terceiros específicos;
No PublicAI, os usuários podem usar (Web3 como etiqueta de classificação em X e @PublicAI para realizar a coleta de dados.
Pré-processamento de dados: No processo de tratamento de dados da IA, devido ao fato de que os dados coletados geralmente são ruidosos e contêm erros, é necessário limpá-los e convertê-los em um formato utilizável antes de treinar o modelo, envolvendo tarefas repetitivas de normalização, filtragem e tratamento de valores ausentes. Esta fase é uma das poucas etapas manuais na indústria de IA, que deu origem à profissão de anotador de dados, e à medida que a exigência dos modelos em relação à qualidade dos dados aumenta, o nível de entrada para os anotadores de dados também se eleva, e essa tarefa é naturalmente adequada ao mecanismo de incentivo descentralizado do Web3.
Atualmente, a Grass e a OpenLayer estão considerando a inclusão da rotulagem de dados nesta etapa crucial.
A Synesis propôs o conceito de "Train2earn", enfatizando a qualidade dos dados, onde os usuários podem obter recompensas ao fornecer dados rotulados, comentários ou outras formas de entrada.
O projeto de rotulagem de dados Sapien gamifica as tarefas de rotulagem e permite que os usuários apostem pontos para ganhar mais pontos.
Privacidade e Segurança de Dados: É necessário esclarecer que privacidade e segurança de dados são dois conceitos diferentes. A privacidade de dados envolve o tratamento de dados sensíveis, enquanto a segurança de dados protege as informações contra acesso, destruição e roubo não autorizados. Assim, as vantagens das tecnologias de privacidade Web3 e os cenários de aplicação potenciais se manifestam em dois aspectos: )1#AI或# treinamento de dados sensíveis; (2) colaboração de dados: vários proprietários de dados podem participar conjuntamente do treinamento de IA, sem necessidade de compartilhar seus dados originais.
As tecnologias de privacidade mais comuns no Web3 atualmente incluem:
Ambiente de Execução Confiável ( TEE ), como o Super Protocol;
Criptografia homomórfica totalmente (FHE), como BasedAI, Fhenix.io ou Inco Network;
Tecnologia de conhecimento nulo ( zk ), como o Reclaim Protocol que utiliza a tecnologia zkTLS, gera provas de conhecimento nulo para tráfego HTTPS, permitindo que os usuários importem de forma segura atividades, reputação e dados de identidade de sites externos, sem expor informações sensíveis.
No entanto, atualmente este campo ainda está em uma fase inicial, a maioria dos projetos ainda está em exploração, e um dos dilemas atuais é o alto custo de computação, alguns exemplos são:
O framework zkML EZKL leva cerca de 80 minutos para gerar uma prova de um modelo 1M-nanoGPT.
De acordo com os dados da Modulus Labs, os custos do zkML são mais de 1000 vezes superiores aos da computação pura.
Armazenamento de dados: Depois de ter os dados, é necessário um lugar para armazená-los na cadeia, bem como o LLM gerado a partir desses dados. Com a disponibilidade de dados (DA) como a questão central, antes da atualização de Danksharding do Ethereum, sua taxa de transferência era de 0,08 MB. Ao mesmo tempo, o treinamento de modelos de IA e a inferência em tempo real geralmente requerem uma taxa de transferência de dados de 50 a 100 GB por segundo. Essa diferença de magnitude torna as soluções existentes na cadeia inadequadas ao enfrentar.
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Curtidas
Recompensa
8
6
Compartilhar
Comentário
0/400
TokenomicsTinfoilHat
· 6h atrás
Está completamente sem limites.
Ver originalResponder0
DataBartender
· 6h atrás
Outra vez a fazer promessas vazias.
Ver originalResponder0
0xSherlock
· 6h atrás
Estou farto... tudo a especular sobre conceitos.
Ver originalResponder0
PhantomMiner
· 6h atrás
Mais uma vez a desenhar sonhos. Quem vai aceitar?
Ver originalResponder0
LiquidatedTwice
· 6h atrás
Caramba, isso não é apenas uma promoção de template?
Tendências da fusão AI+Web3: a descentralização dos dados de poder de computação torna-se o foco
AI+Web3: Torres e Praças
TL;DR
Projetos Web3 com conceito de IA tornam-se alvos de captação de recursos nos mercados primário e secundário.
As oportunidades do Web3 na indústria de IA manifestam-se na: utilização de incentivos distribuídos para coordenar o fornecimento potencial na cauda longa, através de dados, armazenamento e computação; ao mesmo tempo, a construção de um modelo de código aberto e de um mercado descentralizado para Agentes de IA.
A IA no setor Web3 é principalmente utilizada em finanças on-chain, pagamentos criptográficos, transações, análise de dados e desenvolvimento assistido.
A utilidade do AI+Web3 está na complementaridade entre os dois: o Web3 promete combater a centralização da IA, enquanto a IA promete ajudar o Web3 a expandir seu alcance.
Introdução
Nos últimos dois anos, o desenvolvimento da IA parece ter sido acelerado, e este efeito borboleta provocado pelo Chatgpt não apenas abriu um novo mundo de inteligência artificial generativa, mas também gerou uma onda no Web3 do outro lado.
Com o conceito de IA em destaque, a recuperação do financiamento no mercado de criptomoedas, que está a desacelerar, é bastante evidente. Apenas no primeiro semestre de 2024, foram financiados 64 projetos Web3+IA, sendo que o sistema operacional baseado em inteligência artificial Zyber365 alcançou um valor máximo de financiamento de 100 milhões de dólares na sua rodada A.
O mercado secundário está mais próspero, os dados dos sites de agregação de cripto mostram que, em pouco mais de um ano, o valor total de mercado da pista de AI atingiu 48,5 bilhões de dólares, com um volume de negociação de 8,6 bilhões de dólares em 24 horas; os benefícios claros trazidos pelos avanços das tecnologias de AI são evidentes, após o lançamento do modelo de texto para vídeo Sora da OpenAI, o preço médio do setor de AI subiu 151%; o efeito da AI também se espalhou para um dos segmentos que atraem capital em criptomoedas, Meme: o primeiro conceito de MemeCoin com AI Agent ------ GOAT rapidamente se tornou popular e alcançou uma avaliação de 1,4 bilhão de dólares, gerando um grande entusiasmo por Memes de AI.
A pesquisa e os tópicos sobre AI+Web3 também estão em alta, desde AI+Depin até AI Memecoin, passando pelos atuais AI Agent e AI DAO, a emoção FOMO já não consegue acompanhar a velocidade da rotação das novas narrativas.
AI+Web3, esta combinação de termos repleta de dinheiro fácil, oportunidades e fantasias futuras, é inevitavelmente vista como um casamento arranjado mediado pelo capital; parece-nos difícil distinguir, sob este manto esplêndido, se realmente se trata de um palco para especuladores ou da véspera de uma explosão ao amanhecer?
Para responder a esta questão, uma reflexão fundamental para ambas as partes é: será que a presença do outro tornará tudo melhor? Será que é possível beneficiar-se dos padrões do outro? Neste artigo, também tentamos, com a ajuda de predecessores, examinar este padrão: como o Web3 pode desempenhar um papel em todas as camadas da pilha de tecnologia de IA, e o que a IA pode trazer de novo ao Web3?
Parte.1 Quais são as oportunidades do Web3 sob a pilha de IA?
Antes de abordar este tópico, precisamos entender a pilha tecnológica dos grandes modelos de IA:
Expresse todo o processo em uma linguagem mais simples: "O 'grande modelo' é como o cérebro humano, nas fases iniciais, esse cérebro pertence a um bebê que acabou de chegar ao mundo, precisando observar e absorver uma enorme quantidade de informações do ambiente para entender este mundo, essa é a fase de 'coleta' de dados; como os computadores não possuem a visão, audição e outros sentidos humanos, antes do treinamento, as enormes informações não rotuladas do ambiente precisam ser convertidas através de 'pré-processamento' em um formato de informação que o computador possa entender e utilizar.
Após inserir os dados, a IA construiu um modelo com capacidade de compreensão e previsão através de "treinamento", o que pode ser visto como o processo em que um bebê gradualmente compreende e aprende sobre o mundo exterior. Os parâmetros do modelo são como a capacidade linguística do bebê, que é ajustada continuamente durante o processo de aprendizado. Quando o conteúdo de aprendizado começa a ser dividido em disciplinas ou quando se comunica com outras pessoas obtendo feedback e correções, entra na fase de "ajuste fino" do grande modelo.
As crianças, ao crescerem e aprenderem a falar, conseguem entender o significado nas novas conversas e expressar seus sentimentos e pensamentos. Esta fase é semelhante à "razão" dos grandes modelos de IA, onde o modelo consegue prever e analisar novas entradas de linguagem e texto. Os bebês expressam sentimentos, descrevem objetos e resolvem vários problemas através da habilidade linguística, o que também é similar ao uso de grandes modelos de IA após o treinamento na fase de raciocínio aplicada a diversas tarefas específicas, como classificação de imagens, reconhecimento de voz, entre outros.
O Agente de IA está mais próximo da próxima forma do grande modelo - capaz de executar tarefas de forma independente e perseguir objetivos complexos, não apenas possuindo a capacidade de pensar, mas também podendo lembrar, planejar e interagir com o mundo usando ferramentas.
Atualmente, em resposta aos pontos problemáticos da IA em várias pilhas, o Web3 está atualmente a formar um ecossistema multilayer, interconectado, que abrange todas as etapas do fluxo de modelos de IA.
( Uma, Camada Básica: Airbnb de Poder Computacional e Dados
)# Poder de Cálculo
Atualmente, um dos maiores custos da IA é a potência computacional e a energia necessária para treinar modelos e realizar inferência.
Um exemplo é que o LLAMA3 da Meta precisa de 16.000 GPUs H100 produzidas pela NVIDIA###, que é uma unidade de processamento gráfico de topo projetada para cargas de trabalho de inteligência artificial e computação de alto desempenho.### O treinamento leva 30 dias para ser concluído. O preço unitário da versão de 80GB varia entre 30.000 e 40.000 dólares, o que requer um investimento em hardware de computação de 400 a 700 milhões de dólares( GPU + chip de rede), ao mesmo tempo, o treinamento mensal consome 1,6 bilhões de quilowatts-hora, com despesas de energia de quase 20 milhões de dólares por mês.
A descompressão do poder computacional de IA é precisamente uma das áreas onde o Web3 se cruzou pela primeira vez com a IA ------ DePin( rede de infraestrutura física descentralizada) atualmente, um site de dados já listou mais de 1400 projetos, entre os quais os projetos representativos de compartilhamento de poder de GPU incluem io.net, Aethir, Akash, Render Network, entre outros.
A sua lógica principal é: a plataforma permite que indivíduos ou entidades com recursos de GPU ociosos contribuam com sua capacidade de computação de forma descentralizada e sem necessidade de autorização, através de um mercado online semelhante ao Uber ou Airbnb, aumentando a utilização de recursos de GPU que não estão sendo plenamente utilizados, e os usuários finais também obtêm, assim, recursos de computação eficientes a um custo mais baixo; ao mesmo tempo, o mecanismo de staking também garante que, se houver violação do mecanismo de controle de qualidade ou interrupção da rede, os provedores de recursos enfrentem as penalidades correspondentes.
As suas características são:
Agregar recursos de GPU ociosos: Os fornecedores são principalmente operadores de centros de dados independentes de pequeno e médio porte, fazendas de criptomoedas, etc., com recursos de computação excedentes, hardware de mineração com mecanismo de consenso PoS, como máquinas de mineração FileCoin e ETH. Atualmente, também há projetos dedicados a iniciar equipamentos com barreiras de entrada mais baixas, como o exolab, que utiliza dispositivos locais como MacBook, iPhone, iPad, etc., para estabelecer uma rede de computação para a inferência de grandes modelos.
Enfrentando o mercado de cauda longa da computação AI:
a. "Do ponto de vista técnico", o mercado de poder computacional descentralizado é mais adequado para etapas de inferência. O treinamento depende mais da capacidade de processamento de dados proporcionada por clusters de GPU de grande escala, enquanto a inferência requer um desempenho computacional de GPU relativamente baixo, como Aethir, que se concentra em trabalhos de renderização de baixa latência e aplicações de inferência de IA.
b. No que diz respeito à «demanda», os pequenos e médios consumidores de poder computacional não treinarão individualmente os seus próprios grandes modelos, mas apenas escolherão otimizar e ajustar finamente em torno de alguns grandes modelos de topo, sendo que esses cenários são naturalmente adequados para recursos de poder computacional ocioso distribuídos.
(# Dados
Os dados são a base da IA. Sem dados, o cálculo é tão inútil quanto um tronco flutuante, e a relação entre dados e modelos é como o ditado "Garbage in, Garbage out"; a quantidade de dados e a qualidade da entrada determinam a qualidade da saída final do modelo. Para o treinamento dos modelos de IA atuais, os dados determinam a capacidade linguística do modelo, a capacidade de compreensão, e até mesmo a sua visão de mundo e a sua expressividade humanizada. Atualmente, as dificuldades na demanda por dados de IA estão principalmente focadas nos seguintes quatro aspectos:
Fome de dados: O treinamento de modelos de IA depende de uma grande quantidade de dados de entrada. Dados públicos mostram que a OpenAI treinou o GPT-4 com um número de parâmetros na casa dos trilhões.
Qualidade dos dados: Com a integração da IA em várias indústrias, a atualidade dos dados, a diversidade dos dados, a especialização de dados específicos de setores e a incorporação de novas fontes de dados, como a emoção nas redes sociais, também impuseram novas exigências à sua qualidade.
Questões de privacidade e conformidade: Atualmente, vários países e empresas estão gradualmente reconhecendo a importância de conjuntos de dados de qualidade e estão a impor restrições na coleta de conjuntos de dados.
Custo elevado de processamento de dados: grande volume de dados, processo de tratamento complexo. Dados públicos mostram que mais de 30% dos custos de P&D das empresas de IA são utilizados na coleta e processamento de dados básicos.
Atualmente, as soluções web3 manifestam-se nas seguintes quatro áreas:
Permitir que os usuários que realmente contribuem participem da criação de valor trazido pelos dados, assim como adquirir dados mais privados e valiosos de forma de baixo custo por meio de redes distribuídas e mecanismos de incentivo, é a visão do Web3.
O Grass é uma camada de dados e rede descentralizada, onde os usuários podem executar nós Grass, contribuindo com largura de banda ociosa e fluxo de retransmissão para capturar dados em tempo real de toda a Internet e receber recompensas em tokens;
Vana introduziu um conceito único de pool de liquidez de dados )DLP###, onde os usuários podem fazer upload de seus dados privados (, como registros de compras, hábitos de navegação, atividades em redes sociais, etc. ) para um DLP específico, e escolher de forma flexível se autorizam ou não o uso desses dados por terceiros específicos;
No PublicAI, os usuários podem usar (Web3 como etiqueta de classificação em X e @PublicAI para realizar a coleta de dados.
Atualmente, a Grass e a OpenLayer estão considerando a inclusão da rotulagem de dados nesta etapa crucial.
A Synesis propôs o conceito de "Train2earn", enfatizando a qualidade dos dados, onde os usuários podem obter recompensas ao fornecer dados rotulados, comentários ou outras formas de entrada.
O projeto de rotulagem de dados Sapien gamifica as tarefas de rotulagem e permite que os usuários apostem pontos para ganhar mais pontos.
As tecnologias de privacidade mais comuns no Web3 atualmente incluem:
Ambiente de Execução Confiável ( TEE ), como o Super Protocol;
Criptografia homomórfica totalmente (FHE), como BasedAI, Fhenix.io ou Inco Network;
Tecnologia de conhecimento nulo ( zk ), como o Reclaim Protocol que utiliza a tecnologia zkTLS, gera provas de conhecimento nulo para tráfego HTTPS, permitindo que os usuários importem de forma segura atividades, reputação e dados de identidade de sites externos, sem expor informações sensíveis.
No entanto, atualmente este campo ainda está em uma fase inicial, a maioria dos projetos ainda está em exploração, e um dos dilemas atuais é o alto custo de computação, alguns exemplos são:
O framework zkML EZKL leva cerca de 80 minutos para gerar uma prova de um modelo 1M-nanoGPT.
De acordo com os dados da Modulus Labs, os custos do zkML são mais de 1000 vezes superiores aos da computação pura.