AI x Ativos de criptografia: da evolução tecnológica à análise panorâmica da cadeia industrial

IA x Cripto: Do zero ao auge

Introdução

O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, estimando-se que tenha elevado a eficiência do trabalho nos EUA em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o design de software atual envolve mais a incorporação de uma estrutura de grandes modelos generalizados no software, que pode ter um desempenho melhor e suportar um espectro mais amplo de entradas e saídas. As tecnologias de aprendizado profundo realmente trouxeram uma nova onda de prosperidade para a indústria de IA, e essa onda também se estendeu à indústria de criptomoedas.

Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto das tecnologias de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada do estado atual e das tendências do desenvolvimento da cadeia industrial, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda. Por fim, será discutida a relação essencial entre criptomoeda e a indústria de IA, organizando o padrão da cadeia industrial de IA relacionada a criptomoedas.

Novos conhecimentos丨AI x Crypto: Do zero ao topo

História do desenvolvimento da indústria de IA

A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, as comunidades acadêmica e industrial desenvolveram várias escolas de pensamento sobre como alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.

As tecnologias modernas de inteligência artificial utilizam principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema em tarefas através de iterações repetidas com base em dados. Os principais passos incluem enviar dados para algoritmos, treinar modelos com esses dados, testar e implementar os modelos, e usar os modelos para realizar tarefas de previsão automatizadas.

Atualmente, a aprendizagem de máquina tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, imitando, respetivamente, o sistema nervoso, o pensamento e o comportamento humanos.

Atualmente, o conexionismo representado pelas redes neurais domina ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Assim que o número de camadas e neurônios ( parâmetros ) é suficientemente alto, há uma grande oportunidade de ajustar tarefas complexas de forma geral. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após várias iterações de dados, os neurônios atingem seu estado ótimo ( parâmetros ), que é também a origem de seu "profundo" - um número suficiente de camadas e neurônios.

Baseada nas tecnologias de aprendizado profundo de redes neurais, também houve várias iterações e evoluções tecnológicas, desde as redes neurais iniciais, passando pelas redes neurais feedforward, RNN, CNN, GAN, e finalmente evoluindo para os grandes modelos modernos, como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor que é usado para codificar todos os modos (, como áudio, vídeo, imagens, etc., ) em valores numéricos correspondentes para representação. Em seguida, esses dados são inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando a multimodalidade.

Novos Conhecimentos丨AI x Crypto: Do zero ao topo

O desenvolvimento da IA passou por três ondas tecnológicas:

A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento de tecnologias simbolistas, que resolveram problemas de processamento de linguagem natural e de diálogo humano-computador. Nesse mesmo período, os sistemas especialistas nasceram, que são sistemas com um conhecimento químico muito forte, realizando inferências através de perguntas para gerar respostas semelhantes às de um especialista em química.

A segunda onda da tecnologia de IA ocorreu em 1997, quando o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3,5 a 2,5. Essa vitória é considerada um marco para a inteligência artificial.

A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning apresentaram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como arquitetura para o aprendizado de representação de dados. Depois, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, esses algoritmos moldaram juntos a terceira onda tecnológica, sendo também o auge do conexionismo.

Muitos eventos icônicos também começaram a surgir juntamente com a exploração e evolução da tecnologia de aprendizado profundo, incluindo:

  • Em 2011, o Watson da IBM venceu os humanos e ganhou o campeonato no programa de quiz "Perigo!".

  • Em 2014, Goodfellow propôs o GAN, que aprendeu a gerar fotos realistas através da competição entre duas redes neurais.

  • Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", causando uma enorme repercussão tanto no meio acadêmico quanto na indústria.

  • Em 2015, a OpenAI foi criada, recebendo um investimento de 1 bilhão de dólares.

  • Em 2016, o AlphaGo, baseado na tecnologia de aprendizado profundo, competiu contra Lee Sedol no jogo de Go, vencendo por 4:1.

  • Em 2017, o Google publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e os modelos de linguagem em grande escala começaram a surgir.

  • Em 2018, a OpenAI lançou o GPT, um dos maiores modelos de linguagem da época, construído com base no algoritmo Transformer.

  • Em 2019, a OpenAI lançou o GPT-2, com 1,5 bilhões de parâmetros.

  • Em 2020, o GPT-3 desenvolvido pela OpenAI possui 175 mil milhões de parâmetros, 100 vezes mais do que o GPT-2.

  • Em 2021, a OpenAI lançou o GPT-4, com 1,76 trilhão de parâmetros, que é 10 vezes mais do que o GPT-3.

  • A aplicação ChatGPT baseada no modelo GPT-4 foi lançada em janeiro de 2023, atingindo cem milhões de utilizadores em março, tornando-se a aplicação a alcançar cem milhões de utilizadores mais rapidamente na história.

Novos conhecimentos丨AI x Crypto: Do zero ao pico

Cadeia da Indústria de Aprendizado Profundo

Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram uma onda de entusiasmo pela inteligência artificial, com muitos jogadores entrando nesse setor, e a demanda do mercado por dados e poder computacional disparou. Portanto, nesta parte do relatório, exploramos principalmente a cadeia de indústria dos algoritmos de aprendizado profundo. Na indústria de IA dominada por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos, qual é o estado atual das partes envolvidas e as relações de oferta e demanda, e como será o desenvolvimento futuro.

Primeiro, é necessário esclarecer que, ao treinar grandes modelos como o GPT com base na tecnologia Transformer, são seguidos três passos.

Antes do treinamento, devido ao uso do Transformer, o conversor precisa converter a entrada de texto em valores numéricos, um processo chamado "Tokenization". Depois, esses valores são chamados de Token. De modo geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado dois Tokens. Esta é também a unidade básica utilizada para a precificação do GPT.

Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada para encontrar os melhores parâmetros de cada neurônio sob este modelo, este processo requer uma grande quantidade de dados e é o processo que mais consome poder computacional, pois os neurônios precisam iterar repetidamente tentando vários parâmetros. Após o treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um segundo treinamento para iterar os parâmetros.

O segundo passo, o ajuste fino. O ajuste fino é dado a um conjunto de dados de menor volume, mas de qualidade muito alta para treinar, essa mudança fará com que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. A etapa de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.

Terceiro passo, aprendizado por reforço. Primeiro, será criado um novo modelo, denominado "modelo de recompensa", cuja finalidade é simples: classificar os resultados gerados. Depois, esse modelo será utilizado para determinar se a saída do grande modelo é de alta qualidade, assim, poderá usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( Mas, às vezes, também é necessário a participação humana para avaliar a qualidade da saída do modelo )

Em suma, durante o processo de treino de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo da GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros; o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.

Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto de generalização. Assim, o desempenho de grandes modelos é principalmente determinado por três fatores: número de parâmetros, quantidade e qualidade dos dados e poder computacional; estes três fatores influenciam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo.

Supondo que o número de parâmetros seja p e a quantidade de dados seja n(, calculando com base na quantidade de Tokens), podemos estimar a quantidade de computação necessária através de uma regra geral, assim podemos prever a situação da potência de cálculo que precisa ser adquirida e o tempo de treinamento.

A capacidade de computação é geralmente expressa em Flops, representando uma operação de ponto flutuante. De acordo com a regra prática, o pré-treinamento de um grande modelo requer cerca de 6np Flops, sendo 6 conhecido como constante da indústria. E a inferência (Inference é o processo em que inserimos um dado e aguardamos a saída do grande modelo ), que é dividido em duas partes: entrada de n tokens e saída de n tokens, portanto, no total, requer aproximadamente 2np Flops.

Nos primórdios, usava-se chips de CPU para treinamento, fornecendo suporte de computação, mas depois começou-se a usar gradualmente GPUs como substitutos, como os chips A100 e H100 da Nvidia. Isso ocorre porque a CPU existe como um cálculo genérico, mas a GPU pode atuar como um cálculo especializado, superando de longe a CPU em eficiência energética. A GPU executa cálculos de ponto flutuante principalmente por meio de um módulo chamado Tensor Core. Assim, chips comuns têm dados de Flops sob precisão FP16 / FP32, o que representa sua principal capacidade de cálculo e é um dos principais indicadores de desempenho do chip.

Podemos ver que essa enorme carga computacional requer várias placas de circuito avançadas para realizar um pré-treinamento, e o número de parâmetros do GPT-4 é dez vezes o do GPT-3, o que significa que, mesmo que a quantidade de dados permaneça inalterada, será necessário comprar dez vezes mais chips. Além disso, o número de tokens do GPT-4 é de 13 trilhões, que também é dez vezes o do GPT-3. No final, o GPT-4 pode precisar de mais de 100 vezes a capacidade computacional dos chips.

No treinamento de grandes modelos, o armazenamento de dados também é um problema, pois a quantidade de dados é enorme, e o espaço de memória das GPUs geralmente é pequeno. Assim, quando o espaço de memória não pode acomodar esses dados, é necessário considerar a largura de banda do chip, ou seja, a velocidade de transferência de dados do disco rígido para a memória. Ao mesmo tempo, como não usaremos apenas um chip, será necessário utilizar o método de aprendizado colaborativo, onde várias GPUs treinam um grande modelo em conjunto, o que envolve a taxa de transferência entre as GPUs. Portanto, muitas vezes, os fatores ou custos que limitam a prática final do treinamento do modelo não são necessariamente a capacidade computacional do chip, mas sim, mais frequentemente, a largura de banda do chip. Como a transferência de dados é lenta, isso pode levar a um aumento no tempo de execução do modelo, o que, por sua vez, aumentará os custos de energia.

Novato Explicações丨AI x Crypto: Do Zero ao Topo

A relação entre Crypto e AI

A blockchain beneficia-se do desenvolvimento da tecnologia ZK, evoluindo para o conceito de descentralização + desconfiança. Voltamos ao início da criação da blockchain, que é a cadeia do Bitcoin. No artigo de Satoshi Nakamoto, ele a chamou primeiramente de sistema de transferência de valor sem confiança. Depois, foi lançado uma plataforma de contratos inteligentes descentralizada, sem confiança e de troca de valor.

Voltando à essência, acreditamos que toda a rede blockchain é uma rede de valor, onde cada transação é uma conversão de valor baseada no token subjacente. Aqui, o valor é refletido na forma de Token, e Tokenomics são as regras que concretizam o valor específico do Token.

Na internet tradicional, a geração de valor é liquidada através do P/E, tendo uma forma final de manifestação, que é o preço das ações. Todo o tráfego, valor e influência formam o fluxo de caixa da empresa, e esse fluxo de caixa é a última manifestação do valor, que é finalmente convertido em P/E refletido no preço das ações e no valor de mercado.

Mas para a rede Ethereum, o ETH, como uma representação de vários valores da rede Ethereum, não só pode gerar um fluxo de caixa estável através do staking, mas também pode atuar como um meio de troca de valor, um meio de armazenamento de valor, bens de consumo para atividades na rede, entre outros. Além disso, também atua como uma camada de proteção de segurança, Restaking, taxas de Gas do ecossistema Layer 2, etc.

Tokenomics é muito importante, a economia dos tokens pode definir o ativo de liquidação do ecossistema (, que é o valor relativo do token nativo da rede ). Embora não possamos precificar cada dimensão, temos uma representação do valor em múltiplas dimensões, que é o preço do token. Esse valor vai muito além da forma de existência de títulos corporativos. Uma vez que os tokens são atribuídos à rede e esses tokens são colocados em circulação, semelhante a todos os Q Coins da Tencent que têm uma quantidade limitada, um mecanismo de deflação e inflação.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Partilhar
Comentar
0/400
GameFiCriticvip
· 11h atrás
Nova tendência de duplo ataque tecnológico
Ver originalResponder0
NeverPresentvip
· 11h atrás
Profundidade tem material de análise indispensável
Ver originalResponder0
fren_with_benefitsvip
· 11h atrás
O futuro já chegou e brilha intensamente
Ver originalResponder0
ProposalManiacvip
· 11h atrás
A tecnologia está sempre em movimento.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)