Novo sistema de megabytes da Meta: um avanço na superação de obstáculos para GPTs

2023-06-07, 00:51

Os GPTs podem traduzir textos, resumir dados e criar conteúdo adequado para diversos fins, como marketing.

A Megabyte da Meta tem como objetivo superar os obstáculos que outros sistemas GPT, como o GPT-4 da OpenAi e o ChatGPT, enfrentam.

Megabyte é diferente de outros modelos GPT porque não utiliza tokenização.

O modelo Megabyte é composto por um transformador local, um incorporador de remendo e um transformador global.

Introdução

A inovação tecnológica revolucionou a forma como os seres humanos interagem e realizam várias tarefas, incluindo as pessoais ou comerciais. A inteligência artificial, também chamada de aprendizado de máquina, é capaz de realizar diferentes atividades, como escrever ensaios ou fazer planos financeiros. Neste artigo, discutiremos a importância do Generative Pre-trained Transformer (GPT) no processamento de linguagem natural e suas aplicações. Também nos concentraremos no Sistema de megabytes da Meta, que supera vários obstáculos para GPTs.

Importância dos GPTs no processamento de linguagem natural

Os transformadores treinados de forma generativa (GPTs) têm muitos benefícios em vários setores da economia, pois aumentam a produtividade e aumentam a consciência social. Primeiro, é importante saber que os GPTs criam textos semelhantes aos humanos em vários assuntos.

Os GPTs utilizam vários parâmetros para processar dados e apresentá-los de formas que são fáceis de entender. Existem diferentes aplicações que utilizam GPTs para criar valor para os seres humanos e a sociedade em geral.

Basicamente, os GPTs são componentes importantes de aplicações impulsionadas por inteligência artificial que traduzem informações de um idioma para outro. Eles também geram e resumem grandes volumes de dados em informações fáceis de entender. Em alguns casos, os GPTs permitem a geração de conteúdo adequado para diferentes finalidades, como poemas, posts de blog, ensaios acadêmicos, material de marketing e memes, entre outros.

As empresas também podem usar GPTs para alimentar chatbots e assistentes virtuais que podem interagir com pessoas reais de forma conversacional, ajudando-as a entender diferentes aspectos comerciais ou sociais. Para fins comerciais, eles podem gerar análises de sentimento sobre qualquer tópico ou campo de interesse. Como exemplo, existem protocolos impulsionados por IA que geram sentimentos de mercado de criptomoedas que permitem aos traders e outros investidores tomarem decisões de investimento informadas.

Outros casos de uso de GPTs em processamento de linguagem natural e aplicações de IA incluem criação de conteúdo para marketing de produtos, atendimento ao cliente, análise de informações financeiras, bem como extração e relatórios de dados, entre outros.

Limitações dos modelos tradicionais GPT

Embora haja várias tipos de GPTs criado por diferentes plataformas como ChatGPT e Openai, a maioria delas tem sérias limitações.

Os atuais melhores modelos de IA Generativa incluindo o GPT-4 da OpenAI e o ChatGPT utilize a arquitetura Transformer que foi introduzida pelos pesquisadores do Google. O aumento na escala da autoatenção e no comprimento das entradas e saídas cria um desafio, pois cada palavra precisa de atenção. Basicamente, este sistema funciona bem quando poucas palavras são usadas como entrada.

No entanto, o método Megabyte usa uma arquitetura diferente que divide sequências de entradas e saídas em patches em vez de tokens. Como tal, pode lidar com muito mais palavras do que os modelos atuais.

Além disso, a abordagem da Meta resolve o problema de escalabilidade, que é comum na maioria dos modelos atualmente no mercado. Basicamente, o modelo Megabyte permite que uma única rede feedforward atue em um patch consistindo de múltiplos tokens. Portanto, o sistema Megabyte da Meta funciona em paralelo em vez de serialmente. Isso aumenta sua eficiência, mesmo que o modelo base tenha muitos parâmetros.

Leia também: O Meta Metaverse: Em que está a trabalhar a empresa?

Alguns dos modelos, como redes neurais profundas, são complexos de entender e explicar, o que pode reduzir a confiança, a responsabilidade e levantar preocupações éticas. Portanto, há uma necessidade de modelos mais simples, como o Meta Ai, que são fáceis de explicar. Isso ocorre porque a maioria dos usuários gostaria de saber como um sistema funciona para depositar sua confiança nele.

Outra questão é que alguns desses modelos requerem muitos dados para serem validados e treinados. No entanto, tais dados podem não estar disponíveis, o que reduz a sua eficiência. Além disso, questões relacionadas com a privacidade, viés, ruído, segurança, bem como a incompletude dos dados afetam negativamente a robustez e desempenho da maioria dos modelos GPT.

A maioria dos modelos de IA tradicionais são caros e consomem muita energia ao fazer os cálculos. Isso ocorre porque a maioria dos sistemas é intensiva em computação. Como tal, consomem muitos recursos e aumentam os custos ambientais.

Além disso, a maioria desses modelos tem baixa interoperabilidade devido às diferenças em sua padronização. Assim, é muito difícil para eles se integrarem, uma vez que utilizam diferentes idiomas, estruturas e formatos. No entanto, formatos abertos como ONNX ou compiladores universais podem aprimorar sua comunicação.

É importante perceber que a arquitetura do Meta AI é criada de forma a superar a maioria destes problemas.

Sistema Megabyte da Meta

A Meta AI desenvolveu um novo Sistema GPT chamado Megabyte com o objetivo de contornar a tokenização que a maioria dos modelos GPT usa. Seu sistema gerador pré-treinado de transformadores (GPT) processa grandes volumes de dados como vídeos e textos, como romances, sem usar a tokenização.

Como ponto de partida, a tokenização funciona de maneira semelhante à compactação de arquivos, convertendo grandes quantidades de dados em tokens. O transformador processa os tokens para criar tokens de saída que o sistema decodifica.

Normalmente, a tokenização permite que os modelos de IA convertam grandes sequências de dados em números. Por exemplo, um sistema pode converter uma frase como “Minha cor favorita é vermelha” em uma sequência de tokens como 3666, 4004, 3124, 318, 2266, 13”, que é então processada.

No entanto, com este método há um limite na quantidade de dados que processa. Por exemplo, o limite do GPT-3.5 é entre 3.000 e 4.000 palavras, enquanto o do GPT-4 é entre 24.000 e 32.000.

Por outro lado, Meta abandonou a tokenização em favor da nova arquitetura de previsão de várias camadas, que depende da modelagem de ponta a ponta de mais de um milhão de bytes de dados. Isso é uma grande conquista considerando que ele pode processar um documento composto por até 750.000 palavras. Isso significa que o sistema Megabyte pode processar dados contidos em três romances de tamanho médio.

Como observado, o Megabyte supera os obstáculos da tokenização decorrentes de seus limites rígidos de dados, muito tempo necessário para treinar sistemas e alto consumo de energia. Além disso, sem tokenização, é possível treinar modelos de IA para suportar idiomas não ingleses que podem ser codificados nos caracteres padrão de 8 bits, por exemplo.

A inteligência artificial de cripto da Meta expandirá as oportunidades existentes à medida que democratiza ainda mais diversas tecnologias blockchain. Por exemplo, os desenvolvedores podem introduzir bots de negociação de criptomoedas em seus idiomas nativos, como russo ou francês. Mais importante ainda, as Organizações Autônomas Descentralizadas (DAOs) podem codificar seus protocolos em idiomas locais também.

Como funciona o sistema Meta Megabyte

O Megabyte, a arquitetura de decodificador multiescala, modela sequências de mais de 1 milhão de bytes, mantendo a diferenciabilidade de ponta a ponta. Ele usa transformadores multiescala que incorporam diferentes níveis em sua arquitetura, modelando assim padrões globais e locais nos dados.

Basicamente, o modelo Megabyte é composto por três componentes, nomeadamente um módulo local, um incorporador de patch e um módulo global (transformador global). O módulo local, também chamado de transformador local, prevê os bytes dentro de cada patch, enquanto o incorporador é responsável por codificar os patches através da combinação de incorporações de bytes. Por fim, o módulo global, também conhecido como transformador global, introduz e produz as várias representações de patches.

O diagrama a seguir mostra uma visão geral do Megabyte.

O diagrama acima mostra alguns dos principais componentes do Megabyte. Um experimento recente mostrou que o Megabyte pode ser 40% mais rápido que o modelo Transformer. No entanto, é essencial notar que o Megabyte usado durante o experimento tinha 1,5 bilhão de parâmetros, enquanto o transformer tinha 350 milhões.

Em geral, o Megabyte tem várias vantagens em relação aos transformadores tradicionais. Por exemplo, reduz os custos computacionais da auto-atestação, o que torna possível lidar com sequências longas.

Em segundo lugar, utiliza camadas de avanço de alimentação por caminho em vez de por posição, resultando na utilização eficiente de recursos computacionais.

Além disso, aumenta uma maior paralelismo durante o processamento, o que leva a uma geração mais rápida de sequências ao mesmo tempo que mantém um alto desempenho.

A arquitetura Megabyte melhora a escalabilidade, reduz o consumo de recursos e permite uma comunicação suave com várias aplicações baseadas em GPT. Ela alcança alguns desses benefícios dividindo sequências longas em duas sequências mais curtas, o que minimiza os custos de autoatenção. Além disso, o compartilhamento de parâmetros e algoritmos de compressão minimizam os requisitos de recursos do GPT.

Conclusão

O Megabyte da Meta utiliza o sistema transformador pré-treinado generativo para processar grandes volumes de dados sem utilizar tokenização. Em vez disso, utiliza uma arquitetura de previsão de várias camadas que minimiza custos, aumenta a velocidade, melhora a eficiência, assim como aumenta a escalabilidade e interoperabilidade.


Autor:Mashell C., Pesquisador da Gate.io
Este artigo representa apenas as opiniões do pesquisador e não constitui quaisquer sugestões de investimento.
Gate.io reserva todos os direitos deste artigo. A republicação do artigo será permitida desde que a Gate.io seja referenciada. Em todos os casos, medidas legais serão tomadas devido à violação de direitos autorais.


Partilhar
İçerik
gate logo
Gate
Trade Now
Adira à Gate para ganhar recompensas