Alguém finalmente deixou claro o status quo do GPT! O último discurso de OpenAI Daniel é muito popular e deve ser um gênio escolhido a dedo por Musk

2023-05-29 08:56:22

Fonte: Qubit See More

Após o lançamento do Windows Copilot, a popularidade da conferência Microsoft Build foi detonada por um discurso.

O ex-diretor de IA da Tesla, Andrej Karpathy, acreditava em seu discurso que a árvore dos pensamentos é semelhante ao Monte Carlo Tree Search (MCTS) do AlphaGo!

Os internautas gritaram: Este é o guia mais detalhado e interessante sobre como usar o modelo de linguagem grande e o modelo GPT-4!

Além disso, Karpathy revelou que, devido à expansão do treinamento e dos dados, o LLAMA 65B é "significativamente mais poderoso que o GPT-3 175B" e apresentou o grande modelo de arena anônima ChatBot Arena:

Pontuações de Claude entre ChatGPT 3.5 e ChatGPT 4.

Os internautas disseram que as falas de Karpathy sempre foram ótimas, e desta vez, como sempre, o conteúdo não decepcionou a todos.

O que se tornou popular com o discurso também foi uma nota compilada pelos internautas do Twitter com base no discurso. Há um total de 31 notas e o número de republicações ultrapassou mais de 3.000:

Então, o que foi especificamente mencionado neste discurso tão assistido?

Como treinar o assistente GPT?

O discurso de Karpathy desta vez é dividido principalmente em duas partes.

Parte Um, ele falou sobre como treinar um "assistente GPT".

Karpathy descreve principalmente os quatro estágios de treinamento de assistentes de IA: pré-treinamento, ajuste fino supervisionado, modelagem de recompensa e aprendizado por reforço.

Cada estágio requer um conjunto de dados.

Na fase de pré-treinamento, uma grande quantidade de recursos de computação são necessários para coletar uma grande quantidade de conjuntos de dados. Treine um modelo base em um grande conjunto de dados não supervisionado.

Karpathy o complementa com mais exemplos:

Usando um conjunto de dados supervisionado menor, o ajuste fino desse modelo básico com aprendizado supervisionado cria um modelo assistente que pode responder a perguntas.

Ele também mostrou o processo de evolução de alguns modelos, acredito que muitas pessoas já viram a imagem da "árvore de evolução" acima.

Karpathy acredita que o melhor modelo de código aberto atualmente é a série LLaMA da Meta (porque OpenAI não tem nada de código aberto sobre GPT-4).

O que precisa ser claramente apontado aqui é que o modelo base não é um modelo assistente.

Embora o modelo básico possa responder à pergunta, a resposta que ele dá não é confiável e é o modelo assistente que pode ser usado para responder à pergunta. Um modelo de assistente treinado no modelo básico, com ajuste fino supervisionado, superará o modelo básico na geração de respostas e na compreensão da estrutura do texto.

O aprendizado por reforço é outro processo crítico ao treinar modelos de linguagem.

Ao treinar com dados de alta qualidade rotulados por humanos, a modelagem de recompensa pode ser usada para criar uma função de perda para melhorar seu desempenho. Em seguida, o treinamento de reforço é realizado aumentando o rótulo positivo e reduzindo a probabilidade de rótulo negativo.

Em tarefas criativas, o uso do julgamento humano é crucial para melhorar os modelos de IA, e adicionar feedback humano pode treinar modelos com mais eficiência.

Após aprendizado intensivo com feedback humano, um modelo RLHF pode ser obtido.

Depois que o modelo é treinado, a próxima etapa é como usar efetivamente esses modelos para resolver problemas.

Como usar melhor o modelo?

Na Parte Dois, Karpathy se concentra em estratégias de sugestões, ajustes finos, o ecossistema de ferramentas em rápido crescimento e expansão futura.

Karpathy deu exemplos específicos para ilustrar:

Quando estamos escrevendo um artigo, realizamos muitas atividades mentais e precisamos considerar se nossa afirmação está correta. Para GPT, isso é apenas uma sequência de tokens.

E hint() pode compensar essa diferença cognitiva.

Karpathy explica ainda como funciona a dica da Cadeia de Pensamento.

Para problemas de inferência, se você deseja que o Transformer tenha um desempenho melhor no processamento de linguagem natural, é necessário deixá-lo processar as informações passo a passo, em vez de lançar diretamente um problema muito complicado.

Se você der alguns exemplos, ele imitará o modelo deste exemplo e os resultados finais gerados serão melhores.

O modelo só pode responder a perguntas em sua sequência e, se o que ele gerar estiver errado, você poderá solicitar que ele seja gerado novamente.

Se você não pedir para verificar, ele não verificará a si mesmo.

Isso envolve as questões 1 e 2.

Daniel Kahneman, Prêmio Nobel de Economia, propôs em "Thinking Fast and Slow" que o sistema cognitivo humano inclui dois subsistemas, 1 e 2. 1 é baseado principalmente na intuição, enquanto 2 é um sistema de análise lógica.

Em termos leigos, 1 é um processo rápido e automático e 2 é uma peça bem pensada.

Isso também é mencionado em um recente artigo popular "Árvore do pensamento".

Pensativo refere-se a não apenas dar uma resposta a uma pergunta, mas mais como ser usado com o código de cola Python, amarrando muitos juntos. O modelo precisa manter várias dicas e executar algum algoritmo de pesquisa em árvore para descobrir quais dicas devem ser expandidas.

Karpathy acha que essa linha de pensamento é muito semelhante ao AlphaGo:

Quando o AlphaGo está jogando Go, ele precisa considerar onde a próxima peça será colocada. Inicialmente aprendeu imitando os humanos. Mas, além disso, faz uma busca em árvore de Monte Carlo, que leva a estratégias com múltiplas possibilidades. Ele pode avaliar vários movimentos possíveis e manter apenas as estratégias que são melhores. Acho que é meio equivalente ao AlphaGo.

A este respeito, Karpathy também mencionou o AutoGPT:

Não acho que funcione muito bem no momento, e não recomendo para uso prático. Só acho que, com o tempo, poderemos nos inspirar para onde está indo.

Em segundo lugar, há outro pequeno golpe que é a geração aprimorada de recuperação (geração retri-agumentada) e dicas eficazes.

O conteúdo do contexto da janela é a memória de trabalho dos transformadores em tempo de execução e, se você puder colocar informações relacionadas à tarefa no contexto, ele funcionará muito bem porque terá acesso imediato a essas informações.

Em suma, os dados relacionados podem ser indexados para que os modelos possam ser acessados com eficiência.

Teria um desempenho melhor se o Transformers também tivesse um documento principal ao qual se referir.

Finalmente, Karpathy falou brevemente sobre restrição e ajuste fino em grandes modelos de linguagem. Grandes modelos de linguagem podem ser aprimorados por meio de dicas de restrição e ajuste fino. A dica de restrição impõe modelos na saída de modelos de linguagem grandes, enquanto o ajuste fino ajusta os pesos do modelo para melhorar o desempenho.

Recomendo usar grandes modelos de linguagem para aplicações de baixo risco, sempre combinando-os com supervisão humana, vendo-os como fonte de inspiração e conselho, considerando copilotos ao invés de torná-los agentes totalmente autônomos.

Sobre Andrej Karpathy

O primeiro emprego do Dr. Andrej Karpathy após a formatura foi estudar visão computacional na OpenAI.

Mais tarde, Musk, um dos cofundadores da OpenAI, se interessou por Karpathy e atraiu as pessoas para a Tesla. Mas também por causa desse incidente, Musk e OpenAI se desentenderam completamente e foram finalmente expulsos. Na Tesla, Karpathy é responsável por projetos como Autopilot e FSD.

Em fevereiro deste ano, sete meses depois de deixar a Tesla, Karpathy juntou-se novamente à OpenAI.

Recentemente, ele twittou que atualmente há muito interesse no desenvolvimento de um grande ecossistema de modelo de linguagem de código aberto, que é um pouco como um sinal da explosão cambriana inicial.

Portal: [1] vídeo de fala) [2] pensamento" ensaio)

Link de referência: [1]

Ver original

O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
#BTC#
231k Postagens
#PI#
198k Postagens
#ETH#
146k Postagens
4#GateioInto11#
80k Postagens
5#ContentStar#
66k Postagens
6#GT#
64k Postagens
7#BOME#
61k Postagens
8#DOGE#
58k Postagens
9#MAGA#
52k Postagens
10#SLERF#
51k Postagens

Marcar

sitemap