Quelqu'un a enfin clarifié le statu quo de GPT ! Le dernier discours d'OpenAI Daniel est très populaire, et il doit s'agir d'un génie trié sur le volet par Musk

Source : Qubit

Après la sortie de Windows Copilot, la popularité de la conférence Microsoft Build a été dynamisée par un discours.

L'ancien directeur de Tesla AI, Andrej Karpathy, a cru dans son discours que l'arbre des pensées est similaire à Monte Carlo Tree Search (MCTS) d'AlphaGo !

Les internautes ont crié : il s'agit du guide le plus détaillé et le plus intéressant sur l'utilisation du modèle de grande langue et du modèle GPT-4 !

De plus, Karpathy a révélé qu'en raison de l'expansion de la formation et des données, LLAMA 65B est "nettement plus puissant que GPT-3 175B", et a présenté le grand modèle d'arène anonyme ChatBot Arena :

Claude obtient un score entre ChatGPT 3.5 et ChatGPT 4.

Les internautes ont déclaré que les discours de Karpathy ont toujours été excellents et cette fois, comme toujours, le contenu n'a pas déçu tout le monde.

Ce qui est devenu populaire avec le discours était également une note compilée par les internautes de Twitter sur la base du discours. Il y a un total de 31 notes, et le nombre de reposts a dépassé les 3000+ :

Alors, qu'est-ce qui a été spécifiquement mentionné dans ce discours très regardé?

Comment former l'assistant GPT ?

Le discours de Karpathy est cette fois principalement divisé en deux parties.

Première partie, il a expliqué comment former un "assistant GPT".

Karpathy décrit principalement les quatre étapes de formation des assistants IA : pré-formation, ajustement supervisé, modélisation des récompenses et apprentissage par renforcement.

Chaque étape nécessite un jeu de données.

Dans la phase de pré-formation, une grande quantité de ressources informatiques est nécessaire pour collecter une grande quantité d'ensembles de données. Entraînez un modèle de base sur un grand ensemble de données non supervisé.

Karpathy le complète avec plus d'exemples :

À l'aide d'un ensemble de données supervisé plus petit, l'ajustement de ce modèle de base avec un apprentissage supervisé crée un modèle d'assistant qui peut répondre aux questions.

Il a également montré le processus d'évolution de certains modèles.Je pense que beaucoup de gens ont déjà vu l'image ci-dessus de "l'arbre d'évolution".

Karpathy pense que le meilleur modèle open source actuellement est la série LLaMA de Meta (car OpenAI n'a rien ouvert sur GPT-4).

Ce qu'il faut préciser ici, c'est que le modèle de base n'est pas un modèle d'assistant.

Bien que le modèle de base puisse répondre à la question, la réponse qu'il donne n'est pas fiable et c'est le modèle assistant qui peut être utilisé pour répondre à la question. Un modèle d'assistant formé sur le modèle de base, avec un réglage fin supervisé, surpassera le modèle de base en termes de génération de réponses et de compréhension de la structure du texte.

L'apprentissage par renforcement est un autre processus critique lors de la formation de modèles linguistiques.

En s'entraînant avec des données de haute qualité étiquetées par l'homme, la modélisation des récompenses peut être utilisée pour créer une fonction de perte afin d'améliorer ses performances. Ensuite, l'entraînement par renforcement est effectué en augmentant l'étiquette positive et en réduisant la probabilité d'étiquette négative.

Dans les tâches créatives, l'utilisation du jugement humain est cruciale pour améliorer les modèles d'IA, et l'ajout de commentaires humains peut former les modèles plus efficacement.

Après un apprentissage intensif avec rétroaction humaine, un modèle RLHF peut être obtenu.

Une fois le modèle formé, l'étape suivante consiste à savoir comment utiliser efficacement ces modèles pour résoudre des problèmes.

Comment mieux utiliser le modèle ?

Dans la deuxième partie, Karpathy se concentre sur les stratégies d'indices, les ajustements, l'écosystème d'outils en croissance rapide et l'expansion future.

Karpathy a donné des exemples précis pour illustrer :

Lorsque nous écrivons un article, nous effectuons de nombreuses activités mentales et nous devons nous demander si notre affirmation est correcte. Pour GPT, il s'agit simplement d'une séquence de jetons.

Et hint() peut compenser cette différence cognitive.

Karpathy explique plus en détail le fonctionnement de l'indice Thought Chain.

Pour les problèmes d'inférence, si vous voulez que Transformer fonctionne mieux dans le traitement du langage naturel, vous devez le laisser traiter les informations étape par étape, au lieu de lui lancer directement un problème très compliqué.

Si vous lui donnez quelques exemples, il imitera le modèle de cet exemple, et les résultats finaux générés seront meilleurs.

Le modèle ne peut répondre aux questions que dans son ordre, et si ce qu'il génère est faux, vous pouvez l'inviter à se régénérer.

Si vous ne lui demandez pas de vérifier, il ne se vérifiera pas lui-même.

Il s'agit des questions 1 et 2.

Daniel Kahneman, lauréat du prix Nobel d'économie, a proposé dans "Thinking Fast and Slow" que le système cognitif humain comprend deux sous-systèmes, 1 et 2. 1 est principalement basé sur l'intuition, tandis que 2 est un système d'analyse logique.

En termes simples, 1 est un processus rapide et automatique, et 2 est une partie bien pensée.

Ceci est également mentionné dans un récent article populaire "Tree of Thought".

Réfléchi fait référence, non pas simplement à donner une réponse à une question, mais plutôt à être utilisé avec du code de colle Python, en enchaînant plusieurs. Le modèle doit maintenir plusieurs conseils, et il doit exécuter un algorithme de recherche d'arborescence pour trouver les conseils à développer.

Karpathy pense que cette ligne de pensée est très similaire à AlphaGo :

Quand AlphaGo joue au Go, il doit considérer où sera placée la pièce suivante. Au départ, il a appris en imitant les humains. Mais en plus de cela, il fait une recherche arborescente de Monte Carlo, ce qui conduit à des stratégies aux multiples possibilités. Il peut évaluer plusieurs mouvements possibles et ne conserver que les meilleures stratégies. Je pense que c'est en quelque sorte l'équivalent d'AlphaGo.

À cet égard, Karpathy a également mentionné AutoGPT :

Je ne pense pas que cela fonctionne très bien pour le moment, et je ne le recommande pas pour une utilisation pratique. Je pense juste qu'avec le temps, nous pourrons peut-être nous inspirer de là où ça va.

Deuxièmement, il y a un autre petit coup qui est la génération améliorée de récupération (génération retri agumentée) et des astuces efficaces.

Le contenu du contexte de fenêtre est la mémoire de travail des transformateurs au moment de l'exécution, et si vous pouvez mettre des informations relatives aux tâches dans le contexte, il fonctionnera très bien car il a un accès immédiat à ces informations.

En bref, les données connexes peuvent être indexées afin que les modèles soient accessibles efficacement.

Cela fonctionnerait mieux si Transformers avait également un document principal auquel se référer.

Enfin, Karpathy a brièvement parlé de la contrainte et de l'ajustement dans les grands modèles de langage. Les grands modèles de langage peuvent être améliorés grâce à des conseils de contrainte et à un réglage fin. L'indication de contrainte applique des modèles dans la sortie de grands modèles de langage, tandis que le réglage fin ajuste les poids du modèle pour améliorer les performances.

Je recommande d'utiliser de grands modèles de langage pour les applications à faible enjeu, en les associant toujours à une supervision humaine, en les voyant comme une source d'inspiration et de conseil, en considérant les copilotes plutôt que d'en faire des agents totalement autonomes.

À propos d'Andrej Karpathy

Le premier emploi du Dr Andrej Karpathy après l'obtention de son diplôme a été d'étudier la vision par ordinateur à OpenAI.

Plus tard, Musk, l'un des co-fondateurs d'OpenAI, s'est pris d'affection pour Karpathy et a attiré les gens vers Tesla. Mais aussi à cause de cet incident, Musk et OpenAI se sont complètement disputés et ont finalement été expulsés. Chez Tesla, Karpathy est à la tête de projets tels que Autopilot et FSD.

En février de cette année, sept mois après avoir quitté Tesla, Karpathy a de nouveau rejoint OpenAI.

Récemment, il a tweeté qu'il y a actuellement beaucoup d'intérêt pour le développement d'un grand écosystème de modèles de langage open source, ce qui est un peu comme un signe de l'explosion du début du Cambrien.

Portail: [1] vidéo discours) [2] pensée "essai)

Lien de référence : [1]

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)