GPT-3
Modèle de language généraliste
OpenAI
Décembre 2015 : Fondation d'OpenAI
"notre objectif est de faire progresser l’intelligence artificielle de la manière la plus susceptible de profiter à l’humanité dans son ensemble, sans être contrainte par la nécessité de générer un rendement financier"
Juin 2018 : Sortie de GPT-1
Mars 2019 : OpenAI devient un association à "but lucratif plafonné"
Septembre 2019 : Sortie de GPT-2
1,5 milliard de paramètres
Juillet 2020 : Sortie de GPT-3 sous forme de bêta avec accès limité
175 milliards de paramètres
Fonctionnement de l'API
Who is George Lucas ?
George Lucas is American film director
and producer famous for creating Star Wars.
Les différentes tâches possibles
Classification
This is a tweet sentiment classifier
Tweet: "I loved the new Batman movie!"
Sentiment: Positive
###
Tweet: "I hate it when my phone battery dies."
Sentiment: Negative
###
Tweet: "My day has been 👍"
Sentiment: Positive
###
Tweet: "This is the link to the article"
Sentiment: Neutral
###
Tweet: "This new music video blew my mind"
Sentiment: Positive
Génération
Ideas involving education and team spirit
1. Escape Game
Students get to escape from a room by solving enigmas as a
team and finding a key.
2. Scavenger Hunt
Students are given a set of items. They have to find these
items throughout the school and take pictures of them.
Conversation
Marv is a chatbot that reluctantly answers questions.
###
User: How many pounds are in a kilogram?
Marv: This again? There are 2.2 pounds in a kilogram. Please
make a note of this.
###
User: What does HTML stand for?
Marv: Was Google too busy? Hypertext Markup Language. The T
is for try to ask better questions in the future.
###
User: When did the first airplane fly?
Marv: On December 17, 1903, Wilbur and Orville Wright made
the first flights. I wish they’d come and take me away.
###
User: Who owns the world record of marathon ?
Marv: The world record time for running a marathon is
currently held by Eliud Kipchoge with 2:01:39 at the Berlin
Marathon. He may be a machine (as far as I know), but damn!
Transformation
My ten-year-old asked me what this passage means:
"""
Deep learning is an artificial intelligence (AI) function
that imitates the workings of the human brain in processing
data and creating patterns for use in decision making. Deep
learning is a subset of machine learning in artificial
intelligence that has networks capable of learning
unsupervised from data that is unstructured or unlabeled.
Also known as deep neural learning or deep neural network.
"""
I rephrased it for him, in plain language a ten-year-old can
understand:
"""
"Humans have to tell computers exactly what to do. Computers
are bad at taking data and making decisions on their own.
Deep learning lets computers figure out how to do that by
themselves."
Traduction, definition de films par des emojis...
Complétion de code
```
import React from 'react';
const ThreeButtonComponent=()=>(
<div>
<p>Button One</p>
<button className="button-green" onClick=
{this.handleButtonClick}>Button One</button>
<p>Button Two</p>
<button className="button-green" onClick=
{this.handleButtonClick}>Button Two</button>
<p>Button Three</p>
<button className="button-green" onClick=
{this.handleButtonClick}>Button Three</button>
</div>
)
''''
import React from 'react';
const HeaderComponent=()=>(
<div>
<h1>Header</h1>
</div>
)
Mais aussi complétion d'un texte...
Réponses factuelles
Q: Who is Batman?
A: Batman is a fictional comic book character.
###
Q: Who has invented basketball?
A: James Naismith invented basketball.
Quelques chiffres...
96 couches
Le nombre de couches du réseau de neurones qui a entrainé le modèle, contre 78 pour celui de Turing-NLG et 48 pour GPT-2
12288
C'est la taille du word-embedding de GPT-3, c'est-à-dire qu'il transforme chaque mot en un vecteur de 12288 dimensions pour faire ses calculs
10000 cartes graphiques
La constitution de l'ordinateur qui a entraîné ce modèle (des Quadro RTX 800)
355 ans et 4.6 millions de dollars
Le temps et le prix demandé si on utilisait un seul GPU standard pour entrainer ce modèle (d'après lambda-computing)
Comparaison de 3 variantes de GPT-3 (XL, 13B et 175B)
Données d'entraînement
Limites et dangers
• Le modèle n'a été entraîné que sur l'anglais
• Il perd en cohérence quand on lui demande de trop longues completions
• GPT-3 distingue difficilement les sous-entendus
• L'utilisation du fine-tuning est limitée à seulement quelques personnes
• Consommation d'énergie astronomique
• Le modèle tirant la majeure partie de ses données d'internet, il est sujet aux discriminations
• Questions d'éthique ...
Démonstration
Merci pour votre attention !