Glossaire IA

Utilisation

API

Interface de Programmation

Une API, c'est un moyen pour des logiciels de communiquer entre eux. Dans le monde de l'IA, quand une entreprise comme Anthropic ou OpenAI propose une API, cela signifie que les développeurs peuvent envoyer du texte au modèle d'IA et recevoir des réponses en retour — le tout via du code, sans passer par une interface de chat. C'est comme ça que l'IA est intégrée dans les applis, les sites web et les produits.

Imagine ça comme : Le guichet d'un drive. Tu n'entres pas dans la cuisine — tu passes juste ta commande au guichet (tu envoies une requête), et on te rend le repas (la réponse). L'API, c'est ce guichet.

Utilisation

Agent

Une IA qui peut agir de manière autonome

Un Agent IA est un système capable de planifier, prendre des décisions et agir de manière autonome pour atteindre un objectif — pas juste répondre à une seule question. Au lieu d'attendre qu'on lui dise exactement quoi faire à chaque étape, un agent peut décomposer une tâche complexe, utiliser des outils (comme naviguer sur le web, écrire du code ou lire des fichiers) et continuer jusqu'à ce que le travail soit terminé. Les agents sont construits sur des grands modèles de langage, mais ajoutent une couche d'autonomie et d'utilisation d'outils.

Imagine ça comme : La différence entre demander son chemin à quelqu'un (un chatbot) et engager un assistant personnel qui organise tout ton voyage, réserve les vols et t'envoie l'itinéraire (un agent). Tu donnes l'objectif, et l'agent trouve les étapes.

Architecture

Attention

Comment l'IA décide ce qui compte

L'attention, c'est le mécanisme qui permet à un modèle Transformer de déterminer quels mots dans une phrase sont les plus importants les uns par rapport aux autres. Dans la phrase « Le chat était assis sur le tapis parce qu'il était fatigué », l'attention aide le modèle à comprendre que « il » désigne « le chat », pas « le tapis ». Cette capacité à relier des mots éloignés, c'est ce qui rend les Transformers si puissants.

Imagine ça comme : Dans une pièce bondée, tu arrives à te concentrer sur une seule conversation même si plein de gens parlent en même temps. Ton cerveau « fait attention » à ce qui est pertinent et filtre le bruit. C'est exactement ce que fait le mécanisme d'attention de l'IA avec les mots.

Langage

Context Window

Combien l'IA peut « voir » en une fois

La fenêtre de contexte, c'est la quantité totale de texte qu'un modèle d'IA peut prendre en compte pendant une conversation. Cela inclut tout — ta question, les documents que tu partages, et la réponse de l'IA elle-même. Si la conversation devient trop longue, le modèle commence à « oublier » le début.

Imagine ça comme : Un tableau blanc dans une salle de classe. Tu ne peux écrire qu'un certain nombre de choses avant de manquer de place et de devoir effacer les notes les plus anciennes pour continuer à écrire.

Matériel

CPU

Unité Centrale de Traitement

Le CPU, c'est le cerveau principal de chaque ordinateur. Il gère les tâches générales comme faire tourner tes applis, naviguer sur le web et gérer ton système d'exploitation. Il est excellent pour faire plein de choses différentes, l'une après l'autre, très rapidement.

Imagine ça comme : Un élève super intelligent qui peut résoudre n'importe quel type de problème — maths, sciences, rédaction — mais qui les traite un par un.

Langage

Embedding

Transformer les mots en nombres

Un embedding, c'est une façon de représenter un mot, une phrase ou un document sous forme d'une liste de nombres (un « vecteur ») qui capture son sens. Les mots qui ont des significations proches se retrouvent avec des nombres similaires. C'est comme ça que l'IA comprend que « chien » et « chiot » sont liés, ou que « Paris » est à la « France » ce que « Tokyo » est au « Japon ».

Imagine ça comme : Des coordonnées GPS pour le sens des mots. Comme les villes proches ont des coordonnées similaires, les mots proches ont des suites de nombres similaires. « Content » et « joyeux » sont proches, tandis que « content » et « réfrigérateur » sont très éloignés.

Entraînement

Fine-Tuning

Spécialiser un modèle pré-entraîné

Le fine-tuning consiste à prendre un modèle d'IA déjà entraîné sur des données générales et à lui donner un entraînement supplémentaire sur un sujet ou une tâche spécifique. Par exemple, tu pourrais fine-tuner un modèle de langage général sur des textes médicaux pour qu'il devienne bien meilleur pour répondre aux questions liées à la santé. C'est plus rapide et moins cher que d'entraîner un modèle de zéro.

Imagine ça comme : Un médecin qui a déjà fait ses études de médecine (entraînement général) et qui fait ensuite un internat en cardiologie (fine-tuning). Il connaît déjà la médecine — maintenant il se spécialise.

Architecture

Frontier Model

Le modèle le plus puissant d'une famille

Un modèle frontier désigne la version la plus grande et la plus performante d'une famille de modèles d'IA — celle avec le plus de paramètres. Par exemple, Qwen3.5-397B est le modèle frontier de la famille Qwen 3.5, avec 397 milliards de paramètres. Contrairement aux versions plus petites (7B, 32B, 72B) qui sont souvent suffisantes pour des tâches simples, le modèle frontier excelle sur les tâches complexes : raisonnement multi-étapes, analyse de documents longs, génération de code multi-fichiers. La plupart des providers API ne proposent pas le modèle frontier car il nécessite beaucoup plus de GPU — IG1 AI mutualise cette infrastructure pour vous y donner accès.

Imagine ça comme : La différence entre un orchestre de chambre et un orchestre symphonique complet. Le quatuor à cordes joue bien les morceaux simples, mais pour une symphonie de Mahler avec toute sa complexité, il faut les 100 musiciens.

Matériel

GPU

Unité de Traitement Graphique

Le GPU a été créé à l'origine pour afficher les graphismes des jeux vidéo, mais il s'avère qu'il est incroyablement efficace pour l'IA aussi. Contrairement au CPU qui traite les tâches une par une, le GPU peut effectuer des milliers de petits calculs en même temps — exactement ce dont les modèles d'IA ont besoin.

Imagine ça comme : Au lieu d'un seul élève génial, imagine une classe de 1 000 élèves qui peuvent chacun résoudre un problème de maths simple exactement au même moment. Ensemble, ils finissent bien plus vite.

Sécurité

Guardrails

Limites de sécurité sur le comportement de l'IA

Les guardrails, ce sont les règles et restrictions intégrées aux systèmes d'IA pour les empêcher de produire du contenu nuisible, dangereux ou inapproprié. Ils sont mis en place pendant et après l'entraînement pour s'assurer que l'IA refuse d'aider pour des activités illégales, ne génère pas de discours haineux, et reste utile et honnête.

Imagine ça comme : Les barrières sur les pistes de bowling. Elles gardent la boule dans la piste pour éviter les gouttières. Les guardrails empêchent l'IA de déraper dans des zones dangereuses.

Sécurité

Hallucination

Quand l'IA invente des choses

Une hallucination, c'est quand un modèle d'IA génère avec assurance une information qui semble correcte mais qui est en réalité fausse ou inventée. Cela arrive parce que le modèle prédit ce qui « sonne bien » en se basant sur des schémas, pas parce qu'il « sait » réellement des faits. Il peut inventer de faux articles de recherche, des statistiques bricolées ou des personnes inexistantes.

Imagine ça comme : Un élève qui n'a pas révisé pour un examen mais qui écrit très bien. Il rédige une dissertation convaincante qui a l'air sérieuse — mais les faits sont complètement inventés.

Utilisation

Inference

Quand l'IA te répond vraiment

L'inférence, c'est ce qui se passe à chaque fois que tu poses une question à une IA et qu'elle génère une réponse. Le modèle utilise tout ce qu'il a appris pendant l'entraînement pour prédire la meilleure réponse, un token à la fois. C'est pour ça que tu vois souvent les réponses de l'IA apparaître mot par mot — elle génère littéralement chaque morceau l'un après l'autre.

Imagine ça comme : Passer l'examen après des mois de révisions. Tu n'apprends plus — tu appliques ce que tu sais déjà pour répondre à de nouvelles questions.

Matériel

Latency

La rapidité de réponse de l'IA

La latence, c'est le délai entre le moment où tu envoies une requête à une IA et le moment où tu commences à recevoir une réponse. Moins de latence = réponse plus rapide. Cela dépend de la taille du modèle, du matériel sur lequel il tourne, de la distance du serveur et du nombre de personnes qui l'utilisent en même temps.

Imagine ça comme : Le temps d'attente dans un café. Parfois tu as ta boisson en 30 secondes, parfois il y a une longue file et ça prend 5 minutes. La boisson est la même — l'attente, c'est la latence.

Architecture

LLM

Grand Modèle de Langage

Un LLM, c'est un très gros modèle d'IA (généralement basé sur l'architecture Transformer) qui a été entraîné sur d'énormes quantités de texte pour comprendre et générer le langage humain. « Large » fait référence à la fois à la quantité de données d'entraînement et au nombre de paramètres. Des modèles comme Claude, GPT-4 et Llama sont tous des LLM.

Imagine ça comme : Un élève qui a lu tout Internet et qui peut maintenant écrire des dissertations, répondre à des questions, résumer des articles, écrire du code, et même faire des blagues — tout ça grâce aux schémas qu'il a repérés en lisant.

Architecture

MCP

Protocole de Contexte de Modèle

MCP est un standard ouvert (créé par Anthropic) qui permet aux modèles d'IA de se connecter à des outils externes et des sources de données de manière universelle. Au lieu de construire une intégration sur mesure pour chaque outil (Google Drive, Slack, une base de données, etc.), MCP fournit une seule « prise » standard qui marche partout. N'importe quelle IA compatible MCP peut parler à n'importe quel outil compatible MCP — sans code spécifique à chaque fois.

Imagine ça comme : L'USB-C pour l'IA. Avant l'USB-C, chaque téléphone avait un chargeur différent. MCP, c'est le connecteur universel — dès qu'un outil parle MCP, n'importe quelle IA peut l'utiliser, comme n'importe quel appareil peut utiliser un câble USB-C.

Entraînement

Model Weights

Le savoir appris par l'IA, sous forme de fichier

Les poids (weights), ce sont les nombres qui composent un modèle d'IA entraîné — ils sont le résultat de tout cet entraînement. Quand tu « télécharges un modèle », tu télécharges ses poids. Ces fichiers peuvent être énormes (des dizaines ou des centaines de gigaoctets) et représentent tout ce que le modèle a appris.

Imagine ça comme : Si l'entraînement de l'IA, c'étaient des années d'école, les poids sont le diplôme + tout ce qui est dans le cerveau de l'élève, sauvegardé dans un fichier. Tu peux copier ce fichier et donner le même « savoir » à un autre ordinateur.

Architecture

Neural Network

La structure qui fait « réfléchir » l'IA

Un réseau de neurones, c'est un système mathématique inspiré du cerveau humain. Il est composé de couches de « neurones » connectés (des petites fonctions mathématiques) qui se transmettent de l'information. Les données entrent d'un côté, sont traitées à travers de nombreuses couches, et un résultat sort de l'autre. Toute l'IA moderne — reconnaissance d'images, modèles de langage, voitures autonomes — est construite sur des réseaux de neurones.

Imagine ça comme : Un jeu de téléphone arabe. La personne A dit quelque chose à 3 personnes, qui le répètent chacune à 3 autres, et ainsi de suite. Au final, le message a été transformé à travers de nombreux tours pour donner une réponse finale.

Utilisation

OpenClaw

Un agent IA qui contrôle ton ordinateur

OpenClaw (aussi appelé Claw) est un assistant IA gratuit et open source qui vit sur ton ordinateur et peut réellement voir ton écran, utiliser tes applications et faire du vrai travail pour toi. Contrairement à un chatbot qui ne fait que répondre à des questions, OpenClaw est un agent autonome — il peut cliquer sur des boutons, remplir des formulaires, naviguer sur le web, écrire du code, envoyer des messages et automatiser des workflows entiers à travers tes apps. C'est l'un des projets open source à la croissance la plus rapide de l'histoire, avec plus de 80K étoiles sur GitHub.

Imagine ça comme : Avoir un stagiaire super intelligent assis devant ton ordi 24h/24. Tu lui dis « réserve-moi un vol pour Paris » ou « nettoie ce tableur », et il le fait vraiment — il bouge la souris, tape au clavier, passe d'une app à l'autre — tout seul.

Utilisation

Open Source vs. Closed Source

Qui peut voir le code

Un modèle d'IA open source (comme Llama de Meta ou Mistral) partage son code et ses poids publiquement — n'importe qui peut le télécharger, le modifier et le faire tourner. Un modèle closed source (comme GPT-4 ou Claude) est gardé privé — tu ne peux l'utiliser qu'à travers l'API ou l'appli de l'entreprise. L'open source te donne plus de contrôle et de confidentialité ; le closed source offre souvent de meilleures performances et une mise en place plus facile.

Imagine ça comme : Une recette open source vs. la sauce secrète d'un restaurant. Avec la recette, tu peux cuisiner toi-même, changer les ingrédients et la partager avec tes amis. Avec la sauce secrète, tu la commandes et tu en profites — mais tu ne peux pas la faire chez toi.

Entraînement

Open Weights

Quand un modèle partage son cerveau, mais pas sa recette

Open weights signifie qu'une entreprise publie les poids entraînés du modèle (le résultat final de l'entraînement) pour que tout le monde puisse le télécharger et l'utiliser, mais sans partager le code d'entraînement, les données d'entraînement, ni le processus complet. C'est différent du vrai open source, où tout est partagé. Des modèles comme Llama de Meta ou Mistral sont open weights — tu peux les utiliser librement, mais tu ne peux pas reproduire exactement comment ils ont été créés.

Imagine ça comme : Un chef qui te donne le gâteau fini pour que tu puisses le manger, le partager et le décorer comme tu veux — mais sans te donner la recette, les réglages du four, ni la liste des ingrédients. Tu as le résultat, pas le processus.

Entraînement

Parameters

Les boutons de réglage internes de l'IA

Les paramètres, ce sont les nombres à l'intérieur d'un modèle d'IA qui sont ajustés pendant l'entraînement. Un modèle comme GPT-4 possède des centaines de milliards de paramètres. Plus de paramètres signifie généralement que le modèle peut apprendre des schémas plus complexes et donner de meilleures réponses — mais il a aussi besoin de plus de puissance de calcul pour fonctionner. Par exemple, un modèle frontier comme Qwen3.5-397B (397 milliards de paramètres) surpasse nettement ses versions réduites (7B, 32B) sur le raisonnement complexe et l'analyse de documents longs.

Imagine ça comme : Les boutons d'une immense table de mixage en studio d'enregistrement. Chaque bouton contrôle une petite partie du son, et il faut tous les régler parfaitement pour obtenir la bonne musique. Plus de boutons = plus de nuances.

Utilisation

Prompt

Ce que tu dis à l'IA

Un prompt, c'est le texte que tu tapes pour dire à l'IA ce que tu veux. Ça peut être une question, une instruction, ou même un document entier sur lequel tu veux que l'IA travaille. Plus ton prompt est bon et clair, meilleure sera la réponse de l'IA — c'est pour ça que le « prompt engineering » est devenu une compétence importante.

Imagine ça comme : Commander au restaurant. « Donne-moi un truc bon » peut marcher, mais « je voudrais un steak saignant avec des frites et sans oignons » te donne exactement ce que tu veux.

Entraînement

Quantization

Rendre les modèles d'IA plus petits et rapides

La quantization est une technique qui réduit la taille d'un modèle d'IA en diminuant la précision de ses nombres. Au lieu de stocker chaque paramètre comme un nombre très précis en 32 bits ou 16 bits, on l'arrondit à 8 bits voire 4 bits. Le modèle devient beaucoup plus petit (2x à 8x) et tourne plus vite, avec seulement une légère baisse de qualité. C'est ce qui rend possible de faire tourner des modèles d'IA puissants sur un laptop ou un téléphone au lieu d'avoir besoin d'un énorme serveur.

Imagine ça comme : Compresser une photo RAW en JPEG. Le fichier devient beaucoup plus petit, il se charge bien plus vite, et pour la plupart des gens il a la même allure — tu ne remarques une légère perte de qualité que si tu zoomes très fort.

Architecture

RAG

Génération Augmentée par la Recherche

Le RAG est une technique où l'IA cherche d'abord dans une base de données de documents pour trouver des informations pertinentes, puis utilise ces informations pour générer une réponse plus précise. Au lieu de se fier uniquement à ce qu'elle a mémorisé pendant l'entraînement, l'IA peut consulter des sources réelles et à jour. Cela réduit considérablement les hallucinations.

Imagine ça comme : Au lieu de répondre à un contrôle uniquement de mémoire, le prof te laisse apporter tes notes. Tu peux vérifier la vraie réponse avant de l'écrire, donc tu es beaucoup plus précis.

Sécurité

Sovereign AI

Une IA que tu possèdes et contrôles entièrement

Le Sovereign AI, c'est le fait de faire tourner ton infrastructure IA sur tes propres serveurs ou dans tes propres centres de données, au lieu de dépendre du cloud d'une grande entreprise tech. De cette façon, tes données ne quittent jamais ton contrôle, tu ne dépends de la plateforme de personne, et tu respectes les réglementations locales. C'est particulièrement important pour les gouvernements, les banques et les entreprises de santé.

Imagine ça comme : La différence entre louer un appartement et être propriétaire de ta maison. Quand c'est ta maison, personne ne peut changer les règles, augmenter le loyer ou fouiller dans tes affaires. Ta maison, tes règles.

Utilisation

Temperature

Le curseur créativité vs. prévisibilité de l'IA

La température est un réglage (généralement entre 0 et 1) qui contrôle à quel point les réponses de l'IA sont « aléatoires ». Une température basse (comme 0,1) rend le modèle très prévisible et factuel — il choisit le mot suivant le plus probable à chaque fois. Une température haute (comme 0,9) le rend plus créatif et surprenant, mais aussi plus susceptible de faire des erreurs.

Imagine ça comme : Une playlist de musique. Température 0 joue toujours ta chanson n°1, la plus écoutée. Température 1 met tout en mode aléatoire — tu pourrais découvrir quelque chose de génial ou entendre un truc bizarre.

Langage

Token

La brique de base du texte IA

Un token, c'est un petit morceau de texte qu'un modèle d'IA lit et génère. Ça peut être un mot entier comme « bonjour », un bout de mot comme « in » + « croya » + « ble », ou même un seul caractère. Quand on dit qu'un modèle gère « 128K tokens », cela veut dire qu'il peut lire et retenir environ 100 000 mots de texte en une fois. Les tokens, c'est aussi comme ça que les entreprises d'IA te facturent — tu payes par token envoyé (entrée) et par token généré (sortie). Donc plus ta question est longue et plus la réponse de l'IA est longue, plus ça coûte.

Imagine ça comme : Des briques LEGO pour le langage — et chaque brique a une petite étiquette de prix. Les mots sont découpés en petits morceaux, et l'IA les rassemble pour former des phrases. Plus tu utilises de briques (conversations longues), plus la facture est élevée — comme les SMS qui coûtaient à l'unité avant.

Matériel

TPU

Unité de Traitement Tensoriel

Un TPU est une puce conçue par Google spécifiquement pour les charges de travail IA. Alors que les GPU sont des processeurs parallèles polyvalents réutilisés pour l'IA, les TPU sont construits de zéro pour faire une seule chose extrêmement bien : les calculs tensoriels qui alimentent les réseaux de neurones. Ils sont utilisés dans les centres de données de Google pour entraîner et faire tourner des modèles comme Gemini. Tu ne peux pas acheter un TPU — tu loues l'accès via Google Cloud.

Imagine ça comme : Si le GPU est un couteau suisse (bon pour plein de choses), le TPU est un scalpel taillé au laser — conçu spécialement pour un seul job et incroyablement efficace. Mais tu ne peux l'utiliser que dans l'hôpital de Google.

Entraînement

Training

Comment une IA apprend

L'entraînement, c'est le processus qui consiste à enseigner à un modèle d'IA en lui montrant d'énormes quantités de données — des milliards de pages de texte, de code, et plus encore. Pendant l'entraînement, le modèle ajuste des millions (ou milliards) de réglages internes appelés « paramètres » jusqu'à devenir bon pour prédire ce qui vient ensuite dans une phrase. Ce processus nécessite une puissance de calcul énorme et peut prendre des semaines ou des mois.

Imagine ça comme : Réviser pour le plus gros examen de tous les temps. L'IA lit des milliards de pages et s'entraîne jusqu'à devenir vraiment bonne pour comprendre et générer du langage. Une fois entraînée, elle n'a plus besoin de réviser — elle utilise juste ce qu'elle a appris.

Architecture

Transformer

L'architecture derrière l'IA moderne

Le Transformer est le type d'architecture de réseau de neurones qui fait tourner quasiment tous les modèles de langage modernes (ChatGPT, Claude, Gemini, etc.). Inventé par Google en 2017, son innovation clé est l'« attention » — la capacité de regarder tous les mots d'une phrase en même temps et de déterminer lesquels sont les plus pertinents les uns par rapport aux autres, au lieu de les lire un par un.

Imagine ça comme : Au lieu de lire un livre de la page 1 à la page 500 dans l'ordre, imagine pouvoir voir instantanément toutes les pages en même temps et surligner les connexions entre les idées à travers tout le livre. C'est ça que fait l'attention.

Matériel

VRAM

Mémoire Vive Vidéo

La VRAM, c'est la mémoire intégrée directement dans le GPU. Quand un modèle d'IA tourne, il a besoin de garder une énorme quantité de données en mémoire en même temps. Plus ton GPU a de VRAM, plus le modèle d'IA qu'il peut faire tourner est gros. C'est pour ça que les GPU haut de gamme avec 80 Go ou plus de VRAM sont si précieux pour l'IA.

Imagine ça comme : La taille de ton bureau. Un bureau plus grand te permet d'étaler plus de livres et de notes en même temps sans devoir constamment ranger des choses pour en sortir d'autres.

API

Agent

Attention

Context Window

CPU

Embedding

Fine-Tuning

Frontier Model

GPU

Guardrails

Hallucination

Inference

Latency

LLM

MCP

Model Weights

Neural Network

OpenClaw

Open Source vs. Closed Source

Open Weights

Parameters

Prompt

Quantization

RAG

Sovereign AI

Temperature

Token

TPU

Training

Transformer

VRAM

Envie de voir l'IA en action ?