Interface de Programmation
Une API, c'est un moyen pour des logiciels de communiquer entre eux. Dans le monde de l'IA, quand une entreprise comme Anthropic ou OpenAI propose une API, cela signifie que les développeurs peuvent envoyer du texte au modèle d'IA et recevoir des réponses en retour — le tout via du code, sans passer par une interface de chat. C'est comme ça que l'IA est intégrée dans les applis, les sites web et les produits.
Une IA qui peut agir de manière autonome
Un Agent IA est un système capable de planifier, prendre des décisions et agir de manière autonome pour atteindre un objectif — pas juste répondre à une seule question. Au lieu d'attendre qu'on lui dise exactement quoi faire à chaque étape, un agent peut décomposer une tâche complexe, utiliser des outils (comme naviguer sur le web, écrire du code ou lire des fichiers) et continuer jusqu'à ce que le travail soit terminé. Les agents sont construits sur des grands modèles de langage, mais ajoutent une couche d'autonomie et d'utilisation d'outils.
Comment l'IA décide ce qui compte
L'attention, c'est le mécanisme qui permet à un modèle Transformer de déterminer quels mots dans une phrase sont les plus importants les uns par rapport aux autres. Dans la phrase « Le chat était assis sur le tapis parce qu'il était fatigué », l'attention aide le modèle à comprendre que « il » désigne « le chat », pas « le tapis ». Cette capacité à relier des mots éloignés, c'est ce qui rend les Transformers si puissants.
Combien l'IA peut « voir » en une fois
La fenêtre de contexte, c'est la quantité totale de texte qu'un modèle d'IA peut prendre en compte pendant une conversation. Cela inclut tout — ta question, les documents que tu partages, et la réponse de l'IA elle-même. Si la conversation devient trop longue, le modèle commence à « oublier » le début.
Unité Centrale de Traitement
Le CPU, c'est le cerveau principal de chaque ordinateur. Il gère les tâches générales comme faire tourner tes applis, naviguer sur le web et gérer ton système d'exploitation. Il est excellent pour faire plein de choses différentes, l'une après l'autre, très rapidement.
Transformer les mots en nombres
Un embedding, c'est une façon de représenter un mot, une phrase ou un document sous forme d'une liste de nombres (un « vecteur ») qui capture son sens. Les mots qui ont des significations proches se retrouvent avec des nombres similaires. C'est comme ça que l'IA comprend que « chien » et « chiot » sont liés, ou que « Paris » est à la « France » ce que « Tokyo » est au « Japon ».
Spécialiser un modèle pré-entraîné
Le fine-tuning consiste à prendre un modèle d'IA déjà entraîné sur des données générales et à lui donner un entraînement supplémentaire sur un sujet ou une tâche spécifique. Par exemple, tu pourrais fine-tuner un modèle de langage général sur des textes médicaux pour qu'il devienne bien meilleur pour répondre aux questions liées à la santé. C'est plus rapide et moins cher que d'entraîner un modèle de zéro.
Unité de Traitement Graphique
Le GPU a été créé à l'origine pour afficher les graphismes des jeux vidéo, mais il s'avère qu'il est incroyablement efficace pour l'IA aussi. Contrairement au CPU qui traite les tâches une par une, le GPU peut effectuer des milliers de petits calculs en même temps — exactement ce dont les modèles d'IA ont besoin.
Limites de sécurité sur le comportement de l'IA
Les guardrails, ce sont les règles et restrictions intégrées aux systèmes d'IA pour les empêcher de produire du contenu nuisible, dangereux ou inapproprié. Ils sont mis en place pendant et après l'entraînement pour s'assurer que l'IA refuse d'aider pour des activités illégales, ne génère pas de discours haineux, et reste utile et honnête.
Quand l'IA invente des choses
Une hallucination, c'est quand un modèle d'IA génère avec assurance une information qui semble correcte mais qui est en réalité fausse ou inventée. Cela arrive parce que le modèle prédit ce qui « sonne bien » en se basant sur des schémas, pas parce qu'il « sait » réellement des faits. Il peut inventer de faux articles de recherche, des statistiques bricolées ou des personnes inexistantes.
Quand l'IA te répond vraiment
L'inférence, c'est ce qui se passe à chaque fois que tu poses une question à une IA et qu'elle génère une réponse. Le modèle utilise tout ce qu'il a appris pendant l'entraînement pour prédire la meilleure réponse, un token à la fois. C'est pour ça que tu vois souvent les réponses de l'IA apparaître mot par mot — elle génère littéralement chaque morceau l'un après l'autre.
La rapidité de réponse de l'IA
La latence, c'est le délai entre le moment où tu envoies une requête à une IA et le moment où tu commences à recevoir une réponse. Moins de latence = réponse plus rapide. Cela dépend de la taille du modèle, du matériel sur lequel il tourne, de la distance du serveur et du nombre de personnes qui l'utilisent en même temps.
Grand Modèle de Langage
Un LLM, c'est un très gros modèle d'IA (généralement basé sur l'architecture Transformer) qui a été entraîné sur d'énormes quantités de texte pour comprendre et générer le langage humain. « Large » fait référence à la fois à la quantité de données d'entraînement et au nombre de paramètres. Des modèles comme Claude, GPT-4 et Llama sont tous des LLM.
Protocole de Contexte de Modèle
MCP est un standard ouvert (créé par Anthropic) qui permet aux modèles d'IA de se connecter à des outils externes et des sources de données de manière universelle. Au lieu de construire une intégration sur mesure pour chaque outil (Google Drive, Slack, une base de données, etc.), MCP fournit une seule « prise » standard qui marche partout. N'importe quelle IA compatible MCP peut parler à n'importe quel outil compatible MCP — sans code spécifique à chaque fois.
Le savoir appris par l'IA, sous forme de fichier
Les poids (weights), ce sont les nombres qui composent un modèle d'IA entraîné — ils sont le résultat de tout cet entraînement. Quand tu « télécharges un modèle », tu télécharges ses poids. Ces fichiers peuvent être énormes (des dizaines ou des centaines de gigaoctets) et représentent tout ce que le modèle a appris.
La structure qui fait « réfléchir » l'IA
Un réseau de neurones, c'est un système mathématique inspiré du cerveau humain. Il est composé de couches de « neurones » connectés (des petites fonctions mathématiques) qui se transmettent de l'information. Les données entrent d'un côté, sont traitées à travers de nombreuses couches, et un résultat sort de l'autre. Toute l'IA moderne — reconnaissance d'images, modèles de langage, voitures autonomes — est construite sur des réseaux de neurones.
Un agent IA qui contrôle ton ordinateur
OpenClaw (aussi appelé Claw) est un assistant IA gratuit et open source qui vit sur ton ordinateur et peut réellement voir ton écran, utiliser tes applications et faire du vrai travail pour toi. Contrairement à un chatbot qui ne fait que répondre à des questions, OpenClaw est un agent autonome — il peut cliquer sur des boutons, remplir des formulaires, naviguer sur le web, écrire du code, envoyer des messages et automatiser des workflows entiers à travers tes apps. C'est l'un des projets open source à la croissance la plus rapide de l'histoire, avec plus de 80K étoiles sur GitHub.
Qui peut voir le code
Un modèle d'IA open source (comme Llama de Meta ou Mistral) partage son code et ses poids publiquement — n'importe qui peut le télécharger, le modifier et le faire tourner. Un modèle closed source (comme GPT-4 ou Claude) est gardé privé — tu ne peux l'utiliser qu'à travers l'API ou l'appli de l'entreprise. L'open source te donne plus de contrôle et de confidentialité ; le closed source offre souvent de meilleures performances et une mise en place plus facile.
Quand un modèle partage son cerveau, mais pas sa recette
Open weights signifie qu'une entreprise publie les poids entraînés du modèle (le résultat final de l'entraînement) pour que tout le monde puisse le télécharger et l'utiliser, mais sans partager le code d'entraînement, les données d'entraînement, ni le processus complet. C'est différent du vrai open source, où tout est partagé. Des modèles comme Llama de Meta ou Mistral sont open weights — tu peux les utiliser librement, mais tu ne peux pas reproduire exactement comment ils ont été créés.
Les boutons de réglage internes de l'IA
Les paramètres, ce sont les nombres à l'intérieur d'un modèle d'IA qui sont ajustés pendant l'entraînement. Un modèle comme GPT-4 possède des centaines de milliards de paramètres. Plus de paramètres signifie généralement que le modèle peut apprendre des schémas plus complexes et donner de meilleures réponses — mais il a aussi besoin de plus de puissance de calcul pour fonctionner.
Ce que tu dis à l'IA
Un prompt, c'est le texte que tu tapes pour dire à l'IA ce que tu veux. Ça peut être une question, une instruction, ou même un document entier sur lequel tu veux que l'IA travaille. Plus ton prompt est bon et clair, meilleure sera la réponse de l'IA — c'est pour ça que le « prompt engineering » est devenu une compétence importante.
Rendre les modèles d'IA plus petits et rapides
La quantization est une technique qui réduit la taille d'un modèle d'IA en diminuant la précision de ses nombres. Au lieu de stocker chaque paramètre comme un nombre très précis en 32 bits ou 16 bits, on l'arrondit à 8 bits voire 4 bits. Le modèle devient beaucoup plus petit (2x à 8x) et tourne plus vite, avec seulement une légère baisse de qualité. C'est ce qui rend possible de faire tourner des modèles d'IA puissants sur un laptop ou un téléphone au lieu d'avoir besoin d'un énorme serveur.
Génération Augmentée par la Recherche
Le RAG est une technique où l'IA cherche d'abord dans une base de données de documents pour trouver des informations pertinentes, puis utilise ces informations pour générer une réponse plus précise. Au lieu de se fier uniquement à ce qu'elle a mémorisé pendant l'entraînement, l'IA peut consulter des sources réelles et à jour. Cela réduit considérablement les hallucinations.
Une IA que tu possèdes et contrôles entièrement
Le Sovereign AI, c'est le fait de faire tourner ton infrastructure IA sur tes propres serveurs ou dans tes propres centres de données, au lieu de dépendre du cloud d'une grande entreprise tech. De cette façon, tes données ne quittent jamais ton contrôle, tu ne dépends de la plateforme de personne, et tu respectes les réglementations locales. C'est particulièrement important pour les gouvernements, les banques et les entreprises de santé.
Le curseur créativité vs. prévisibilité de l'IA
La température est un réglage (généralement entre 0 et 1) qui contrôle à quel point les réponses de l'IA sont « aléatoires ». Une température basse (comme 0,1) rend le modèle très prévisible et factuel — il choisit le mot suivant le plus probable à chaque fois. Une température haute (comme 0,9) le rend plus créatif et surprenant, mais aussi plus susceptible de faire des erreurs.
La brique de base du texte IA
Un token, c'est un petit morceau de texte qu'un modèle d'IA lit et génère. Ça peut être un mot entier comme « bonjour », un bout de mot comme « in » + « croya » + « ble », ou même un seul caractère. Quand on dit qu'un modèle gère « 128K tokens », cela veut dire qu'il peut lire et retenir environ 100 000 mots de texte en une fois. Les tokens, c'est aussi comme ça que les entreprises d'IA te facturent — tu payes par token envoyé (entrée) et par token généré (sortie). Donc plus ta question est longue et plus la réponse de l'IA est longue, plus ça coûte.
Unité de Traitement Tensoriel
Un TPU est une puce conçue par Google spécifiquement pour les charges de travail IA. Alors que les GPU sont des processeurs parallèles polyvalents réutilisés pour l'IA, les TPU sont construits de zéro pour faire une seule chose extrêmement bien : les calculs tensoriels qui alimentent les réseaux de neurones. Ils sont utilisés dans les centres de données de Google pour entraîner et faire tourner des modèles comme Gemini. Tu ne peux pas acheter un TPU — tu loues l'accès via Google Cloud.
Comment une IA apprend
L'entraînement, c'est le processus qui consiste à enseigner à un modèle d'IA en lui montrant d'énormes quantités de données — des milliards de pages de texte, de code, et plus encore. Pendant l'entraînement, le modèle ajuste des millions (ou milliards) de réglages internes appelés « paramètres » jusqu'à devenir bon pour prédire ce qui vient ensuite dans une phrase. Ce processus nécessite une puissance de calcul énorme et peut prendre des semaines ou des mois.
L'architecture derrière l'IA moderne
Le Transformer est le type d'architecture de réseau de neurones qui fait tourner quasiment tous les modèles de langage modernes (ChatGPT, Claude, Gemini, etc.). Inventé par Google en 2017, son innovation clé est l'« attention » — la capacité de regarder tous les mots d'une phrase en même temps et de déterminer lesquels sont les plus pertinents les uns par rapport aux autres, au lieu de les lire un par un.
Mémoire Vive Vidéo
La VRAM, c'est la mémoire intégrée directement dans le GPU. Quand un modèle d'IA tourne, il a besoin de garder une énorme quantité de données en mémoire en même temps. Plus ton GPU a de VRAM, plus le modèle d'IA qu'il peut faire tourner est gros. C'est pour ça que les GPU haut de gamme avec 80 Go ou plus de VRAM sont si précieux pour l'IA.
Découvrez comment IG1 construit une infrastructure IA souveraine et des solutions IA sur mesure pour les entreprises du monde entier.