CPU NVIDIA Vera en production : le premier silicium conçu pour l’IA agentique

Introduction : Quand le logiciel dépasse le silicium

Depuis trois ans, l’écosystème des agents d’IA fonctionne sur du matériel emprunté. Chaque agent de codage autonome, chaque pipeline de raisonnement multi-étapes, chaque orchestration de serveur MCP — tout cela tourne sur des CPU conçus pour des serveurs web et des requêtes de bases de données, et non pour les schémas de calcul uniques des charges de travail agentiques.

Cette époque a pris fin le 22 juin 2026.

À l’ISC High Performance 2026 à Hambourg, NVIDIA a confirmé que le CPU Vera — brièvement présenté au GTC en mars — est entré en production complète. Contrairement à tous les CPU serveur qui l’ont précédé, Vera n’a pas été conçu pour servir des pages web, exécuter des machines virtuelles ou traiter des lots de travaux. Il a été conçu pour une seule chose : orchestrer des agents d’IA.

Le timing n’est pas un hasard. Les dernières prévisions de Gartner estiment les dépenses logicielles en agents d’IA à 206,5 milliards de dollars en 2026, contre 86,4 milliards en 2025 — une augmentation de 139 % sur une seule année (Source : Gartner — Autonomous Business and AI Layoffs May Create Budget Room But Do Not Deliver Returns). La projection atteint 376,3 milliards de dollars en 2027. Les dépenses logicielles sont déjà là. Le matériel arrive maintenant.

CPU Vera : Ce qu’il y a sous le capot

Vera est un CPU conçu sur une feuille blanche, basé sur l’architecture ARM v9, fabriqué sur un nœud de processus personnalisé. Voici les spécifications qui comptent pour les charges de travail agentiques :

Spécification	CPU Vera	Contexte
Cœurs	88 cœurs Olympus personnalisés	Arm v9, conçus sur mesure
Threads	176 (2 par cœur)	SMT activé
Cache L3	162 Mo	Partagé entre tous les cœurs
Bande passante mémoire par cœur	14 Go/s	~3× les CPU serveur traditionnels
Charge de travail cible	Orchestration d’agents + RL	Contrôle intensive, sensible à la latence

(Source : NVIDIA — Page produit CPU Vera ; NVIDIA Newsroom — Annonce de lancement de Vera)

Le chiffre de 14 Go/s de bande passante par cœur est le plus important. Les charges de travail agentiques ne sont pas limitées par le débit au sens traditionnel — elles sont limitées par la coordination. Un pipeline d’agent d’IA peut générer 40 sous-agents, chacun effectuant des appels API, lisant le contexte et renvoyant des résultats partiels. Le travail du CPU est de gérer des milliers de ces interactions légères et à haute fréquence sans ajouter de latence.

Pourquoi l’IA agentique a besoin d’un silicium différent

Le profil de calcul de l’IA agentique est fondamentalement différent des charges de travail traditionnelles de déploiement et d’entraînement. Comprendre cette différence explique pourquoi Vera existe.

1. Sensibilité à la latence, pas au débit

Un travail d’inférence par lots se soucie des tokens par seconde. Un pipeline d’agent se soucie du temps d’achèvement de bout en bout de la tâche, qui est dominé par les frais généraux de coordination — changement de contexte entre les appels d’outils, analyse des sorties, routage vers l’agent suivant. Chaque milliseconde que le CPU passe en frais généraux est une milliseconde où le GPU reste inactif.

2. Haute densité de changements de contexte

Un serveur MCP gérant 50 sessions d’agents simultanées effectue des changements de contexte continus — chargement des schémas d’outils, validation des entrées, sérialisation des sorties. Les CPU serveur traditionnels optimisent pour les charges de travail homogènes de longue durée. L’orchestration d’agents est l’inverse : des milliers d’opérations courtes et hétérogènes par seconde.

3. Apprentissage par renforcement sur le plan de contrôle

Les systèmes agentiques utilisent de plus en plus des boucles d’auto-amélioration basées sur le RL (DSPy, GEPA, gradients textuels). Ces boucles s’exécutent sur le CPU et impliquent des appels de modèle fréquents, des calculs de gradient et des mutations de prompt — une charge de travail qui ne ressemble en rien à une requête de base de données ou à une requête web.

4. Bande passante mémoire par opération, pas par lot

Le HPC traditionnel optimise la bande passante pour les transferts de données contigus de grande taille. L’orchestration d’agents touche de nombreuses petites régions mémoire (fragments de prompt, sorties d’outils, état de la conversation) dispersées sur les lignes de cache. Le chiffre de 14 Go/s par cœur est précisément conçu pour ce modèle d’accès.

Comme l’a dit Jensen Huang lors de l’annonce de la production : « Vera arrive à un tournant pour l’IA. Alors que l’intelligence devient agentique — capable de raisonner et d’agir — l’importance des systèmes orchestrant ce travail est accrue. Le CPU ne se contente plus de soutenir le modèle ; il le pilote. » (Source : Data Center Dynamics — NVIDIA Vera CPU Enters Full Production)

Los Alamos : Le déploiement phare

La validation la plus significative de l’architecture de Vera vient du Laboratoire national de Los Alamos (LANL), qui a annoncé un déploiement de trois supercalculateurs à l’ISC 2026.

Les trois systèmes — nommés Mission, Vision et Veritas — représentent une mise à jour générationnelle de l’infrastructure de calcul du LANL. Veritas, le plus ambitieux des trois, comportera environ 1 150 CPU NVIDIA Vera autonomes complétant les nœuds GPU Vera Rubin.

Il ne s’agit pas d’un cluster GPU avec quelques CPU pour la maintenance. Les CPU Vera dans Veritas sont déployés en tant que ressources de calcul principales, et non comme des contrôleurs auxiliaires. Ils serviront le programme de recherche et développement dirigé par le laboratoire (LDRD), avec un mandat spécifique pour accélérer l’IA agentique pour la découverte scientifique.

(Source : NVIDIA Blog — NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory)

Ce que signifie réellement « l’IA scientifique agentique »

Le cas d’utilisation du LANL est instructif. Le calcul scientifique dans les laboratoires nationaux implique :

Des simulations multi-physiques où différents modèles doivent se coordonner (dynamique des fluides → analyse structurelle → modélisation thermique)
La conception automatisée d’expériences où des agents d’IA proposent des hypothèses, conçoivent des simulations et interprètent les résultats en boucle fermée
Des agents de recherche conscients de la littérature qui croisent les résultats de simulation avec les découvertes publiées

Tous ces éléments sont des flux de travail agentiques. Ils impliquent de l’orchestration, pas seulement du calcul. Vera est le premier CPU qui traite cette orchestration comme une charge de travail de première classe.

L’écosystème plus large : Qui d’autre déploie Vera ?

Los Alamos est le client vedette, mais il n’est pas seul.

Le Laboratoire national Lawrence Berkeley (NERSC) déploiera le supercalculateur Doudna, également basé sur l’architecture Vera Rubin. NERSC sert plus de 10 000 utilisateurs scientifiques par an dans les domaines de la science des matériaux, de la modélisation climatique et de la génomique — tous des domaines où les pipelines d’IA agentique gagnent du terrain (Source : Stock Titan — NVIDIA Vera Rubin Delivers World-Class Supercomputers for Science).

Les principaux OEM, dont HPE, Dell et Lenovo, se sont engagés à expédier des racks NVIDIA Vera Rubin NVL4 à partir du T4 2026. Le facteur de forme NVL4 — qui couple étroitement les CPU Vera avec les GPU Rubin dans un seul rack — est conçu pour la colocalisation qu’exigent les charges de travail agentiques.

À l’ISC 2026, des partenaires dont DDN, GIGABYTE et HPE ont présenté une infrastructure de bout en bout construite autour de Vera. Le message était cohérent : il ne s’agit pas d’un lancement de GPU avec une note de bas de page sur le CPU. Le CPU est l’histoire principale.

(Source : HPCwire — GIGABYTE Connects AI, HPC, and Next-Gen Infrastructure at ISC 2026 ; DDN — DDN Unveils Next-Generation AI HPC Data Intelligence Innovations at ISC 2026)

Contexte du marché : Le signal des 206,5 milliards de dollars

Le virage matériel a du sens quand on regarde où va l’argent.

Les prévisions de Gartner de mai 2026 estimaient les dépenses logicielles en agents d’IA à 206,5 milliards de dollars pour 2026 — une augmentation de 139 % par rapport aux 86,4 milliards de 2025. La trajectoire s’accélère pour atteindre 376,3 milliards de dollars en 2027.

Mais voici la nuance ajoutée par Gartner : « l’entreprise autonome et les licenciements liés à l’IA peuvent créer des marges budgétaires mais n’apportent pas de retours sur investissement. » Les dépenses sont réelles, mais le ROI n’est pas encore prouvé. Les entreprises achètent des logiciels d’agents plus vite qu’elles ne peuvent les intégrer — et l’intégration signifie infrastructure.

Le rapport Tech Trends 2026 de Deloitte était plus direct : « Les processus conçus pour les travailleurs humains ne fonctionnent pas pour les agents. » L’ensemble de la pile — de l’architecture CPU à la topologie du centre de données — doit être repensé (Source : Deloitte — Tech Trends 2026).

Vera est la réponse de NVIDIA à la question de l’infrastructure. C’est aussi un mouvement concurrentiel. L’AMD EPYC Turin et l’Intel Granite Rapids sont d’excellents CPU serveur, mais aucun n’a été conçu pour l’orchestration d’agents comme charge de travail principale. En définissant une nouvelle catégorie de CPU — le « CPU de calcul agentique » — NVIDIA crée un segment de marché où il n’a pas de concurrent direct.

Ce que cela signifie pour les développeurs d’agents d’IA

Pour les développeurs qui construisent des frameworks, des outils et des plateformes d’agents, l’entrée en production de Vera a plusieurs implications en aval :

1. L’orchestration d’agents devient une charge de travail spécialisée sur le matériel

Aujourd’hui, exécuter un pipeline de 50 agents sur un Xeon ou EPYC standard signifie accepter qu’environ 40 % des cycles CPU soient consacrés à des frais généraux pour lesquels la puce n’a pas été optimisée. Sur Vera, ces frais généraux sont l’objectif de conception. Pour les plateformes d’agents (LangChain, CrewAI, Hermes, AutoGen), cela signifie une latence plus faible et un débit plus élevé sans modifications logicielles.

2. Les agents auto-améliorants bénéficient d’un turbo matériel

Des techniques comme DSPy, les gradients textuels et l’optimisation génétique de prompts exécutent leurs boucles d’optimisation sur le CPU. Un CPU avec 3 fois la bande passante mémoire par cœur accélère directement le taux auquel les agents peuvent s’améliorer.

3. Le calcul scientifique ouvre la voie, l’entreprise suit

Le déploiement du LANL est un modèle qui se répétera dans les produits pharmaceutiques, la science des matériaux, la finance et la logistique — toute industrie où les flux de travail scientifiques multi-agents existent déjà. Les laboratoires nationaux servent de banc d’essai pour le matériel qui atteindra l’entreprise en 2027-2028.

4. L’équilibre CPU-GPU se déplace

Depuis une décennie, les conversations sur l’infrastructure IA sont centrées sur le GPU. Vera signale que le pendule revient — non pas en s’éloignant des GPU, mais vers des architectures où le CPU est un partenaire égal dans le plan d’orchestration des agents.

FAQ

Q : Vera est-il disponible à l’achat aujourd’hui, ou s’agit-il d’un lancement sur papier ?

R : La production complète signifie que le silicium est en cours de fabrication et de validation. Les systèmes OEM (HPE, Dell, Lenovo) expédieront les racks NVIDIA Vera Rubin NVL4 à partir du T4 2026. Le déploiement de Los Alamos est un déploiement pluriannuel commençant en 2027.

Q : Comment Vera se compare-t-il à l’AMD EPYC ou à l’Intel Xeon pour les charges de travail non agentiques ?

R : Vera est conçu sur mesure. Pour les charges de travail serveur traditionnelles (serveur web, bases de données, virtualisation), l’EPYC et le Xeon restent compétitifs ou supérieurs. L’avantage de Vera est spécifique à l’orchestration d’agents, aux boucles d’apprentissage par renforcement et aux changements de contexte à haute concurrence. Ce n’est pas un remplacement à usage général.

Q : Mon framework d’agent doit-il être réécrit pour Vera ?

R : Non. Vera exécute un Linux ARM v9 standard. Tout framework d’agent compilé pour ARM fonctionnera. Les gains de performance proviennent de la microarchitecture — caches plus grands, bande passante par cœur plus élevée, prédiction de branche optimisée pour le code de coordination — et non d’un nouvel ISA ou d’une nouvelle API.

Q : Quelle est la relation entre le CPU Vera et le GPU Vera Rubin ?

R : Vera est le CPU ; Vera Rubin est le GPU. Ils sont conçus comme une architecture appairée (la plateforme Vera Rubin). Le facteur de forme du rack NVL4 les couple étroitement, les CPU Vera gérant l’orchestration et les GPU Rubin gérant l’inférence et l’entraînement des modèles.

Q : Est-ce la fin du x86 pour l’infrastructure IA ?

R : Pas immédiatement. ARM gagne du terrain dans le centre de données (AWS Graviton, Ampere, maintenant Vera), mais x86 a une base installée et un écosystème massifs. Vera crée une nouvelle catégorie — le calcul agentique — qui ne remplace pas directement x86 mais définit une charge de travail où ARM a un avantage sur feuille blanche.

Pour aller plus loin

NVIDIA Launches Vera CPU, Purpose-Built for Agentic AI — Annonce officielle (mars 2026)
NVIDIA Vera CPU Product Page — Spécifications techniques
Everything You Need to Know About the NVIDIA Vera CPU — Radiant, 5 juin 2026
NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos — NVIDIA Blog, 22 juin 2026
NVIDIA Gets All Agentic About Supercomputing for Scientific Research — The Register, 22 juin 2026
NVIDIA Vera CPU Enters Full Production, Pitched at Agentic AI Workloads — Data Center Dynamics, 22 juin 2026
AI Spending Forecasts 2026: Gartner, IDC & Stanford — Digital Applied, 12 juin 2026
Gartner: AI Agent Software Spend to Hit $206.5B in 2026 — Gartner, 5 mai 2026

The Agent Report couvre l’intersection des agents d’IA, de l’infrastructure et des entreprises qui construisent l’avenir autonome. Pour des mises à jour quotidiennes, suivez notre couverture la plus récente.