“NVIDIA choisit Hermes Agent comme runtime de référence pour Nemotron 3 Ultra, son modèle de raisonnement ouvert de 550B”

Le 4 juin, NVIDIA a lancé Nemotron 3 Ultra — son modèle ouvert le plus vaste et le plus performant à ce jour : 550 milliards de paramètres au total, 55 milliards actifs par inférence, construit sur une architecture hybride Mamba-Transformer Mixture-of-Experts. L’essentiel : il est conçu spécifiquement pour les agents autonomes de longue durée, et non pour les échanges conversationnels uniques.

Hier, NVIDIA a rendu le sous-texte explicite. Un nouvel article technique — publié il y a quelques heures à peine — présente un tutoriel complet d’un flux d’auto-recherche propulsé par Hermes Agent + Nemotron 3 Ultra. Pas une simple mention. Pas un « fonctionne aussi avec ». Le cadre agent de référence.

« Ce tutoriel montre comment lancer et exécuter un flux d’auto-recherche en utilisant Hermes Agent propulsé par Nemotron 3 Ultra sur build.nvidia.com. »

Ce que Nemotron 3 Ultra apporte aux agents

Nemotron 3 Ultra n’est pas seulement imposant — il est architecturalement optimisé pour le type de raisonnement soutenu et multi-tours dans lequel excelle Hermes Agent :

Spécification	Détail
Architecture	Hybride Mamba-Transformer, MoE latente, prédiction multi-tokens
Paramètres	550B total / ~55B actif par inférence
Fenêtre de contexte	256K tokens natifs
Entraînement	~20 000 milliards de tokens, post-entraîné avec MOPD (Distillation multi-enseignants sur politique)
Licence	Entièrement ouverte — poids, données et recettes disponibles
Efficacité des coûts	Jusqu’à 30 % de réduction du coût des tâches agentiques par rapport aux modèles comparables (benchmarks NVIDIA)

Le modèle a été pré-entraîné sur les clusters NVIDIA de décembre 2025 à avril 2026, et post-entraîné sur des données de haute qualité, curatées et synthétiques, en 10 langues. SGLang et Miles LMSYS ont fourni un support de service dès le premier jour.

L’architecture de la couche d’orchestration

NVIDIA ne positionne pas Nemotron 3 Ultra comme un modèle universel. L’architecture technique est explicitement hiérarchisée : Ultra gère les appels de raisonnement complexes — planification, délégation, validation — tandis que des modèles plus petits et moins coûteux traitent les étapes simples à haute fréquence. Cela s’intègre parfaitement à l’architecture multi-modèles d’Hermes Agent, où les tâches secondaires (compression, génération de titres, recherche de sessions) s’exécutent déjà sur des modèles auxiliaires plus légers.

En pratique, cela signifie :

Nemotron 3 Ultra → raisonnement, recherche, chaînes d’outils complexes
Modèles moins coûteux (ex. : DeepSeek-V4-Flash, Gemini Flash) → appels d’outils à haute fréquence, complétions simples
Hermes Agent → la boucle d’orchestration qui achemine entre eux

Post-entraînement Prime Intellect : optimisé spécifiquement pour Hermes

L’alignement va plus loin qu’un simple article de blog. Prime Intellect a publié des recettes de post-entraînement pour Nemotron 3 Ultra qui ciblent Hermes Agent, OpenCode et Mini SWE Agent comme environnements d’exécution cibles — ce qui signifie que les données de post-entraînement et les environnements d’apprentissage par renforcement ont été sélectionnés en tenant compte des workflows agentiques multi-tours de type Hermes, et non des benchmarks génériques de chatbot.

Le post-entraînement du modèle est donc explicitement optimisé pour le mode de fonctionnement d’Hermes Agent : raisonnement soutenu à travers planification → invocation d’outils → délégation à des sous-agents → boucles de validation, avec un volume de tokens qui s’accumule tour après tour.

Pourquoi cela importe

Il ne s’agit pas simplement d’une nouvelle annonce de support de modèle. C’est un alignement structurel entre le fabricant de GPU dominant au monde et le framework d’agents open source à la croissance la plus rapide :

NVIDIA valide la catégorie des environnements d’exécution agentiques. En nommant Hermes Agent aux côtés d’OpenClaw comme les principaux cadres agents pour leur modèle phare, NVIDIA traite les environnements d’exécution agentiques comme une infrastructure — et non simplement comme un cas d’usage.
Boucle d’optimisation matériel-logiciel. Nemotron 3 Ultra a été entraîné sur des clusters NVIDIA DGX. Hermes Agent s’intègre déjà à NVIDIA NIM et fonctionne sur les PC RTX. La pile complète — GPU → inférence → modèle → agent → compétences — dispose désormais d’un chemin d’optimisation cohérent.
L’efficacité des coûts débloque la production. Une réduction de 30 % des coûts sur les tâches agentiques est extrêmement importante pour les agents autonomes toujours actifs. Tâches planifiées, assistants de recherche, opérateurs d’infrastructure — ces systèmes fonctionnent pendant des heures ou des jours. Une réduction de 30 % s’accumule de manière spectaculaire.
Les poids ouverts signifient auto-hébergement. Contrairement aux modèles propriétaires qui nécessitent un accès API à des fournisseurs spécifiques, les poids ouverts de Nemotron 3 Ultra permettent aux utilisateurs d’Hermes Agent d’exécuter la pile complète localement — sur du matériel NVIDIA, avec la pile de service optimisée de NVIDIA, en utilisant un modèle ouvert entraîné pour les workflows agentiques.

Le signal viral

La communauté l’a remarqué. Un fil viral de @PrajwalTomar_ — « Hermes Agent est DÉCHAÎNÉ maintenant et la plupart des développeurs n’en ont aucune idée » — circule depuis le 10 juin, mentionnant explicitement la combinaison Nemotron Ultra + Hermes Desktop comme un tournant. Le fil note que les deux sont arrivés la même semaine : l’aperçu public d’Hermes Desktop le 2 juin, Nemotron 3 Ultra le 4 juin.

Ce qu’il faut surveiller

Nemotron 3 Ultra est disponible dès maintenant via build.nvidia.com et en poids ouverts sur Hugging Face. Les utilisateurs d’Hermes Agent peuvent déjà basculer vers lui avec hermes model — le chemin d’intégration existe via NVIDIA NIM et OpenRouter.

L’histoire plus large à suivre : alors que NVIDIA continue d’investir dans des modèles optimisés pour les agents, la position d’Hermes Agent en tant qu’environnement d’exécution de référence crée une boucle de rétroaction. De meilleurs modèles → des agents plus performants → plus de compétences créées → une demande accrue pour de meilleurs modèles. La boucle d’auto-évolution GEPA, couverte dans notre dernier rapport, a désormais un partenaire au niveau matériel.

La guerre des agents ne concerne plus seulement les frameworks. Elle concerne l’intégration verticale complète — et NVIDIA vient de choisir son camp.