NVIDIA Blackwell Ultra B300 : L'abandon du FP64 natif pour l'inférence massive
NVIDIA change radicalement de stratégie avec l'architecture Blackwell Ultra (B300) en sacrifiant le calcul haute précision au profit de l'inférence pour les modèles de l'ère du raisonnement. Pour la p

Le Pitch
NVIDIA change radicalement de stratégie avec l'architecture Blackwell Ultra (B300) en sacrifiant le calcul haute précision au profit de l'inférence pour les modèles de l'ère du raisonnement. Pour la première fois depuis 2010, une carte grand public comme la RTX 5090 surpasse le flagship enterprise en calcul double précision (FP64). Ce pivot technique vise explicitement le déploiement à l'échelle de modèles à mille milliards de paramètres.
Sous le capot
Le fait technique est brutal : le Blackwell Ultra B300 ne délivre que 1,39 TFLOPS en FP64 (source: Tom's Hardware, Aug 2025), contre 1,64 TFLOPS pour une RTX 5090 (source: nicolasdickenmann.com, Feb 2026). NVIDIA a physiquement réduit les unités de calcul 64 bits pour libérer de l'espace silicium pour les cœurs basse précision (FP4/FP8). C'est une rupture historique avec les générations H100/B200 qui affichaient entre 37 et 40 TFLOPS sur ce segment (source: Tom's Hardware, Aug 2025).
Le B300 embarque 288 Go de mémoire HBM3e et devient le premier GPU à supporter officiellement le PCIe 6.0 (Hot Chips 2025 proceedings). Pour compenser l'absence de hardware dédié, le FP64 est désormais émulé via des wrappers logiciels utilisant les Tensor Cores. Cette approche pose des risques réels de dégradation de précision (overflow/underflow) par rapport au standard IEEE-754 (source: HN Comment 2).
La consommation électrique atteint des sommets avec un TDP de 1 400W par unité. Ce chiffre impose une infrastructure de refroidissement liquide type GB300 NVL72, rendant l'intégration en air-cooling impossible. Les charges de travail scientifiques (HPC) commencent déjà à migrer vers les solutions AMD MI300/MI350 qui conservent un support FP64 natif supérieur (source: Reddit r/CUDA).
On ne dispose toujours pas de vérification indépendante concernant le gain d'efficacité de 50x en inférence promis par le marketing. Les tarifs exacts du B300 restent également flous, NVIDIA privilégiant la vente de racks complets plutôt que de cartes à l'unité (Dossier UsedBy).
L'avis de Ruben
Le B300 n'est plus un GPU généraliste, c'est un ASIC d'inférence déguisé. Si votre stack tourne sur des modèles à mille milliards de paramètres, la densité de calcul NVFP4 est un argument de poids pour réduire la latency. Mais pour tout ce qui touche à la simulation physique ou au calcul scientifique rigoureux, NVIDIA vient de vous fermer la porte. À 1 400W par carte, espérons que votre datacenter est situé à côté d'un réacteur nucléaire ou d'une station de ski à chauffer. Pour la prod IA, on fonce ; pour le HPC, on part chez AMD.
Codez propre,
Ruben.

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai
Articles connexes

Tin Can : Analyse technique du terminal VOIP pour enfants
Tin Can est un terminal VOIP Wi-Fi et Ethernet conçu pour remplacer le smartphone chez les mineurs via un système de liste blanche. L'appareil mise sur un design nostalgique sans écran pour limiter l'

PC Gamer prône la sobriété web avec une page de 37 Mo
PC Gamer appelle ses lecteurs à "tuer l'algorithme" en revenant aux flux RSS pour échapper à l'en-shittification du web moderne. Le sujet s'est transformé en cas d'école sur Hacker News à cause d'un p

Stratégie POSSE : l’état de l’art de la syndication de contenu en 2026
Le POSSE (Publish on your Own Site, Syndicate Elsewhere) vise à reprendre le contrôle total sur la propriété des données. L'idée est de centraliser l'autorité sur son propre domaine tout en exploitant
Restez à la pointe des tendances d'adoption de l'IA
Recevez nos derniers rapports et analyses directement dans votre boîte mail. Pas de spam, que des données.