Les poids de Nemotron 3 Super sont téléchargeables, modifiables et hébergeables par n’importe quelle organisation, contrairement aux modèles fermés d’OpenAI ou d’Anthropic. Optimisé nativement pour les GPU NVIDIA, entraîné via NeMo et déployable via NIM, le modèle oriente naturellement les équipes techniques vers les accélérateurs de Santa Clara. Sans compter l’argument commercial d’NVIDIA de distribuer gratuitement un modèle de cette qualité pour l’ensemble de sa chaîne matérielle.
En production, une instance complète en précision FP16 requiert au minimum deux GPU A100 80 Go ou un H100 SXM. Le coût d’inférence tourne autour de 0,10 dollar par million de tokens en entrée et 0,40 dollar en sortie, bien en dessous des modèles propriétaires comparables.
Soit un modèle prêt à la production pour les DSI soucieux de garder leurs données sur leur propre infrastructure, avec une licence ouverte et des recettes d’entraînement publiées. Mais les performances réelles dépendent du déploiement, des données, de la latence, du coût et des contraintes de sécurité propres à chaque organisation.
Source:
www.clubic.com



