El Clúster de Computación Científica incorpora nuevas GPUs de última generación
Dichas GPUs son del modelo NVidia A100 40GB PCIe lo que ofrece aceleración sin precedentes para proveer de mayor rendimiento en IA, análisis de datos y HPC. Estas GPUs ofrecen un rendimiento hasta 20 veces mayor que la generación anterior y puede dividirse en siete instancias de GPU para ajustarse dinámicamente a las demandas de cambio.
En cuanto a entrenamiento de aprendizaje profundo, la complejidad de los modelos de IA se dispara a medida que estos se enfrentan a desafíos de nivel superior, como una IA conversacional. Entrenarlos requiere una enorme potencia de computación y escalabilidad. Los Tensor Cores de estas nuevas GPUs con Tensor Float (TF32) ofrecen un rendimiento hasta 20 veces mayor que el de NVIDIA Volta, sin cambios de código, y un impulso adicional duplicado con precisión mixta automática y FP16.
Por otro lado, en cuanto a inferencia de aprendizaje profundo, las nuevas GPUs presentan innovadoras características para optimizar las cargas de trabajo de inferencia. Aceleran una gama completa de precisión, desde FP32 hasta INT4. La tecnología GPU multiinstancia (MIG) permite que varias redes funcionen simultáneamente en un único A100 para optimizar los recursos de computación. Además, el soporte de dispersión estructural ofrece hasta el doble de rendimiento, junto con las otras mejoras de rendimiento de inferencia.
Finalmente, en cuanto a computación de alto rendimiento, estas GPUs presentan Tensor Cores de doble precisión para ofrecer el mayor salto en el rendimiento de HPC desde la introducción de las GPU. En combinación con los 40 GB de la memoria de GPU más rápida, los investigadores pueden reducir aun más los tiempos de simulación. Las aplicaciones HPC también pueden aprovechar TF32 para lograr hasta 11 veces más rendimiento para operaciones de multiplicación de matrices densas de precisión sencilla.
Architecture: NVIDIA Ampere
GPU clock: 765 MHz (Boost: 1410 MHz)
Memory size: 40 GB HBM2
Memory bus width: 5120 bit
Memory bandwidth: 1,6 TB/s
Cuda cores: 6912
Tensor Cores: 432
Single precision floating point performance: 19,5 Tflops
Double precision floating point performance: 9,7 Tflops