El lanzamiento del silicio de segunda generación de Microsoft consolida su misión de escalar las cargas de trabajo de IA y controlar directamente más de su infraestructura.
Microsoft ha anunciado el lanzamiento de Maia 200, un acelerador de inteligencia artificial de próxima generación destinado a reforzar sus capacidades de inferencia internas.
Maia 200 es el último acelerador de IA en la familia de chips Maia del gigante tecnológico , basado en el proceso de 3 nm de TSMC, que proporciona 10 petaflops con precisión de 4 bits (FP4) y aproximadamente 5 petaflops con precisión de 8 bits (FP8).
Esto lo convierte en un potente dispositivo de hardware para la inferencia de IA (Microsoft ha afirmado que puede ejecutar los modelos fronterizos más grandes sin problemas) y está listo para futuros lanzamientos.
Microsoft comparó favorablemente el rendimiento de Maia 200 con el hardware de la competencia, afirmando que ofrece un rendimiento FP4 tres veces superior al del Trainium3 de Amazon y un rendimiento FP8 mejor que el TPU v7 de Google , que alcanza los 4,61 petaflops.
A partir de hoy, Maia 200 está activo en su región de centros de datos de US Central y Microsoft reveló que su región US West 3 es la siguiente en la lista.
¿Qué tan potente es Maia 200?
Si bien el rendimiento computacional bruto es un parámetro sólido para medir qué tan bien un chip puede ejecutar modelos de IA, el ancho de banda de los datos es una preocupación central.
Es un factor particularmente crítico para las empresas que buscan inferir IA con la menor latencia posible para cargas de trabajo críticas, como agentes de IA, así como para brindar servicios de IA escalables en la nube pública.
Maia 200 tiene 256 GB de memoria de alto ancho de banda de quinta generación (HBM3E), capaz de alcanzar velocidades de transferencia de 7 TB/seg.
Los ingenieros de Microsoft también han rediseñado el subsistema de memoria de Maia 200 para priorizar los tipos de datos de precisión estrecha y conservar los pesos y datos del modelo central para reducir la transferencia general de datos entre los componentes en el proceso de inferencia.
A nivel técnico, esto significó implementar un nuevo motor de acceso directo a memoria (DMA), una red en chip (NoC) hecha a medida y 272 MB de memoria de acceso aleatorio estática (SRAM) en chip para permitir la transferencia de datos de gran ancho de banda y mantener los pesos cerca de las unidades de procesamiento.
Cada acelerador Maia 200 tiene una capacidad de ampliación de ancho de banda de 1,4 TB/seg.
Los hiperescaladores expanden el silicio personalizado
Microsoft anunció por primera vez el chip Maia 100 en noviembre de 2023, con el objetivo declarado de impulsar servicios como Microsoft Copilot y Azure OpenAI Service en sus centros de datos, así como ejecutar entrenamiento para modelos.
No es la única empresa que reduce su dependencia de diseños de chips de terceros como AMD y Nvidia: AWS se apoya fuertemente en sus chips Trainium e Inferentia y la mayor parte de las cargas de trabajo de inteligencia artificial principales de Google se completan utilizando sus unidades de procesamiento tensor (TPU) .
La familia de chips Maia está diseñada para complementar, en lugar de reemplazar, el uso de chips AMD y Nvidia por parte de Microsoft. Sin embargo, las ventajas inherentes de Maia 200 hacen probable que, en un futuro próximo, un mayor porcentaje de las cargas de trabajo principales de Microsoft puedan ejecutarse en su propio silicio.
Por ejemplo, el hiperescalador enfatizó que Maia 200 fue cuidadosamente optimizado para el plano de control de Azure y los sistemas de enfriamiento propietarios de Microsoft.
Todo esto significa que Maia 200 puede pasar de la entrega a la implementación en sus centros de datos en solo unos días, reduciendo a la mitad el cronograma general del programa de infraestructura de inteligencia artificial interna de Microsoft.
Además de eso, la eficiencia energética mejorada de Maia 200 tiene como objetivo reducir el costo energético de ejecutar cargas de trabajo de IA en Azure.
Para empezar, el equipo de Superinteligencia de Microsoft utilizará Maia 200 para generar datos sintéticos y mejorar los modelos de IA internos.















