




Corría el año 2013 y Jeff Dean, uno de los directores de Google, se dio cuenta de algo Junto con su equipo: si cada usuario de Android utilizara su nueva función de búsqueda por voz durante tres minutos al día, la empresa tendría que duplicar el número de centros de datos para gestionar la carga informática. En ese momento, Google utilizaba CPU y GPU estándar para esta tarea, pero entró en pánico y se dio cuenta de que necesitaban desarrollar sus propios chips para estas tareas.
Así nació La primera unidad de procesamiento tensorial (TPU) de Googleun ASIC diseñado específicamente para alimentar las redes neuronales que respaldan sus servicios de voz. Esto creció y creció y en 2015, antes de que el mundo se diera cuenta, estos primeros TPU estaban acelerando Google Maps, Google Photos y Google Translate. Una década después, Google ha desarrollado unos TPU tan potentes que casi sin querer se han convertido en un producto sorprendente y sorprendente. amenaza inesperada para la todopoderosa NVIDIA. No hay nada ahí.
Pánico dichoso.
Las TPU de Google hacen lo que prometen
Hasta ahora, cuando una empresa de IA quería entrenar sus modelos, confiaba en chips avanzados de NVIDIA. Esto ha estado cambiando recientemente y, de hecho, recientemente hemos visto dos señales que ciertamente representan un punto de inflexión.
El primero fue la introducción de Claude Opus 4.5, un modelo excepcional, especialmente en tareas de programación. Los responsables de Anthropic ya lo hacen ellos explicaron que este nuevo modelo no depende sólo de NVIDIA, sino que combina las prestaciones de tres propuestas diferentes: la de NVIDIA, pero también la Trainium de Amazon y las TPU de Google.
pero eso es todo Google ha tocado el timbre Porque su nuevo modelo de IA Gemini 3 fue entrenado exclusivamente con los nuevos TPU Ironwood, que se presentaron en abril y se han convertido en una verdadera sensación.
Como decía, Google inició este proyecto en 2013 y lanzó su primera TPU en 2015, pero esta necesidad interna se convirtió en una bendición, porque lo que Google no podía imaginar es que estas TPU acabarían llegando en el momento adecuado: el lanzamiento de ChatGPT las convirtió en una oportunidad fantástica para reforzar su infraestructura de IA pero también para utilizarla para el entrenamiento e inferencia de sus modelos de IA.
De ahí llegamos finalmente a los actuales TPU Ironwood, que en su séptima generación son excepcionales tanto en inferencia como en entrenamiento (como lo demostró su uso para Gemini 3).
La eficiencia y el rendimiento de estos chips dan como resultado un salto muy notable en comparación con sus predecesores y, por ejemplo, logran Doble rendimiento de FLOPS por vatio lo que se logró con los chips Trillium.
Si los comparamos con los TPU v5p de 2023, los chips alcanzan los 4.614 TFLOPS, diez veces más que los 459 TFLOPS de estos modelos de hace dos años. Es un salto extraordinario en rendimiento (y eficiencia).
La clave para 2025: Google ahora deja que otros utilicen sus TPU
Pero hay otro diferenciador en el desarrollo de las TPU en 2025. Este fue el año Google ha dejado de ser “egoísta” con sus TPU. Antes sólo ella podía utilizarlos, pero en los últimos meses ha hecho gestiones con OpenAI – que también pretende producir sus propios chips – y en particular con Anthropic.
Esta segunda alianza es particularmente monumental como parte de esta estrategia de subcontratación. Google no sólo alquila capacidad en su nube, sino que también permite la venta física de hardware. El acuerdo cubre un millón de TPU: 400.000 unidades del Ironwood TPUv7 se venderán directamente a través de Broadcom y 600.000 se alquilarán a través de Google Cloud (GCP).
en uno informe detallado en SemiAnálisis Resulta que el TPUv7 Ironwood es un competidor formidable desde una perspectiva técnica. La brecha de rendimiento con NVIDIA se está cerrando y El TPU de Google es prácticamente idéntico al chip Blackwell de NVIDIA en FLOPS y ancho de banda de memoria.
Sin embargo, la verdadera ventaja reside en el coste. Google estima que el costo total de propiedad (TCO) de un servidor Ironwood es un 44% menor que el de un servidor NVIDIA GB200, lo que permite al gigante de las búsquedas ofrecer precios muy competitivos a clientes como Anthropic.
Para ayudar aún más en esta carrera, señalan en SemiAnalysis que Google tiene otro as bajo la manga. Se trata de Inter-Chip Interconnect (ICI) de Google, una arquitectura de red que permite la conexión de hasta 9.216 chips Ironwood a través de una topología toroidal 3D.
Google también utiliza conmutadores de circuitos ópticos que permiten enrutar datos ópticos sin conversión eléctrica, lo que reduce tanto la latencia como el consumo de energía. Esto le permite reconfigurar rápidamente la topología de esta red para evitar (o mitigar) fallas y optimizar diferentes tipos de concurrencia.
El “foso” de NVIDIA con CUDA se está reduciendo
Hemos repetido muchas veces que, si bien los fabricantes de semiconductores ya tienen chips llamativos (llámelos simplemente AMD), la verdadera fortaleza de NVIDIA radica en CUDA, la plataforma de software que se ha convertido en el estándar de facto para los desarrolladores e investigadores de IA.
Google también quiere cambiar algo aquí. En los últimos años, la empresa ha intentado centrarse en bibliotecas de Python como JAX cualquiera XLApero recientemente ha comenzado a priorizar el soporte nativo de PyTorch – un importante competidor de TensorFlow – en sus TPU.
Esto es fundamental para facilitar a los ingenieros y desarrolladores la transición a sus TPU en lugar de las GPU NVIDIA. Solía ser posible usar PyTorch en TPU, pero era engorroso, como tener que hablar un idioma en tiempo real usando un diccionario, mientras que para las GPU NVIDIA este era el idioma «nativo».
Con XLA, Google utilizó una biblioteca intermedia como traductor para poder utilizar PyTorch, pero eso fue una pesadilla para los desarrolladores. El soporte nativo permite que las TPU de Google se comporten como las GPU de NVIDIA a los ojos del desarrollador.
El otro gran avance que está haciendo Google en software va dirigido a esto Apoyando el ecosistema de inferencia abierto. Aquí, vLLM y SGLang son como un motor de alto rendimiento para un auto de carreras: estas bibliotecas de software le permiten ejecutar modelos de IA de manera eficiente y rentable, y se ejecutaron de fábrica en las GPU NVIDIA.
La solución de Google para usar vLLM fue nuevamente tomar este código y traducirlo a JAX en tiempo real, lo cual fue ineficiente. No hubo optimización, pero Google sí abordar este problema con un grupo de trabajo que una vez más propone un soporte significativamente mayor «nativo» en las TPU de Google. Esto se encuentra actualmente en pleno desarrollo, pero también pretende “reducir el foso” que tiene NVIDIA, lo cual es una ventaja clave para seguir dominando este mercado.
Por tanto, nos enfrentamos a un posible punto de inflexión en el mundo de los fabricantes de chips de IA. La situación actual de Google representa claramente la mayor amenaza para NVIDIA hasta la fecha.
Ya no estamos tratando con un proveedor de infraestructura en la nube que optimiza sus propias cargas de trabajo, sino con una empresa que vende soluciones completas y ofrece mejor rendimiento por dólar, mayor escala de red y una hoja de ruta prometedora en el espacio del software.
Nvidia tener problemasNaturalmente. Veremos cómo reacciona.
En | El problema de AMD no es que no fabrica buenas GPU para IA. Ni siquiera se acerca a NVIDIA











