Blog
Tarjetas NVIDIA para IA – Ada Lovelace y Blackwell en la práctica

NVIDIA Ada Lovelace y Blackwell en aplicaciones de AI – selección práctica de GPU
En proyectos basados en grandes modelos de lenguaje (LLM), lo clave no es la potencia teórica de la GPU, sino el rendimiento predecible y la estabilidad en escenarios concretos. Este artículo muestra cómo seleccionar tarjetas NVIDIA para AI basándose en TPS, tamaño del modelo y escala de implementación, desde chatbots simples hasta entornos empresariales.
Contexto de hardware

Ada Lovelace y Blackwell
Estas arquitecturas se analizan no desde benchmarks de marketing, sino desde escenarios reales de inferencia: número de usuarios, tamaño del modelo y TPS objetivo.
1) TPS (tokens/s): métrica práctica de throughput LLM
En entornos productivos, las métricas teóricas no reflejan la experiencia real del usuario. Para LLM, la métrica más simple y comprensible es
TPS
.| Nivel | TPS | TPM | Efecto típico |
|---|---|---|---|
| Fluidez limitada | 5 TPS | 300 tokens/min | retraso perceptible en la generación |
| Trabajo cómodo | 20 TPS | 1 200 tokens/min | generación estable en la mayoría de aplicaciones |
| Alto throughput | 100 TPS | 6 000 tokens/min | capacidad para manejar más sesiones |
Notas metodológicas: TPS depende del modelo, cuantización, longitud del contexto, motor de inferencia y perfil de paralelismo (multi-sesión / batch).
2) 7B / 13B / 70B – qué significa el tamaño del modelo
Las etiquetas 7B/13B/70B indican el número de parámetros del modelo:
1B = 1 mil millones de parámetros
. Más parámetros suelen aumentar la calidad de las respuestas y la capacidad de razonamiento, pero elevan los requerimientos de VRAM y throughput de la GPU.| Clase | Parámetros | Aplicaciones típicas | TPS objetivo típico |
|---|---|---|---|
Modelos 7–8B | 7–8 mil millones | chatbots, RAG, Q&A, resúmenes | 50–100+ TPS |
Modelos 13B | 13 mil millones | AI corporativa, documentos, respuestas largas | 40–70 TPS |
Modelos 70B | 70 mil millones | Análisis avanzados, agentes AI, tareas especializadas | 15–25 TPS |
Nota práctica:
un modelo más grande no siempre significa mejor resultado empresarial. En muchos casos,13B con TPS estable
ofrece mejor utilidad que 70B con bajo throughput o alta latencia.3) Referencia a ChatGPT – escala de modelos
Para comparar:
GPT-3
tenía aproximadamente175B
parámetros. En GPT-4 y posteriores, OpenAI no publica cifras oficiales y las estimaciones disponibles varían. La conclusión práctica es que los servicios tipo ChatGPT funcionan a hiperescalas y se optimizan para paralelismo y uso de múltiples GPUs.| Nivel | Parámetros | Implicación para la infraestructura |
|---|---|---|
| 7-13B | 7-13 mil millones | normalmente suficiente para implementaciones corporativas (RAG/chatbots) |
| 70B | 70 mil millones | requiere GPU potente y disciplina en la selección de contexto/cuantización |
| GPT-3 | ~175 mil millones | escala en la nube; normalmente no se apunta a un solo GPU |
| GPT-4 / posteriores | no divulgado | hiperescala + optimizaciones; comparaciones 1:1 con on-prem no son adecuadas |
4) Mapeo de requerimientos: escenario → modelo → TPS objetivo
Chatbot / RAG para departamento o app
- Modelo:
7-8B
- Objetivo: generación estable, baja latencia
- TPS objetivo:
50-100+ TPS
(sesión individual)
AI corporativa (respuestas más complejas, documentos)
- Modelo:
13B
- Objetivo: mejor calidad de respuesta con TPS predecible
- TPS objetivo:
40-70 TPS
Análisis avanzados y tareas especializadas
- Modelo:
70B
- Objetivo: calidad y razonamiento; compromiso entre costo y throughput
- TPS objetivo:
15-25 TPS
Enterprise: paralelismo + contexto largo
- Modelo: 70B+ o multi-sesión
- Objetivo: TPS estable bajo carga, contexto largo (p.ej., 32k)
- TPS objetivo:
30+ TPS
por modelo + margen para paralelismo
5) Comparación TPS: RTX 6000 Ada vs RTX PRO 6000 Blackwell
A continuación, rangos aproximados de TPS para escenarios típicos de inferencia. Valores orientativos para sizing inicial y selección de GPU.
| Escenario | RTX 6000 Ada | RTX PRO 6000 Blackwell | Interpretación |
|---|---|---|---|
LLM 7–8B (FP16/FP8) | 90-120 TPS≈ 5 400-7 200 TPM | 180-220 TPS≈ 10 800-13 200 TPM | mayor throughput y margen para paralelismo |
LLM 13B (FP16/FP8) | 45-65 TPS≈ 2 700-3 900 TPM | 95-120 TPS≈ 5 700-7 200 TPM | manejo estable de cargas corporativas, mejor margen |
LLM 70B (INT8 / 4-bit) | 15-20 TPS≈ 900-1 200 TPM | 30-40 TPS≈ 1 800-2 400 TPM | Blackwell reduce caídas de TPS bajo carga alta |
Contexto largo (32k) | 8-12 TPS≈ 480-720 TPM | 18-25 TPS≈ 1 080-1 500 TPM | crítico para análisis de documentos grandes (legal/finanzas) |
Diferencias arquitectónicas en la práctica:
Ada Lovelace es costo-efectiva para muchas implementaciones, mientras que Blackwell justifica el costo cuando se requieren paralelismo alto, contexto largo y TPS estable bajo carga.Por qué no comparamos GeForce con RTX / RTX PRO en AI productivo
En implementaciones AI surge la pregunta:
“¿por qué pagar más por tarjetas profesionales si hay opciones más baratas?”
Esto se basa en un error: no son intercambiables. Las tarjetas de consumo y profesionalesresuelven problemas distintos
.Las
RTX / RTX PRO
están diseñadas paratrabajo continuo
,carga predecible
y entornos productivos donde importa TPS estable, multi-sesión y modelos más grandes con contexto largo.VRAM y escala de modelos:
modelos grandes (13B/70B), contexto largo y multi-sesión revelan límites de GPUs de consumo.Trabajo 24/7:
las cargas de inferencia son continuas; la estabilidad y previsibilidad son críticas.Funciones enterprise:
virtualización, drivers optimizados, perfiles multiusuario son base para servicios productivos.Escalabilidad sin degradación:
al aumentar usuarios, contexto y complejidad, mantener TPS estable es clave.
Las GPUs de consumo no son una alternativa más barata para AI en producción; son para otro perfil de uso. La selección debe basarse en
modelo
,TPS objetivo
y SLA.Nota: aplica a proyectos productivos y multi-sesión. La selección de GPU depende del workload, perfil de tráfico y SLA.
6) Recomendaciones de selección según uso
Recomendación: Ada Lovelace (RTX 6000 Ada) – cuando importa costo/TPS
- Workload: chatbots, RAG, AI corporativa 7–13B, y 70B en escala limitada.
- Prioridad: alta eficiencia costo, TPS predecible en escenarios estándar.
Recomendación: Blackwell (RTX PRO 6000 Blackwell) – cuando importa escala y SLA
- Workload: 70B+ multi-sesión, contexto largo, requerimientos enterprise.
- Prioridad: mayor throughput, estabilidad bajo carga, margen para paralelismo.
Conclusión:
La tarjeta más cara tiene sentido en proyectos que requierenparalelismo
,contexto largo
yTPS estable
en producción.Selección de GPU para AI en ESUS IT
Seleccionamos configuraciones de GPU según modelo, contexto, número de sesiones y TPS/SLA objetivo. Si es necesario, preparamos sizing y recomendación de arquitectura (Ada/Blackwell).
Notas metodológicas: los rangos de TPS son aproximados. Resultados dependen de modelo, cuantización, contexto, motor de inferencia, paralelismo y configuración de la plataforma.
© ESUS IT • Material educativo: GPU para AI



