Nvidia apuesta por datos sintéticos y adquiere Gretel reforzando su ecosistema IA
- Kevin Anderson

- 23 mar
- 6 Min. de lectura
En un movimiento estratégico que marca un nuevo capítulo en la evolución del entrenamiento de inteligencia artificial, Nvidia ha adquirido la startup Gretel, especializada en generación de datos sintéticos. La operación supera los 320 millones de dólares y posiciona a la empresa como líder en soluciones escalables para el desarrollo de modelos de IA en sectores críticos como la salud, la banca y la industria automotriz.
Tabla de contenidos

¿Por qué Nvidia invierte en datos sintéticos?
En un contexto donde el acceso a datos reales está cada vez más restringido por normativas de privacidad y derechos de autor, los datos sintéticos emergen como una alternativa poderosa. Nvidia lleva años desarrollando herramientas como Omniverse Replicator y modelos generadores como Nemotron-4 340B, diseñados para crear datos artificiales con alta precisión física y semántica.
Con la compra de Gretel —una startup con más de 80 empleados y una sólida base tecnológica en privacidad diferencial— Nvidia no solo incorpora talento, sino también una plataforma de APIs que permite a los desarrolladores crear datasets artificiales sin necesidad de comprometer datos personales reales.
Beneficios de los datos sintéticos en comparación con los datos reales
Esta tabla destaca cómo los datos sintéticos ofrecen ventajas significativas en términos de privacidad, escalabilidad y control de sesgos, aspectos que Nvidia busca potenciar con la adquisición de Gretel.
¿Qué es Gretel y por qué es importante para NVIDIA?
Fundada en 2019 por Alex Watson, John Myers y Ali Golshan (actual CEO), Gretel no crea modelos fundacionales, sino que ajusta modelos open source añadiendo mecanismos de privacidad avanzados. Antes de la adquisición, había recaudado más de 67 millones en capital de riesgo, según PitchBook.
Gretel permite a organizaciones sin acceso a grandes datasets —como hospitales o entidades financieras— generar datos seguros, balanceados y listos para entrenar IA, sin depender de información sensible o costosa.
“Con Gretel podemos escalar datos sintéticos con un enfoque centrado en la privacidad desde el diseño”, comentó Jensen Huang, CEO de Nvidia, durante su keynote en el CES 2025.
Características principales de Gretel
Esta tabla proporciona una visión general de Gretel, resaltando su experiencia en datos sintéticos y su relevancia estratégica para Nvidia.
Usos estratégicos de los datos sintéticos
Ana-Maria Cretu, investigadora postdoctoral en EPFL Suiza, destaca dos formas de uso clave:
Datos tabulares (como registros médicos o demográficos) que permiten balancear, anonimizar y expandir pequeños conjuntos reales.
Datos generados para LLMs, como GPT o Claude, donde la síntesis ayuda a superar la dependencia del contenido web, cada vez más limitado por restricciones legales.
Ejemplo real:
Un hospital con solo 1.000 muestras de pacientes puede usar datos sintéticos para ampliar su dataset, corregir sesgos y proteger la privacidad sin comprometer la utilidad clínica.
¿Pueden los datos sintéticos reemplazar a los reales?
No del todo. Aunque prometen escalabilidad, expertos como Alexandr Wang (Scale AI) y Gary Marcus advierten sobre los riesgos del "model collapse": un fenómeno donde los modelos, entrenados repetidamente con datos generados por IA, comienzan a degradarse.
“No hay almuerzo gratis con los datos sintéticos”, escribió Wang en X. “El futuro está en enfoques híbridos inteligentes, no en reemplazos puros.”
Un estudio publicado en Nature en julio de 2024 alertó que los modelos de lenguaje afinados solo con datos sintéticos pueden perder precisión y volverse inconsistentes.
Esto llevó a líderes de la industria como Sam Altman (OpenAI) y Dario Amodei (Anthropic) a proponer estrategias híbridas que mezclan datos humanos y sintéticos en proporciones dinámicas.
Riesgos y desafíos de utilizar datos sintéticos en el entrenamiento de IA
Esta tabla alerta sobre los posibles inconvenientes de depender exclusivamente de datos sintéticos, enfatizando la necesidad de enfoques híbridos que combinen datos reales y sintéticos para un entrenamiento de IA más robusto.
El enfoque de Nvidia: escala, eficiencia y control
Durante la GTC 2025, Huang presentó una visión clara con tres pilares:
Solucionar el problema de los datos: mediante plataformas como Gretel, Nemotron y Omniverse Replicator.
Diseño arquitectónico de modelos más eficientes.
Leyes de escalado que permitan entrenar con menor costo y más velocidad.
Además de su aplicación en modelos de lenguaje, Nvidia está incorporando datos sintéticos en robótica, automoción y sistemas de visión artificial. Gretel será clave para acelerar este roadmap en verticales como salud, manufactura y logística.
Big Tech también apuesta por lo sintético
Nvidia no está sola. Meta entrenó Llama 3 con datos sintéticos generados por Llama 2. Microsoft usó datos sintéticos para afinar Phi-3. Amazon Bedrock permite usar Claude de Anthropic para generar entrenamiento personalizado. Y DeepMind de Google desarrolla pipelines para preservar la privacidad incluso en entornos generativos.
Alex Bestall, CEO de Rightsify, afirma: “En nuestros acuerdos para IA musical, a menudo se exige que el dataset tenga al menos un 60% de datos humanos. El 40% restante puede ser sintético.”
Implementaciones de datos sintéticos por empresas tecnológicas líderes
Las principales empresas tecnológicas están incorporando datos sintéticos en sus procesos de desarrollo de IA, subrayando una tendencia industrial hacia la adopción de estas técnicas.
¿Qué sigue para el futuro del entrenamiento en IA?
La tendencia apunta hacia motores de generación de datos "infinitos", con inyecciones controladas de datos reales para mantener la diversidad y evitar la degradación. En paralelo, se están desarrollando nuevos marcos de evaluación ética, métricas de privacidad y validación de sesgos que aseguren la calidad del entrenamiento.
La adquisición de Gretel coloca a Nvidia a la vanguardia de esta transición. Más allá de chips, la compañía se perfila como la columna vertebral del entrenamiento seguro, escalable y responsable de los modelos del futuro.
¿Qué opinás sobre el uso de datos sintéticos en IA?
¿Creés que reemplazarán los datos humanos o solo los complementarán? Dejá tu opinión en los comentarios y sigue leyendo sobre inteligencia artificial, tecnología y futuro digital en nuestro blog.





¡Gracias por tu tiempo y lectura! Sin duda Nvidia esta avanzado de una manera rápida solida y efectiva.