Generación 3D (NanoBanana, Veo y RealityScan)

1. La Idea: ¿Puede la IA “entender” el volumen?

Uno de los retos más persistentes en el desarrollo de videojuegos y el diseño industrial es pasar de una idea textual a un objeto tridimensional funcional sin pasar por el modelado manual tradicional. Este experimento nació de una curiosidad técnica muy clara: ¿Es posible realizar una reconstrucción 3D profesional utilizando únicamente datos sintéticos generados por IA?

El objetivo no era simplemente crear una imagen estática, sino comprobar si podíamos forzar una secuencia de herramientas de generación de imagen y vídeo para que “proyectaran” un objeto con la suficiente coherencia visual como para ser interpretado como un volumen real por un algoritmo de fotogrametría.

2. El Pipeline: De la Imaginación al Polígono

Configuramos un flujo de trabajo experimental en tres fases, conectando modelos de generación de vanguardia con herramientas de reconstrucción de Epic Games:

Imagen (Nano Banana 2): Creación de la imagen base. Usamos el control preciso de Nano Banana para definir la “escultura” en 2D, ajustando materiales, texturas e iluminación para que el modelo tuviera una apariencia física tangible.
Video (Veo): Aquí es donde el experimento aumenta su complejidad. Usamos Veo para generar un vídeo orbital (360°) alrededor de la imagen estática. El reto técnico fue la consistencia temporal: intentar que la IA mantuviera la coherencia de la parte trasera y los laterales del objeto respecto al frente, simulando un giro de cámara real.
Reconstrucción (RealityScan): Procesamos el vídeo generado como si fuera una grabación de un objeto físico. Usamos RealityScan para analizar los frames y realizar una fotogrametría sintética, intentando extraer una nube de puntos y una malla tridimensional.

3. Lo Interesante: Éxitos y Límites de la Fricción Digital

El experimento resultó en lo que definimos como un “éxito parcial”, y precisamente ahí encontramos el aprendizaje más valioso:

La Inestabilidad del Vídeo: Aunque la IA es capaz de rotar el objeto, todavía tiende a “mutar” detalles sutiles durante el giro. Esa falta de rigidez geométrica absoluta es el mayor obstáculo para la fotogrametría tradicional, que requiere píxeles estáticos entre frames para triangular posiciones.
Volumen vs. Definición: Logramos extraer la silueta y el volumen básico (la escultura era perfectamente reconocible en 3D), pero la resolución de la malla no alcanza todavía el detalle necesario para tareas de alta precisión como la impresión 3D.
Potencial en Prototipado: El pipeline demuestra ser viable para generar assets rápidos o greyboxing. Lo que antes tomaba horas de modelado, ahora puede “esbozarse” en tres dimensiones en cuestión de minutos.

Resultado

Este experimento confirma que el flujo Imagen -> Vídeo -> Fotogrametría es una vía prometedora pero aún inmadura. Hemos conseguido integrar un objeto nacido de un píxel 2D directamente en Unreal Engine, demostrando que la barrera entre la generación visual y el objeto tridimensional es cada vez más delgada. Es una prueba de concepto sobre cómo automatizar la creación de contenido en el futuro cercano.