Pipeline de Computer Vision en Tiempo Real: Detección de Landmarks Faciales, Cálculo de Transformada y Projection Mapping

Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping

Resumen ejecutivo: Maedcore desarrolló un pipeline de computer vision en tiempo real para projection mapping dinámico sobre un sujeto en movimiento: un modelo de detección de landmarks faciales con IA funcionando a latencia sub-fotograma, una capa de cálculo de transformada proyectiva que compensa la rotación de cabeza, los cambios de expresión y el movimiento traslacional fotograma a fotograma, y un sistema de composición en vivo que renderiza y proyecta efectos sincronizados con el movimiento facial sin lag perceptible. El sistema procesa la entrada de cámara, ejecuta la inferencia de landmarks, calcula la transformada de deformación, compone el fotograma de salida y dirige el proyector — todo dentro de un único bucle determinista a 30+ fps. La aplicación de despliegue es actuación en vivo y arte interactivo; la arquitectura de computer vision es directamente aplicable a la inspección de control de calidad industrial, sistemas de guía de robots y cualquier interfaz de visión humano-máquina en tiempo real.

Cliente: Construido por Maedcore como socio de ingeniería para el artista Filip Ćustić, por encargo y con el mecenazgo de Espacio SOLO y Onkaos.

El Desafío de Computer Vision

Proyectar una imagen estática sobre una superficie estática es un problema resuelto. Proyectar contenido visual generado dinámicamente sobre una superficie en movimiento y deformación — un rostro humano — en tiempo real introduce tres requisitos difíciles que se combinan entre sí:

Latencia de detección de landmarks sub-fotograma. El modelo de landmarks faciales debe completar la inferencia y devolver coordenadas de puntos clave actualizadas dentro de un único ciclo de fotograma (~33 ms a 30 fps). Si la detección de landmarks tarda más de un fotograma, la proyección se retrasa respecto al movimiento del sujeto y la alineación visual se rompe.

Precisión de transformada proyectiva bajo movimiento. La matriz de transformación que mapea desde coordenadas de efecto en espacio de pantalla hasta la superficie física del rostro debe recalcularse en cada fotograma, teniendo en cuenta: traslación, rotación y deformación no rígida (los cambios de expresión facial cambian la forma de la superficie).

Determinismo de bucle único. La captura de cámara, la inferencia de landmarks, el cálculo de transformada, la composición y la salida del proyector deben completarse todos dentro de un ciclo de fotograma. Si cualquier etapa es retrasada por la programación del SO, la latencia de red o la varianza de inferencia, la salida se retrasa y la coherencia visual colapsa.

Arquitectura del Sistema

El sistema está estructurado como un único bucle de procesamiento determinista con cuatro etapas ejecutándose secuencialmente en cada fotograma:

Etapa 1 — Captura de Cámara y Pre-procesamiento

Una cámara de alta velocidad de fotogramas captura al sujeto a 60 fps, proporcionando un adelanto de 16 ms sobre la tasa de fotogramas de salida de 30 fps. Los fotogramas se pre-procesan (conversión de espacio de color, normalización de exposición) antes de pasarse al modelo de landmarks. El pre-procesamiento se implementa en código acelerado por hardware para mantenerse dentro del presupuesto de fotograma.

Etapa 2 — Detección de Landmarks Faciales

El modelo de landmarks faciales procesa cada fotograma capturado y devuelve un conjunto de 60+ puntos clave que representan la estructura geométrica del rostro: esquinas de los ojos, puente de la nariz, posiciones de las fosas nasales, contorno de los labios, línea de la mandíbula y límite de la frente.

El modelo se ejecuta en un acelerador de inferencia dedicado (GPU o NPU) para aislar su latencia de las etapas de transformada y composición ligadas a CPU. El modelo fue seleccionado y optimizado para:

Tiempo de inferencia < 15 ms en el hardware objetivo.
Estabilidad de puntos clave — bajo jitter entre fotogramas consecutivos bajo movimiento normal de cabeza.
Robustez — rendimiento consistente en diferentes tonos de piel, condiciones de iluminación y tamaños de rostro en fotograma.

Etapa 3 — Cálculo de Transformada Proyectiva

Usando las 60+ posiciones de landmarks de la Etapa 2, la etapa de cálculo de transformada calcula el mapeo desde el espacio de coordenadas de efecto hasta el espacio de salida del proyector:

Triangulación — los 60+ puntos clave definen una malla de triángulos que cubre la superficie del rostro.
Homografía por triángulo — para cada triángulo, se calcula una transformación afín local que mapea desde coordenadas de efecto hasta coordenadas de salida del proyector.
Aplicación de deformación — la imagen de efecto se deforma usando las transformadas por triángulo, produciendo una imagen de salida distorsionada donde cada región del efecto está correctamente alineada con la región correspondiente del rostro.

Este enfoque lineal por partes maneja la deformación no rígida de los cambios de expresión facial sin requerir una reconstrucción completa de malla 3D.

Etapa 4 — Composición y Salida del Proyector

El fotograma de efecto deformado se compone contra cualquier capa ambiental, se corrige en brillo para el nivel de luz ambiental en el entorno y se envía al buffer de salida del proyector. El proyector renderiza a 30 fps, alineado con la tasa de fotogramas de captura de la cámara.

Configuración de Hardware

El sistema físico consiste en tres componentes de hardware posicionados entre sí a distancias calibradas:

Componente	Especificación
Cámara	60 fps alta velocidad de fotogramas, bajo motion blur, activación por hardware
Proyector	Alta luminancia (3500+ lm) para visibilidad bajo luz ambiental; lente de corto alcance para operación a distancia cercana
Unidad de procesamiento	Sistema embebido con GPU; acelerador de inferencia dedicado

La cámara y el proyector están montados conjuntamente para mantener una relación geométrica fija, simplificando la calibración de la transformada proyectiva.

Resultados de Rendimiento

Métrica	Resultado
Puntos clave de detección de landmarks	60+ por fotograma
Tasa de fotogramas de salida	30 fps sostenido
Latencia del pipeline extremo a extremo	< 33 ms (sub-fotograma)
Lag perceptible	Ninguno bajo movimiento normal del sujeto
Robustez de iluminación	Validado bajo iluminación de escenario controlada, iluminación de galería ambiental y luz natural mixta
Variabilidad del sujeto	Validado en múltiples geometrías de rostro, tonos de piel y distancias

Aplicaciones Tecnológicas

Inspección de control de calidad industrial. El pipeline detección-de-landmarks-a-transformada es estructuralmente idéntico a un sistema de visión que detecta posiciones de características en un componente fabricado y calcula si caen dentro de la tolerancia. La restricción de tiempo real a tasa de fotogramas y el cálculo de transformada por región son los mismos problemas de ingeniería.

Sistemas de guía de robots. Un robot que rastrea un objetivo en movimiento — producto en una cinta transportadora, la mano de un colaborador humano, un puerto de acoplamiento en un vehículo — requiere la misma latencia percepción-a-acción sub-fotograma que logra este sistema de proyección.

Superposiciones de realidad aumentada. Cualquier sistema que renderice contenido virtual alineado a una superficie del mundo real en tiempo real utiliza la misma arquitectura de transformada proyectiva y composición.

Interfaces humano-máquina en tiempo real. La arquitectura determinista de bucle único — cámara a inferencia a salida sin buffering — es el patrón requerido para cualquier HMI basado en visión donde el tiempo de respuesta al movimiento humano es una restricción de diseño.

Tecnologías Utilizadas

Proyecto desarrollado con: Computer Vision — IA en Tiempo Real — Detección de Landmarks Faciales — Transformada Proyectiva — Projection Mapping — OpenCV — Visión Embebida — Inferencia GPU — Mecatrónica

¿Construyendo un Sistema de Computer Vision en Tiempo Real?

Maedcore diseñó un pipeline de CV completo en tiempo real — percepción, inferencia, transformada, salida — cumpliendo requisitos de latencia sub-fotograma en hardware embebido. Si necesitas un sistema de computer vision para inspección, guía, HMI o cualquier aplicación visual en tiempo real, solicita una consulta técnica.

Hablar con el Equipo de IA | Ver Servicios de IA y Software | Ver Todos los Casos de Éxito