Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping
Maedcore construye un pipeline de computer vision en tiempo real: detección IA de landmarks faciales en 60+ puntos clave, cálculo de transformada de proyección sub-fotograma y mapeo visual dinámico sincronizado con el movimiento facial en vivo. Caso de estudio técnico completo.
Publicado por Eduardo Fuentevilla Blanco
Robotics Engineer at Maedcore · Robotics Engineer LinkedIn ↗
Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping
Resumen ejecutivo: Maedcore desarrolló un pipeline de computer vision en tiempo real para projection mapping dinámico sobre un sujeto en movimiento: un modelo de detección de landmarks faciales con IA funcionando a latencia sub-fotograma, una capa de cálculo de transformada proyectiva que compensa la rotación de cabeza, los cambios de expresión y el movimiento traslacional fotograma a fotograma, y un sistema de composición en vivo que renderiza y proyecta efectos sincronizados con el movimiento facial sin lag perceptible. El sistema procesa la entrada de cámara, ejecuta la inferencia de landmarks, calcula la transformada de deformación, compone el fotograma de salida y dirige el proyector — todo dentro de un único bucle determinista a 30+ fps. La aplicación de despliegue es actuación en vivo y arte interactivo; la arquitectura de computer vision es directamente aplicable a la inspección de control de calidad industrial, sistemas de guía de robots y cualquier interfaz de visión humano-máquina en tiempo real.
El Desafío de Computer Vision
Proyectar una imagen estática sobre una superficie estática es un problema resuelto. Proyectar contenido visual generado dinámicamente sobre una superficie en movimiento y deformación — un rostro humano — en tiempo real introduce tres requisitos difíciles que se combinan entre sí:
Latencia de detección de landmarks sub-fotograma. El modelo de landmarks faciales debe completar la inferencia y devolver coordenadas de puntos clave actualizadas dentro de un único ciclo de fotograma (~33 ms a 30 fps). Si la detección de landmarks tarda más de un fotograma, la proyección se retrasa respecto al movimiento del sujeto y la alineación visual se rompe.
Precisión de transformada proyectiva bajo movimiento. La matriz de transformación que mapea desde coordenadas de efecto en espacio de pantalla hasta la superficie física del rostro debe recalcularse en cada fotograma, teniendo en cuenta: traslación, rotación y deformación no rígida (los cambios de expresión facial cambian la forma de la superficie).
Determinismo de bucle único. La captura de cámara, la inferencia de landmarks, el cálculo de transformada, la composición y la salida del proyector deben completarse todos dentro de un ciclo de fotograma. Si cualquier etapa es retrasada por la programación del SO, la latencia de red o la varianza de inferencia, la salida se retrasa y la coherencia visual colapsa.
Arquitectura del Sistema

El sistema está estructurado como un único bucle de procesamiento determinista con cuatro etapas ejecutándose secuencialmente en cada fotograma:
Etapa 1 — Captura de Cámara y Pre-procesamiento
Una cámara de alta velocidad de fotogramas captura al sujeto a 60 fps, proporcionando un adelanto de 16 ms sobre la tasa de fotogramas de salida de 30 fps. Los fotogramas se pre-procesan (conversión de espacio de color, normalización de exposición) antes de pasarse al modelo de landmarks. El pre-procesamiento se implementa en código acelerado por hardware para mantenerse dentro del presupuesto de fotograma.
Etapa 2 — Detección de Landmarks Faciales
El modelo de landmarks faciales procesa cada fotograma capturado y devuelve un conjunto de 60+ puntos clave que representan la estructura geométrica del rostro: esquinas de los ojos, puente de la nariz, posiciones de las fosas nasales, contorno de los labios, línea de la mandíbula y límite de la frente.
El modelo se ejecuta en un acelerador de inferencia dedicado (GPU o NPU) para aislar su latencia de las etapas de transformada y composición ligadas a CPU. El modelo fue seleccionado y optimizado para:
- Tiempo de inferencia < 15 ms en el hardware objetivo.
- Estabilidad de puntos clave — bajo jitter entre fotogramas consecutivos bajo movimiento normal de cabeza.
- Robustez — rendimiento consistente en diferentes tonos de piel, condiciones de iluminación y tamaños de rostro en fotograma.
Etapa 3 — Cálculo de Transformada Proyectiva
Usando las 60+ posiciones de landmarks de la Etapa 2, la etapa de cálculo de transformada calcula el mapeo desde el espacio de coordenadas de efecto hasta el espacio de salida del proyector:
- Triangulación — los 60+ puntos clave definen una malla de triángulos que cubre la superficie del rostro.
- Homografía por triángulo — para cada triángulo, se calcula una transformación afín local que mapea desde coordenadas de efecto hasta coordenadas de salida del proyector.
- Aplicación de deformación — la imagen de efecto se deforma usando las transformadas por triángulo, produciendo una imagen de salida distorsionada donde cada región del efecto está correctamente alineada con la región correspondiente del rostro.
Este enfoque lineal por partes maneja la deformación no rígida de los cambios de expresión facial sin requerir una reconstrucción completa de malla 3D.
Etapa 4 — Composición y Salida del Proyector
El fotograma de efecto deformado se compone contra cualquier capa ambiental, se corrige en brillo para el nivel de luz ambiental en el entorno y se envía al buffer de salida del proyector. El proyector renderiza a 30 fps, alineado con la tasa de fotogramas de captura de la cámara.
Configuración de Hardware

El sistema físico consiste en tres componentes de hardware posicionados entre sí a distancias calibradas:
| Componente | Especificación |
|---|---|
| Cámara | 60 fps alta velocidad de fotogramas, bajo motion blur, activación por hardware |
| Proyector | Alta luminancia (3500+ lm) para visibilidad bajo luz ambiental; lente de corto alcance para operación a distancia cercana |
| Unidad de procesamiento | Sistema embebido con GPU; acelerador de inferencia dedicado |
La cámara y el proyector están montados conjuntamente para mantener una relación geométrica fija, simplificando la calibración de la transformada proyectiva.
Resultados de Rendimiento
| Métrica | Resultado |
|---|---|
| Puntos clave de detección de landmarks | 60+ por fotograma |
| Tasa de fotogramas de salida | 30 fps sostenido |
| Latencia del pipeline extremo a extremo | < 33 ms (sub-fotograma) |
| Lag perceptible | Ninguno bajo movimiento normal del sujeto |
| Robustez de iluminación | Validado bajo iluminación de escenario controlada, iluminación de galería ambiental y luz natural mixta |
| Variabilidad del sujeto | Validado en múltiples geometrías de rostro, tonos de piel y distancias |

Aplicaciones Tecnológicas
Inspección de control de calidad industrial. El pipeline detección-de-landmarks-a-transformada es estructuralmente idéntico a un sistema de visión que detecta posiciones de características en un componente fabricado y calcula si caen dentro de la tolerancia. La restricción de tiempo real a tasa de fotogramas y el cálculo de transformada por región son los mismos problemas de ingeniería.
Sistemas de guía de robots. Un robot que rastrea un objetivo en movimiento — producto en una cinta transportadora, la mano de un colaborador humano, un puerto de acoplamiento en un vehículo — requiere la misma latencia percepción-a-acción sub-fotograma que logra este sistema de proyección.
Superposiciones de realidad aumentada. Cualquier sistema que renderice contenido virtual alineado a una superficie del mundo real en tiempo real utiliza la misma arquitectura de transformada proyectiva y composición.
Interfaces humano-máquina en tiempo real. La arquitectura determinista de bucle único — cámara a inferencia a salida sin buffering — es el patrón requerido para cualquier HMI basado en visión donde el tiempo de respuesta al movimiento humano es una restricción de diseño.
Tecnologías Utilizadas
Proyecto desarrollado con: Computer Vision — IA en Tiempo Real — Detección de Landmarks Faciales — Transformada Proyectiva — Projection Mapping — OpenCV — Visión Embebida — Inferencia GPU — Mecatrónica
¿Construyendo un Sistema de Computer Vision en Tiempo Real?
Maedcore diseñó un pipeline de CV completo en tiempo real — percepción, inferencia, transformada, salida — cumpliendo requisitos de latencia sub-fotograma en hardware embebido. Si necesitas un sistema de computer vision para inspección, guía, HMI o cualquier aplicación visual en tiempo real, solicita una consulta técnica.
Hablar con el Equipo de IA | Ver Servicios de IA y Software | Ver Todos los Casos de Éxito
Sobre el Autor
Eduardo Fuentevilla Blanco
Robotics Engineer
For over a decade, I have been driven by a single mission: leveraging AI and robotics to build a world of automated production. I believe that by creating self-sufficient systems, we can empower people to refocus on what truly matters—their families and their passions. My expertise spans from winning prestigious European startup competitions to architecting complex, integrated hardware and software projects. I specialize in bridging the gap between today's industrial challenges and tomorrow's autonomous solutions.
Revisión experta: Maedcore Team
¿Listo para transformar tu empresa?
Reserva una reunión gratuita de 30 minutos con un ingeniero.