Skip to main content
IA & Software

Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping

Maedcore construye un pipeline de computer vision en tiempo real: detección IA de landmarks faciales en 60+ puntos clave, cálculo de transformada de proyección sub-fotograma y mapeo visual dinámico sincronizado con el movimiento facial en vivo. Caso de estudio técnico completo.

Eduardo Fuentevilla Blanco

Publicado por Eduardo Fuentevilla Blanco

Robotics Engineer at Maedcore · Robotics Engineer LinkedIn ↗

1 de febrero de 2024 7 min de lectura
Revisado por Maedcore Team
Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping
Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping

Computer Vision en Tiempo Real: Detección de Landmarks Faciales y Projection Mapping

Resumen ejecutivo: Maedcore desarrolló un pipeline de computer vision en tiempo real para projection mapping dinámico sobre un sujeto en movimiento: un modelo de detección de landmarks faciales con IA funcionando a latencia sub-fotograma, una capa de cálculo de transformada proyectiva que compensa la rotación de cabeza, los cambios de expresión y el movimiento traslacional fotograma a fotograma, y un sistema de composición en vivo que renderiza y proyecta efectos sincronizados con el movimiento facial sin lag perceptible. El sistema procesa la entrada de cámara, ejecuta la inferencia de landmarks, calcula la transformada de deformación, compone el fotograma de salida y dirige el proyector — todo dentro de un único bucle determinista a 30+ fps. La aplicación de despliegue es actuación en vivo y arte interactivo; la arquitectura de computer vision es directamente aplicable a la inspección de control de calidad industrial, sistemas de guía de robots y cualquier interfaz de visión humano-máquina en tiempo real.


El Desafío de Computer Vision

Proyectar una imagen estática sobre una superficie estática es un problema resuelto. Proyectar contenido visual generado dinámicamente sobre una superficie en movimiento y deformación — un rostro humano — en tiempo real introduce tres requisitos difíciles que se combinan entre sí:

Latencia de detección de landmarks sub-fotograma. El modelo de landmarks faciales debe completar la inferencia y devolver coordenadas de puntos clave actualizadas dentro de un único ciclo de fotograma (~33 ms a 30 fps). Si la detección de landmarks tarda más de un fotograma, la proyección se retrasa respecto al movimiento del sujeto y la alineación visual se rompe.

Precisión de transformada proyectiva bajo movimiento. La matriz de transformación que mapea desde coordenadas de efecto en espacio de pantalla hasta la superficie física del rostro debe recalcularse en cada fotograma, teniendo en cuenta: traslación, rotación y deformación no rígida (los cambios de expresión facial cambian la forma de la superficie).

Determinismo de bucle único. La captura de cámara, la inferencia de landmarks, el cálculo de transformada, la composición y la salida del proyector deben completarse todos dentro de un ciclo de fotograma. Si cualquier etapa es retrasada por la programación del SO, la latencia de red o la varianza de inferencia, la salida se retrasa y la coherencia visual colapsa.


Arquitectura del Sistema

Sistema de projection mapping con computer vision en tiempo real durante validación y calibración en entorno de prueba controlado

El sistema está estructurado como un único bucle de procesamiento determinista con cuatro etapas ejecutándose secuencialmente en cada fotograma:

Etapa 1 — Captura de Cámara y Pre-procesamiento

Una cámara de alta velocidad de fotogramas captura al sujeto a 60 fps, proporcionando un adelanto de 16 ms sobre la tasa de fotogramas de salida de 30 fps. Los fotogramas se pre-procesan (conversión de espacio de color, normalización de exposición) antes de pasarse al modelo de landmarks. El pre-procesamiento se implementa en código acelerado por hardware para mantenerse dentro del presupuesto de fotograma.

Etapa 2 — Detección de Landmarks Faciales

El modelo de landmarks faciales procesa cada fotograma capturado y devuelve un conjunto de 60+ puntos clave que representan la estructura geométrica del rostro: esquinas de los ojos, puente de la nariz, posiciones de las fosas nasales, contorno de los labios, línea de la mandíbula y límite de la frente.

El modelo se ejecuta en un acelerador de inferencia dedicado (GPU o NPU) para aislar su latencia de las etapas de transformada y composición ligadas a CPU. El modelo fue seleccionado y optimizado para:

  • Tiempo de inferencia < 15 ms en el hardware objetivo.
  • Estabilidad de puntos clave — bajo jitter entre fotogramas consecutivos bajo movimiento normal de cabeza.
  • Robustez — rendimiento consistente en diferentes tonos de piel, condiciones de iluminación y tamaños de rostro en fotograma.

Etapa 3 — Cálculo de Transformada Proyectiva

Usando las 60+ posiciones de landmarks de la Etapa 2, la etapa de cálculo de transformada calcula el mapeo desde el espacio de coordenadas de efecto hasta el espacio de salida del proyector:

  1. Triangulación — los 60+ puntos clave definen una malla de triángulos que cubre la superficie del rostro.
  2. Homografía por triángulo — para cada triángulo, se calcula una transformación afín local que mapea desde coordenadas de efecto hasta coordenadas de salida del proyector.
  3. Aplicación de deformación — la imagen de efecto se deforma usando las transformadas por triángulo, produciendo una imagen de salida distorsionada donde cada región del efecto está correctamente alineada con la región correspondiente del rostro.

Este enfoque lineal por partes maneja la deformación no rígida de los cambios de expresión facial sin requerir una reconstrucción completa de malla 3D.

Etapa 4 — Composición y Salida del Proyector

El fotograma de efecto deformado se compone contra cualquier capa ambiental, se corrige en brillo para el nivel de luz ambiental en el entorno y se envía al buffer de salida del proyector. El proyector renderiza a 30 fps, alineado con la tasa de fotogramas de captura de la cámara.


Configuración de Hardware

Configuración completa del hardware del sistema de proyección facial mostrando el posicionamiento de cámara, proyector y unidad de procesamiento

El sistema físico consiste en tres componentes de hardware posicionados entre sí a distancias calibradas:

ComponenteEspecificación
Cámara60 fps alta velocidad de fotogramas, bajo motion blur, activación por hardware
ProyectorAlta luminancia (3500+ lm) para visibilidad bajo luz ambiental; lente de corto alcance para operación a distancia cercana
Unidad de procesamientoSistema embebido con GPU; acelerador de inferencia dedicado

La cámara y el proyector están montados conjuntamente para mantener una relación geométrica fija, simplificando la calibración de la transformada proyectiva.


Resultados de Rendimiento

MétricaResultado
Puntos clave de detección de landmarks60+ por fotograma
Tasa de fotogramas de salida30 fps sostenido
Latencia del pipeline extremo a extremo< 33 ms (sub-fotograma)
Lag perceptibleNinguno bajo movimiento normal del sujeto
Robustez de iluminaciónValidado bajo iluminación de escenario controlada, iluminación de galería ambiental y luz natural mixta
Variabilidad del sujetoValidado en múltiples geometrías de rostro, tonos de piel y distancias

Sistema de proyección de efectos faciales instalado en un espacio controlado mostrando la salida de proyección alineada a la geometría facial del sujeto


Aplicaciones Tecnológicas

Inspección de control de calidad industrial. El pipeline detección-de-landmarks-a-transformada es estructuralmente idéntico a un sistema de visión que detecta posiciones de características en un componente fabricado y calcula si caen dentro de la tolerancia. La restricción de tiempo real a tasa de fotogramas y el cálculo de transformada por región son los mismos problemas de ingeniería.

Sistemas de guía de robots. Un robot que rastrea un objetivo en movimiento — producto en una cinta transportadora, la mano de un colaborador humano, un puerto de acoplamiento en un vehículo — requiere la misma latencia percepción-a-acción sub-fotograma que logra este sistema de proyección.

Superposiciones de realidad aumentada. Cualquier sistema que renderice contenido virtual alineado a una superficie del mundo real en tiempo real utiliza la misma arquitectura de transformada proyectiva y composición.

Interfaces humano-máquina en tiempo real. La arquitectura determinista de bucle único — cámara a inferencia a salida sin buffering — es el patrón requerido para cualquier HMI basado en visión donde el tiempo de respuesta al movimiento humano es una restricción de diseño.


Tecnologías Utilizadas

Proyecto desarrollado con: Computer Vision — IA en Tiempo Real — Detección de Landmarks Faciales — Transformada Proyectiva — Projection Mapping — OpenCV — Visión Embebida — Inferencia GPU — Mecatrónica


¿Construyendo un Sistema de Computer Vision en Tiempo Real?

Maedcore diseñó un pipeline de CV completo en tiempo real — percepción, inferencia, transformada, salida — cumpliendo requisitos de latencia sub-fotograma en hardware embebido. Si necesitas un sistema de computer vision para inspección, guía, HMI o cualquier aplicación visual en tiempo real, solicita una consulta técnica.

Hablar con el Equipo de IA | Ver Servicios de IA y Software | Ver Todos los Casos de Éxito

Sobre el Autor

Eduardo Fuentevilla Blanco

Eduardo Fuentevilla Blanco

Robotics Engineer

For over a decade, I have been driven by a single mission: leveraging AI and robotics to build a world of automated production. I believe that by creating self-sufficient systems, we can empower people to refocus on what truly matters—their families and their passions. My expertise spans from winning prestigious European startup competitions to architecting complex, integrated hardware and software projects. I specialize in bridging the gap between today's industrial challenges and tomorrow's autonomous solutions.

AI & RoboticsIndustrial AutomationHardware & Software IntegrationIoT
LinkedIn ↗

Revisión experta: Maedcore Team

¿Listo para transformar tu empresa?

Reserva una reunión gratuita de 30 minutos con un ingeniero.