Robot Autónomo con Computer Vision y NLP: Caso de Estudio de Robótica

Robot Autónomo Full-Stack: Computer Vision, NLP y Mecatrónica

Resumen ejecutivo: Maedcore diseñó y construyó un robot móvil autónomo completo desde cero: un sistema de computer vision de doble cámara (detección MobileNetV2 en una NVIDIA Jetson Nano con ROS) para detección y seguimiento de objetos, un modelo de lenguaje NLP — un Llama cuantizado servido desde un servidor conectado — que genera salida en lenguaje natural, un sistema de actuación de 15 servos para locomoción y expresión, un chasis impreso en 3D fabricado en 22 partes y una mini impresora térmica para entrega de salida física. El proyecto cubre el stack completo de robótica — diseño mecánico, cableado electrónico, integración de sistemas embebidos y desarrollo de código IA — en una única construcción de extremo a extremo. La aplicación de despliegue es la crítica de arte autónoma; el stack de ingeniería es aplicable a robots de inspección, plataformas de navegación autónoma y sistemas de colaboración humano-robot.

Cliente: Construido por Maedcore como socio de ingeniería para el artista Mario Klingemann, por encargo y con el mecenazgo de Espacio SOLO y Onkaos.

El Alcance de Ingeniería

Este proyecto requirió que Maedcore operara en cinco disciplinas de ingeniería simultáneas:

Diseño mecánico — modelado CAD de un chasis cuadrúpedo optimizado para imprimibilidad 3D, empaquetamiento de componentes internos y acceso de mantenimiento.
Fabricación 3D — trabajo de impresión de 22 partes, con piezas individuales que requieren hasta 36 horas de tiempo de impresión, seguido de post-procesado y ensamblaje.
Integración electrónica — cableado completo de un sistema de actuación de 15 servos, cámaras duales, hardware de audio, impresora térmica, refrigeración y gestión de energía.
Sistemas embebidos — configuración del SO en tiempo real, programación de tareas para control concurrente de computer vision y locomoción, gestión de latencia sensor-a-actuador.
Desarrollo IA — modelo de computer vision para detección y targeting de objetos, pipeline NLP para generación de salida en lenguaje natural, integración de ambos en un único bucle operacional.

La restricción clave en las cinco disciplinas: cada componente debe caber dentro de un chasis sellado, sin cableado externo ni hardware expuesto.

Fase 1: Diseño Mecánico

La fase de diseño mecánico estableció las restricciones para todo lo posterior:

Modelo CAD conceptual — geometría general, posiciones de las articulaciones y envolvente de movimiento. La configuración cuadrúpeda se eligió por la estabilidad en superficies irregulares y la gama de poses expresivas alcanzables mediante actuación coordinada de servos.

Disposición detallada de componentes — cada componente electrónico se modeló en el chasis en esta fase. Las decisiones tomadas aquí determinaron:

Rutas de flujo de aire interno para el ventilador de refrigeración.
Enrutamiento de cables desde los 15 servos hasta el controlador central.
Geometría de montaje de cámara para los ángulos de campo de visión requeridos.
Posicionamiento de la impresora térmica relativo a la ranura de salida en el cuerpo.

División de fabricación — el chasis se dividió en 22 partes imprimibles, cada una dimensionada para caber dentro del volumen de impresión minimizando el material de soporte.

Fase 2: Fabricación 3D y Ensamblaje

Las 22 partes del chasis se imprimieron internamente en una Prusa MK3, secuencialmente, con las más grandes requiriendo hasta 36 horas por parte. Los parámetros de impresión se ajustaron por parte según los requisitos de carga estructural.

El ensamblaje procedió en tres sub-fases:

Ensamblaje de la cabeza — integrando la cámara gran angular, la cámara de autoenfoque, el altavoz y el micrófono en la unidad de cabeza antes de cerrar la carcasa.
Ensamblaje del cuerpo — enrutando todo el cableado del arnés de servos, la placa de gestión de energía y la impresora térmica en el chasis principal antes de cerrarlo.
Ensamblaje de extremidades — fijando y calibrando los 15 servos para las patas, la cola y la cabeza, con verificación de posición final antes de la integración de software.

Fase 3: Electrónica y Cableado

La integración electrónica requirió coordinar 14 componentes de hardware distintos:

Componente	Función
Cámara gran angular	Detección de escena — identifica objetos en el entorno
Cámara de autoenfoque	Captura de objetivo — adquisición de imágenes de alta resolución
NVIDIA Jetson Nano (a bordo)	Ejecuta el modelo de detección MobileNetV2 y el controlador de locomoción bajo ROS
15 servos	Articulaciones de patas (12), cola (1), panorámica de cabeza (1), inclinación de cabeza (1)
Ventilador de refrigeración interno	Gestión térmica para CPU bajo carga de inferencia
Altavoz	Salida de audio para discurso generado por NLP
Micrófono	Entrada de audio ambiental y detección de interacción
Mini impresora térmica	Salida física — imprime texto generado en papel
Antena de comunicación	Enlace inalámbrico con el servidor del modelo de lenguaje y monitoreo remoto en vivo desde un ordenador
Placa de gestión de energía	Regulación de voltaje y gestión de batería
4 motores de tracción	Locomoción autónoma en superficies planas

Fase 4: Integración IA

El sistema IA opera como un pipeline secuencial de dos etapas:

Etapa A — Detección de Objetos y Navegación

La cámara gran angular alimenta un modelo de detección de objetos MobileNetV2 — elegido por su equilibrio entre precisión y latencia en hardware limitado — que corre sobre una NVIDIA Jetson Nano bajo ROS. Detecta y clasifica objetos dentro del campo de visión del robot. Cuando se identifica un objetivo válido, el sistema calcula el desplazamiento angular, transmite comandos de navegación al controlador de locomoción, impulsa el robot hacia el objetivo y se detiene cuando el objetivo está dentro del rango óptimo de captura.

El bucle de navegación corre a 10 Hz, actualizando la corrección de rumbo en cada fotograma.

Etapa B — Análisis y Generación de Salida

Una vez posicionado, la cámara de autoenfoque captura una imagen de alta resolución del objetivo. La generación de lenguaje es demasiado pesada para el robot, limitado por batería, así que esta etapa se descarga: la imagen capturada y sus características visuales se envían por el enlace inalámbrico a un servidor conectado, donde un modelo de lenguaje Llama cuantizado —la cuantización reduce su huella de memoria para que funcione en hardware de servidor modesto— genera una descripción en lenguaje natural. El texto vuelve al robot y se enruta al altavoz para salida de audio; simultáneamente, la impresora térmica produce una copia en papel.

Arquitectura de Cómputo: Percepción en el Edge + Modelo de Lenguaje en Servidor

El robot usa una arquitectura híbrida edge/servidor. La percepción y el control permanecen a bordo para baja latencia —la Jetson Nano ejecuta la detección MobileNetV2 y el bucle de navegación localmente bajo ROS— mientras que la generación de lenguaje, más pesada, corre fuera del robot en un servidor conectado que aloja el modelo Llama cuantizado. Ambos se comunican por un enlace inalámbrico, que además permite a un operador monitorizar el robot en vivo desde un ordenador: feed de cámara, estado de detección y estado de locomoción. Este reparto mantiene al robot ágil y dentro de su presupuesto energético sin renunciar a una salida en lenguaje natural rica.

Vídeos de Demostración

Métricas de Rendimiento

Métrica	Resultado
Precisión de detección de objetos	Alta — validada en múltiples tipos de objetivo y condiciones de iluminación
Tiempo de navegación al objetivo	~15 segundos desde la detección hasta la posición óptima de captura
Generación de salida NLP	< 3 segundos desde la captura de imagen hasta la salida de audio
Coordinación de servos	15 servos operando en patrones de marcha coordinados sin conflictos de actuación
Autonomía de batería	~2 horas de operación autónoma por carga
Monitoreo remoto	Feed de cámara y estado en vivo visibles desde un ordenador por el enlace inalámbrico

Aplicaciones Tecnológicas

Inspección autónoma. El pipeline percepción-navegación-captura es la arquitectura central para robots de inspección automatizados en fabricación, infraestructura y energía.

Navegación industrial. El sistema de locomoción multi-servo y el bucle de navegación impulsado por CV en tiempo real escalan a AGVs de almacén y robots de línea de ensamblaje.

Colaboración humano-robot. El sistema de audio I/O y la capa de salida NLP son la base para robots que comunican su estado y hallazgos a operadores humanos en lenguaje natural.

Control de calidad por computer vision. El pipeline CV de dos etapas es directamente aplicable a sistemas de inspección visual automatizada para detección de defectos en líneas de producción.

Tecnologías Utilizadas

Proyecto desarrollado con: Robótica Autónoma — Computer Vision (MobileNetV2) — NLP (Llama cuantizado) — ROS — NVIDIA Jetson Nano — Sistemas Embebidos — Diseño y Fabricación 3D (Prusa MK3) — Control de Servos — Mecatrónica — Inferencia Edge AI

¿Construyendo un Robot Autónomo o Sistema de Computer Vision?

Este proyecto demuestra que Maedcore puede llevar un sistema robótico complejo desde el diseño CAD hasta la operación completamente autónoma. Si tienes un requisito de robótica, inspección o computer vision, solicita un presupuesto técnico.

Solicitar Presupuesto de Robótica | Ver Servicios de Mecatrónica | Ver Servicios de IA