Modelado de Series de Tiempo utilizando Redes Recursivas
highlight_off

La estimación de la pose humana es un reto clave en la visión artificial, con aplicaciones en la salud, el análisis deportivo, la interacción persona-computadora y la seguridad. Los enfoques tradicionales se basan en gran medida en redes neuronales convolucionales (CNN) para extraer características espaciales de las imágenes. Sin embargo, la estimación de la pose no es solo un problema espacial, sino también temporal, ya que el movimiento humano se despliega a lo largo de secuencias de fotogramas. Consciente de esto, nuestro proyecto de licenciatura explora el uso de redes neuronales recurrentes (RNN) para mejorar la estimación de la pose mediante el modelado de las dependencias temporales del movimiento humano.
El proyecto se basa en un proceso donde las CNN extraen primero representaciones de características de cada fotograma de vídeo. Estas características se introducen posteriormente en una RNN, como las redes de memoria a largo plazo (LSTM), que capturan la dinámica temporal de las articulaciones del cuerpo a lo largo de fotogramas consecutivos. Este enfoque permite al sistema refinar las predicciones de la pose considerando tanto los fotogramas actuales como los pasados, reduciendo la ambigüedad en escenarios complejos como la oclusión o el movimiento rápido.
Para validar el sistema, se utilizan conjuntos de datos como MPII Human Pose y COCO Keypoints. El rendimiento se evalúa mediante métricas estándar como el Porcentaje de Puntos Clave Correctos (PCK). Los resultados indican que la incorporación de información temporal mejora significativamente la robustez en comparación con la estimación fotograma a fotograma.
Este proyecto no solo fortalece las habilidades técnicas en aprendizaje profundo, visión artificial y manejo de datos, sino que también desarrolla el pensamiento crítico sobre el diseño y la evaluación de modelos. Además, destaca el potencial del modelado temporal para aplicaciones reales, incluyendo el seguimiento del movimiento en rehabilitación y las interfaces basadas en gestos.
En conclusión, al integrar las RNN en el proceso de estimación de la pose, el proyecto contribuye al desarrollo de sistemas de comprensión del movimiento humano más precisos y fiables, lo que demuestra la importancia de combinar las perspectivas espacial y temporal en la visión artificial.
Este proyecto tiene una duración de seis meses y está estructurado en fases secuenciales.
Mes 1 – Inicialización y Revisión de la Literatura: El equipo revisa los métodos CNN y RNN existentes para la estimación de poses, define las preguntas de investigación, selecciona conjuntos de datos (p. ej., MPII, COCO) y finaliza las métricas de evaluación, como el Porcentaje de Puntos Clave Correctos (PCK). Entregable: Revisión de la literatura y plan del proyecto.
Mes 2 – Preparación de Datos y Línea Base: Se adquieren los conjuntos de datos, se preprocesan (normalización, aumento) y se implementa un estimador de poses basado en CNN de línea base para el análisis fotograma a fotograma. Entregable: Modelo de línea base y resultados de referencia.
Mes 3 – Integración de RNN: Se diseña una arquitectura de RNN (p. ej., LSTM, GRU) para capturar las dependencias temporales. La extracción de características de CNN se integra con las capas de RNN, conformando el pipeline propuesto. Entregable: Modelo de RNN inicial y pipeline de entrenamiento.
Mes 4 – Entrenamiento y Optimización: El modelo se entrena con conjuntos de datos preparados, con experimentos sobre hiperparámetros, longitudes de secuencia y regularización. Se exploran métodos para gestionar la oclusión y el desenfoque de movimiento. Entregable: Sistema optimizado de estimación de pose basado en RNN.
Mes 5 – Evaluación y Comparación: El sistema se evalúa con respecto a la línea base utilizando PCK y mAP. El análisis comparativo destaca las mejoras del modelado temporal. Se documentan los casos de fallo. Entregable: Informe de evaluación y gráficos de rendimiento.
Mes 6 – Finalización y Presentación de Informes: El proyecto concluye con un informe escrito, un prototipo funcional y una presentación. Los entregables incluyen los materiales finales de la presentación y el código fuente documentado.
10
Roberto Leyva
rleyv@tec.mx
AI
Vision de Maquina
Pose Humana
Redes Recurrentes
warning
error_outline





:
circle
circle
circle
circle
circle