Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
La información contenida en los labios y el rostro proporciona datos significativos para el reconocimiento del habla y el procesamiento del lenguaje natural. Aunque existen diversas metodologías para abordar este problema, la mayoría se basan en conjuntos de datos en chino e inglés. Este trabajo se enfoca en la implementación de un modelo alimentado por un conjunto de datos en español, desarrollado específicamente para este proyecto. El objetivo es generar una herramienta útil capaz de clasificar palabras en español latino, sirviendo como referencia para futuras investigaciones orientadas a la creación de subtítulos automáticos para personas con discapacidad auditiva. Utilizando técnicas de Aprendizaje Máquina, por sus siglas en inglés (ML) y Aprendizaje Profundo, por sus siglas en inglés (DL), se busca extraer características clave para la Lectura Automática de Labios, por sus siglas en inglés (ALR), a partir de videos. El modelo se alimenta de un conjunto de datos propio. Este conjunto de datos está diseñado para incorporar técnicas de extracción de características utilizando Redes Neuronales Convolucionales, por sus siglas en inglés (CNN) y memoria a corto plazo. Se pretende utilizar un modelo recurrente como las Redes Neuronales de Memoria de Corto-Largo Plazo, por sus siglas en inglés (LSTM). La arquitectura del modelo permitirá utilizar la información temporal en videos, donde eventos anteriores ayudarán a mejorar la predicción futura de palabras. De esta manera, se ofrece una solución avanzada y accesible para el reconocimiento del habla en español latino.