Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina

Cargando...
Miniatura

Fecha

2024-07

Autores

Montes-Díaz, Edgar E.

Título de la revista

ISSN de la revista

Título del volumen

Editor

ITESO

Resumen

La información contenida en los labios y el rostro proporciona datos significativos para el reconocimiento del habla y el procesamiento del lenguaje natural. Aunque existen diversas metodologías para abordar este problema, la mayoría se basan en conjuntos de datos en chino e inglés. Este trabajo se enfoca en la implementación de un modelo alimentado por un conjunto de datos en español, desarrollado específicamente para este proyecto. El objetivo es generar una herramienta útil capaz de clasificar palabras en español latino, sirviendo como referencia para futuras investigaciones orientadas a la creación de subtítulos automáticos para personas con discapacidad auditiva. Utilizando técnicas de Aprendizaje Máquina, por sus siglas en inglés (ML) y Aprendizaje Profundo, por sus siglas en inglés (DL), se busca extraer características clave para la Lectura Automática de Labios, por sus siglas en inglés (ALR), a partir de videos. El modelo se alimenta de un conjunto de datos propio. Este conjunto de datos está diseñado para incorporar técnicas de extracción de características utilizando Redes Neuronales Convolucionales, por sus siglas en inglés (CNN) y memoria a corto plazo. Se pretende utilizar un modelo recurrente como las Redes Neuronales de Memoria de Corto-Largo Plazo, por sus siglas en inglés (LSTM). La arquitectura del modelo permitirá utilizar la información temporal en videos, donde eventos anteriores ayudarán a mejorar la predicción futura de palabras. De esta manera, se ofrece una solución avanzada y accesible para el reconocimiento del habla en español latino.

Descripción

Palabras clave

Lectura Automática De Labios, Discapacidad Auditiva, Aprendizaje Máquina, Aprendizaje Profundo, Visión Computacional, LSTM, RNN, CNN

Citación

Montes-Díaz, E. E. (2024). Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina. Trabajo de obtención de grado, Maestría en Sistemas Computacionales. Tlaquepaque, Jalisco: ITESO.