Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina

Montes-Díaz, Edgar E.

Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina

Archivos

TOG_clasificacion_de_palabras_a_partir_de_ALR.pdf (2.8 MB)

Fecha

2024-07

Autores

Montes-Díaz, Edgar E.

Editor

ITESO

Resumen

La información contenida en los labios y el rostro proporciona datos significativos para el reconocimiento del habla y el procesamiento del lenguaje natural. Aunque existen diversas metodologías para abordar este problema, la mayoría se basan en conjuntos de datos en chino e inglés. Este trabajo se enfoca en la implementación de un modelo alimentado por un conjunto de datos en español, desarrollado específicamente para este proyecto. El objetivo es generar una herramienta útil capaz de clasificar palabras en español latino, sirviendo como referencia para futuras investigaciones orientadas a la creación de subtítulos automáticos para personas con discapacidad auditiva. Utilizando técnicas de Aprendizaje Máquina, por sus siglas en inglés (ML) y Aprendizaje Profundo, por sus siglas en inglés (DL), se busca extraer características clave para la Lectura Automática de Labios, por sus siglas en inglés (ALR), a partir de videos. El modelo se alimenta de un conjunto de datos propio. Este conjunto de datos está diseñado para incorporar técnicas de extracción de características utilizando Redes Neuronales Convolucionales, por sus siglas en inglés (CNN) y memoria a corto plazo. Se pretende utilizar un modelo recurrente como las Redes Neuronales de Memoria de Corto-Largo Plazo, por sus siglas en inglés (LSTM). La arquitectura del modelo permitirá utilizar la información temporal en videos, donde eventos anteriores ayudarán a mejorar la predicción futura de palabras. De esta manera, se ofrece una solución avanzada y accesible para el reconocimiento del habla en español latino.

Palabras clave

Lectura Automática De Labios, Discapacidad Auditiva, Aprendizaje Máquina, Aprendizaje Profundo, Visión Computacional, LSTM, RNN, CNN

Citación

Montes-Díaz, E. E. (2024). Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina. Trabajo de obtención de grado, Maestría en Sistemas Computacionales. Tlaquepaque, Jalisco: ITESO.

URI

https://hdl.handle.net/11117/11033

Colecciones

DESI - Trabajos de fin de Maestría en Sistemas Computacionales

Página completa del ítem

Detección y clasificación de palabras a partir de la lectura de labios mediante técnicas de aprendizaje profundo y aprendizaje máquina

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones