Procesamiento de audio digital para la clasificación de sonidos urbanos a través de una red neuronal

Cargando...
Miniatura

Fecha

2023-05

Autores

López-Escudero, Ramón

Título de la revista

ISSN de la revista

Título del volumen

Editor

ITESO

Resumen

Descripción

En respuesta directa al crecimiento poblacional en las grandes urbes, las ciudades inteligentes se han impulsado como un catalizador tecnológico, el cual permite aprovechar la disponibilidad de arquitecturas sensoriales distribuidas a lo largo de la urbe. Esto promueve nuevas áreas de estudio, siendo una de ellas la clasificación de sonidos ambientales (ESC, por sus siglas en inglés). Múltiples esfuerzos se han desarrollado para generar algoritmos computacionales que infieran de manera adecuada la relación entre los sonidos urbanos y su taxonomía, área poco profundizada en comparación a otras ramas de investigación. Sin embargo la técnica óptima para resolver este tipo de problemas no ha sido identificada aún, por lo que existen áreas de oportunidad en este campo de investigación como lo son la selección del método adecuado para trasladar el sonido a una representación numérica, prepreocesamiento del audio digital, selección del modelo predictivo a implementar, entre otras. La investigación presentada en esta tesis ahonda diferentes tópicos, abordando desde el procesamiento de señales para trasladar el espacio auditivo a una representación numérica a través de los coeficientes cepstrales de Mel (MFCCs, por sus siglas en inglés), hasta la selección y ajuste de un modelo de inteligencia artificial que tiene como foco principal un método de clasificación robusto para inferir la taxonomía de los sonidos contenidos en una urbe. Esta investigación se realizó utilizando el conjunto de datos”UrbanSound8k”, el cual integra diez categorías de sonidos (motores de autos, ruido a consecuencia de obras civiles, etcétera), además de ser punto de referencia en diversas investigaciones.

Palabras clave

Clasificación de Sonidos Ambientales, Coeficientes Cepstrales de Mel, Data Augmentation, Red Neuronal, Regularización con Dropout

Citación

López-Escudero, R. (2023). Procesamiento de audio digital para la clasificación de sonidos urbanos a través de una red neuronal. Trabajo de obtención de grado, Maestría en Ciencia de Datos. Tlaquepaque, Jalisco: ITESO.