Modelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria

dc.contributor.advisorLozano-Díaz, César
dc.contributor.authorMuñoz-López, Patricia
dc.date.accessioned2025-01-27T19:16:29Z
dc.date.available2025-01-27T19:16:29Z
dc.date.issued2025-01
dc.description.abstractEste estudio aborda el análisis de datos no estructurados provenientes de etiquetas de productos alimenticios con el objetivo de clasificar alimentos bajo el contexto de diseño y desarrollo de nuevos productos. Dado que estos datos contienen información detallada sobre ingredientes y aditivos, su análisis resulta fundamental para identificar relaciones subyacentes y transformar el texto en valores cuantitativos susceptibles de evaluación sistemática. Para alcanzar este propósito, se emplean técnicas de Procesamiento de Lenguaje Natural (PLN), como los word embeddings y el reconocimiento de entidades nombradas (Named Entity Recognition o NER). En particular, se utilizan modelos como GPT, Word2Vec y GLiNER, con los cuales se desarrolla una metodología orientada a la extracción de patrones relevantes, facilitando así la limpieza, estructuración y análisis de los datos en el marco del desarrollo de productos alimenticios. Los resultados muestran que la metodología es efectiva para procesar datos no estructurados, mejorando la calidad mediante segmentación por idioma, adaptación de modelos preentrenados de NER y balance de clases. Estas optimizaciones permitieron obtener métricas destacadas (accuracy, precision, recall, f1-score) y confirmar la hipótesis inicial, evidenciando un impacto positivo en la clasificación de alimentos. Finalmente, el procesamiento y estructuración de datos dentro de un flujo de trabajo automatizado tiene un alto valor, ya que permite integrar y sistematizar los datos de manera escalable y reproducible. Este enfoque ofrece un modelo escalable para gestionar datos, especialmente aquellos provenientes de bases de datos tipo crowdsourcing, mejorando así la calidad y consistencia de las bases de datos alimentarias y facilitando la actualización continua de información. La centralización de datos de alta calidad podría contribuir considerablemente al desarrollo y la innovación de productos alimenticios.
dc.identifier.citationMuñoz-López, P. (2025). Modelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria. Trabajo de obtención de grado, Maestría en Ciencia de Datos. Tlaquepaque, Jalisco: ITESO.
dc.identifier.urihttps://hdl.handle.net/11117/11394
dc.language.isospa
dc.publisherITESO
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/deed.es
dc.subjectReconocimiento de Entidades Nombradas (NER)
dc.subjectModelos de Clasificación
dc.subjectDatos
dc.subjectProcesamiento del Lenguaje Natural
dc.subjectMachine Learning
dc.subjectIndustria Alimentaria
dc.titleModelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria
dc.title.alternativeModel for Structuring and Classifying Unstructured Data Using Natural Language Processing Techniques: A Case study in the Food Industry
dc.typeinfo:eu-repo/semantics/masterThesis
dc.type.versioninfo:eu-repo/semantics/acceptedVersion

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
ITESO_MAF_MScThesis_PATYMUNOZ.pdf
Tamaño:
19.33 MB
Formato:
Adobe Portable Document Format