Modelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria

Cargando...
Miniatura

Fecha

2025-01

Autores

Muñoz-López, Patricia

Título de la revista

ISSN de la revista

Título del volumen

Editor

ITESO

Resumen

Este estudio aborda el análisis de datos no estructurados provenientes de etiquetas de productos alimenticios con el objetivo de clasificar alimentos bajo el contexto de diseño y desarrollo de nuevos productos. Dado que estos datos contienen información detallada sobre ingredientes y aditivos, su análisis resulta fundamental para identificar relaciones subyacentes y transformar el texto en valores cuantitativos susceptibles de evaluación sistemática.

Para alcanzar este propósito, se emplean técnicas de Procesamiento de Lenguaje Natural (PLN), como los word embeddings y el reconocimiento de entidades nombradas (Named Entity Recognition o NER). En particular, se utilizan modelos como GPT, Word2Vec y GLiNER, con los cuales se desarrolla una metodología orientada a la extracción de patrones relevantes, facilitando así la limpieza, estructuración y análisis de los datos en el marco del desarrollo de productos alimenticios.

Los resultados muestran que la metodología es efectiva para procesar datos no estructurados, mejorando la calidad mediante segmentación por idioma, adaptación de modelos preentrenados de NER y balance de clases. Estas optimizaciones permitieron obtener métricas destacadas (accuracy, precision, recall, f1-score) y confirmar la hipótesis inicial, evidenciando un impacto positivo en la clasificación de alimentos.

Finalmente, el procesamiento y estructuración de datos dentro de un flujo de trabajo automatizado tiene un alto valor, ya que permite integrar y sistematizar los datos de manera escalable y reproducible. Este enfoque ofrece un modelo escalable para gestionar datos, especialmente aquellos provenientes de bases de datos tipo crowdsourcing, mejorando así la calidad y consistencia de las bases de datos alimentarias y facilitando la actualización continua de información. La centralización de datos de alta calidad podría contribuir considerablemente al desarrollo y la innovación de productos alimenticios.

Descripción

Palabras clave

Reconocimiento de Entidades Nombradas (NER), Modelos de Clasificación, Datos, Procesamiento del Lenguaje Natural, Machine Learning, Industria Alimentaria

Citación

Muñoz-López, P. (2025). Modelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria. Trabajo de obtención de grado, Maestría en Ciencia de Datos. Tlaquepaque, Jalisco: ITESO.