Aplicación de modelado de tópicos en reseñas de hospedajes de Airbnb en Berlín de 2010 a 2019

Cargando...
Miniatura

Fecha

2023-05

Autores

Ibáñez-Sosa, Gustavo

Título de la revista

ISSN de la revista

Título del volumen

Editor

ITESO

Resumen

Descripción

El Procesamiento de Lenguaje Natural se ha convertido en una disciplina clave en la era digital. Con el aumento en la cantidad de información que se genera diariamente en diferentes formatos, es necesario contar con herramientas que permitan analizar, entender y categorizar los datos. Ante esta realidad se desarrolla este trabajo explorando una de estas herramientas, el modelado de tópicos. Este trabajo se divide en dos principales partes, en la primera se hace una comparativa de forma metodológica, de tres modelos (LDA, GSDMM y BERTopic) para el modelado de tópicos. Y en la segunda parte, se hace un análisis de tópicos con el modelo seleccionado de la primera parte. El trabajo se desarrolló con una base de datos de reseñas de alojamientos de Airbnb Berlín. Previa a las dos principales partes se realizó un pretratamiento de la base de datos, el cual incluye pasos como selección de columnas, detección de idioma de las reseñas, traducción al inglés, tokenizado, eliminación de stopwords y stemming. Posterior a esto se realizó la comparativa empleando las siguientes métricas, valor de coherencia, análisis visual y tiempo de ejecución. De la comparativa se seleccionó el modelo LDA, debido a que es el que presenta mejores resultados en todas las métricas. Enseguida realizo una optimización de los parámetros, haciendo un barrido de los valores posibles en un rango definido. Como resultado del modelo optimizado se encontraron cinco tópicos principales en el conjunto de reseñas, los cuales se categorizan como “Positivo General”, “Negativo General”, “Ubicación Airbnb”, “Positivo Host” y “Habitaciones/Espacio del Airbnb”. Siendo “Positivo General” el tópico principal en el conjunto y el tópico “Habitaciones/Espacio del Airbnb” muestra mayor relevancia en reseñas escritas en español y francés.

Palabras clave

LDA, GSDMM, BERTopic, Reseñas, Modelado de Tópicos

Citación

Ibáñez-Sosa, G. (2023). Aplicación de modelado de tópicos en reseñas de hospedajes de Airbnb en Berlín de 2010 a 2019. Trabajo de obtención de grado, Maestría en Ciencia de Datos. Tlaquepaque, Jalisco: ITESO.