Silva-Galvez, ArturoMartínez-Landa, Concepción H.2024-05-302024-05-302024-05Martínez-Landa, C. H. (2024). Implementación de NLP y análisis temático para la detección de sesgos de género. Trabajo de obtención de grado, Maestría en Ciencia de Datos. Tlaquepaque, Jalisco: ITESO.https://hdl.handle.net/11117/10887El sesgo de género en contenidos digitales puede afectar la percepción y la representación, reforzando estereotipos y promoviendo desigualdades. Este estudio se centra en analizar cómo se manifiesta este sesgo, utilizando técnicas de Procesamiento del Lenguaje Natural (NLP) y visualización de datos. A través del análisis del conjunto de datos md_gender_bias, aplicamos NLP y Análisis Latente de Dirichlet (LDA) para desentrañar patrones temáticos y representaciones de género en distintos contextos. El análisis en los conjuntos de datos Yelp y ConvAI2 han revelado la existencia de sesgos de género. En Yelp, si bien no se observa un sesgo de género absoluto, el análisis muestra cierta inclinación hacia palabras asociadas con roles de género masculinos tradicionales, como referencias a profesiones típicamente masculinas, consumo de carnes rojas y actividades estereotípicamente masculinas. Por otro lado, también se identificaron tópicos con una perspectiva más orientada a lo femenino según roles convencionales, con palabras vinculadas a la mujer y actividades culinarias domésticas. En ConvAI2, el sesgo de género es más notorio, con tópicos claramente divididos en experiencias e intereses típicamente masculinos, como deportes y música, contrastando con tópicos femeninos relacionados con la vida familiar, relaciones personales, actividades domésticas y roles de género tradicionales. Para el subconjunto de Wizard, se demuestra que hay una subrepresentación en el género femenino. Esto nos lleva a la conclusión de que la selección de textos para la creación del dataset, así como el etiquetado influyen directamente en la presencia de los sesgos en el mismo. Este estudio resalta la presencia del sesgo de género en los contenidos digitales y subraya la importancia de herramientas avanzadas para su identificación y comprensión. A través de un análisis y visualizaciones, se muestra la presencia de los sesgos de género que se manifiestan el conjunto de datos analizado, finalmente buscando incentivar el desarrollo de estrategias para promover una representación más equitativa y diversa en el ámbito digital.spaAnálisis TemáticoSesgo de GéneroProcesamiento del Lenguaje NaturalImplementación de NLP y análisis temático para la detección de sesgos de géneroinfo:eu-repo/semantics/masterThesis