Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube

De Obeso-Orendain, AlbertoDeObeso-Orendain, AlbertoCaballero-Zúñiga, Jorge L.2023-02-212023-02-212022-12Caballero-Zúñiga, J. L. (2022). Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube. Trabajo de obtención de grado, Maestría en Sistemas Computacionales. Tlaquepaque, Jalisco: ITESO.https://hdl.handle.net/11117/8502Este trabajo expone la creación de un pipeline de datos en la nube en la plataforma AWS (Amazon Web Services) que mediante un ETL, que por sus siglas en Ingles Extract, Transform and Load se logra resolver el problema de saber cuáles son las aerolíneas registradas en la IATA (International Air Transport Association) que tienen más demoras en la salida, y en la llegada y mediante este análisis exponer un trabajo futuro para agregarlo como una nueva funcionalidad en las aplicaciones de venta de vuelos para que así los usuarios tengan un nuevo parámetro para elegir mediante mayor información, siendo este el objetivo principal del trabajo, el cual es: Crear un pipeline de ingesta de datos que permita recopilarlos y procesarlos de diversas fuentes y prepararlos para su análisis. Para hacerlo efectivo y útil para el análisis, es necesario definir un modelo de datos que estructure los datos de manera coherente y permita extraer información valiosa. AWS ofrece una amplia gama de herramientas que pueden ayudar a crear y gestionar un pipeline de ingesta de datos, como Amazon Glue. Además, es importante generar métricas que consideren las demoras en relación con los tipos de datos, en este caso, sobre las demoras en los vuelos. De esta manera, podremos optimizar el pipeline y garantizar un flujo de datos eficiente y de alta calidad. De igual manera se pretende confirmar la precisión de los datos usando un modelo de machine learning de regresión lineal con la herramienta de pyspark. Este tipo de modelo es muy útil para clasificar datos y puede ayudar a mejorar la precisión de las predicciones. Además, pyspark es una herramienta muy versátil y potente que permite realizar análisis y procesamiento de grandes conjuntos de datos de manera rápida y eficiente. Es importante tener en cuenta que la precisión de los datos es crucial para el éxito de cualquier proyecto de machine learning, por lo que es necesario realizar pruebas y validaciones para asegurarse de que los datos son confiables y están limpios.spaAWSIndustria de AviaciónTecnologías de la InformaciónAmazon Web ServicesMachine LearningIngesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nubeinfo:eu-repo/semantics/masterThesis