Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube

Caballero-Zúñiga, Jorge L.

Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube

dc.contributor.advisor	DeObeso-Orendain, Alberto
dc.contributor.author	Caballero-Zúñiga, Jorge L.
dc.date.accessioned	2023-02-21T20:08:46Z
dc.date.available	2023-02-21T20:08:46Z
dc.date.issued	2022-12
dc.description	Este trabajo expone la creación de un pipeline de datos en la nube en la plataforma AWS (Amazon Web Services) que mediante un ETL, que por sus siglas en Ingles Extract, Transform and Load se logra resolver el problema de saber cuáles son las aerolíneas registradas en la IATA (International Air Transport Association) que tienen más demoras en la salida, y en la llegada y mediante este análisis exponer un trabajo futuro para agregarlo como una nueva funcionalidad en las aplicaciones de venta de vuelos para que así los usuarios tengan un nuevo parámetro para elegir mediante mayor información, siendo este el objetivo principal del trabajo, el cual es: Crear un pipeline de ingesta de datos que permita recopilarlos y procesarlos de diversas fuentes y prepararlos para su análisis. Para hacerlo efectivo y útil para el análisis, es necesario definir un modelo de datos que estructure los datos de manera coherente y permita extraer información valiosa. AWS ofrece una amplia gama de herramientas que pueden ayudar a crear y gestionar un pipeline de ingesta de datos, como Amazon Glue. Además, es importante generar métricas que consideren las demoras en relación con los tipos de datos, en este caso, sobre las demoras en los vuelos. De esta manera, podremos optimizar el pipeline y garantizar un flujo de datos eficiente y de alta calidad. De igual manera se pretende confirmar la precisión de los datos usando un modelo de machine learning de regresión lineal con la herramienta de pyspark. Este tipo de modelo es muy útil para clasificar datos y puede ayudar a mejorar la precisión de las predicciones. Además, pyspark es una herramienta muy versátil y potente que permite realizar análisis y procesamiento de grandes conjuntos de datos de manera rápida y eficiente. Es importante tener en cuenta que la precisión de los datos es crucial para el éxito de cualquier proyecto de machine learning, por lo que es necesario realizar pruebas y validaciones para asegurarse de que los datos son confiables y están limpios.	es_MX
dc.description.sponsorship	ITESO, A. C.	es
dc.identifier.citation	Caballero-Zúñiga, J. L. (2022). Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube. Trabajo de obtención de grado, Maestría en Sistemas Computacionales. Tlaquepaque, Jalisco: ITESO.	es_MX
dc.identifier.uri	https://hdl.handle.net/11117/8502
dc.language.iso	spa	es_MX
dc.publisher	ITESO	es_MX
dc.rights.uri	http://quijote.biblio.iteso.mx/licencias/CC-BY-NC-2.5-MX.pdf	es_MX
dc.subject	AWS	es_MX
dc.subject	Industria de Aviación	es_MX
dc.subject	Tecnologías de Información	es_MX
dc.subject	Amazon Web Services	es_MX
dc.subject	Machine Learning	es_MX
dc.title	Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube	es_MX
dc.type	info:eu-repo/semantics/masterThesis	es_MX
dc.type.version	info:eu-repo/semantics/acceptedVersion	es_MX

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: TOG Jorge Luis Caballero Zuñiga.pdf
Tamaño:: 2.83 MB
Formato:: Adobe Portable Document Format
Descripción:

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 5.01 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

DESI - Trabajos de fin de Maestría en Sistemas Computacionales