Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube

dc.contributor.advisorDe Obeso-Orendain, Alberto
dc.contributor.advisorDeObeso-Orendain, Alberto
dc.contributor.authorCaballero-Zúñiga, Jorge L.
dc.date.accessioned2023-02-21T20:08:46Z
dc.date.available2023-02-21T20:08:46Z
dc.date.issued2022-12
dc.descriptionEste trabajo expone la creación de un pipeline de datos en la nube en la plataforma AWS (Amazon Web Services) que mediante un ETL, que por sus siglas en Ingles Extract, Transform and Load se logra resolver el problema de saber cuáles son las aerolíneas registradas en la IATA (International Air Transport Association) que tienen más demoras en la salida, y en la llegada y mediante este análisis exponer un trabajo futuro para agregarlo como una nueva funcionalidad en las aplicaciones de venta de vuelos para que así los usuarios tengan un nuevo parámetro para elegir mediante mayor información, siendo este el objetivo principal del trabajo, el cual es: Crear un pipeline de ingesta de datos que permita recopilarlos y procesarlos de diversas fuentes y prepararlos para su análisis. Para hacerlo efectivo y útil para el análisis, es necesario definir un modelo de datos que estructure los datos de manera coherente y permita extraer información valiosa. AWS ofrece una amplia gama de herramientas que pueden ayudar a crear y gestionar un pipeline de ingesta de datos, como Amazon Glue. Además, es importante generar métricas que consideren las demoras en relación con los tipos de datos, en este caso, sobre las demoras en los vuelos. De esta manera, podremos optimizar el pipeline y garantizar un flujo de datos eficiente y de alta calidad. De igual manera se pretende confirmar la precisión de los datos usando un modelo de machine learning de regresión lineal con la herramienta de pyspark. Este tipo de modelo es muy útil para clasificar datos y puede ayudar a mejorar la precisión de las predicciones. Además, pyspark es una herramienta muy versátil y potente que permite realizar análisis y procesamiento de grandes conjuntos de datos de manera rápida y eficiente. Es importante tener en cuenta que la precisión de los datos es crucial para el éxito de cualquier proyecto de machine learning, por lo que es necesario realizar pruebas y validaciones para asegurarse de que los datos son confiables y están limpios.es_MX
dc.description.sponsorshipITESO, A. C.es
dc.identifier.citationCaballero-Zúñiga, J. L. (2022). Ingesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nube. Trabajo de obtención de grado, Maestría en Sistemas Computacionales. Tlaquepaque, Jalisco: ITESO.es_MX
dc.identifier.urihttps://hdl.handle.net/11117/8502
dc.language.isospaes_MX
dc.publisherITESOes_MX
dc.rights.urihttp://quijote.biblio.iteso.mx/licencias/CC-BY-NC-2.5-MX.pdfes_MX
dc.subjectAWSes_MX
dc.subjectIndustria de Aviaciónes_MX
dc.subjectTecnologías de la Informaciónes_MX
dc.subjectAmazon Web Serviceses_MX
dc.subjectMachine Learninges_MX
dc.titleIngesta y modelado de datos de aerolíneas mediante un pipeline utilizando tecnología disponible en la nubees_MX
dc.typeinfo:eu-repo/semantics/masterThesises_MX
dc.type.versioninfo:eu-repo/semantics/acceptedVersiones_MX

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
TOG Jorge Luis Caballero Zuñiga.pdf
Tamaño:
2.83 MB
Formato:
Adobe Portable Document Format
Descripción: