DMAF - Trabajos de fin de Maestría en Ciencia de Datos

URI permanente para esta colección

Examinar

Envíos recientes

Mostrando 1 - 20 de 58
  • Ítem
    Liquidity-Adjusted Sharpe Ratio
    (ITESO, 2024-10) González-Vázquez, Sean N.; Sánchez-Torres, Juan D.
    Modern Portfolio Theory, introduced by Harry Markowitz in 1952, and the Sharpe Ratio, proposed by William Sharpe in 1966, focus on portfolio optimization considering market return and risk. Markowitz and Sharpe developed these theories in the New York Stock Exchange (NYSE) context. However, in markets with different characteristics, such as the Mexican market, additional factors beyond returns and market risk play a crucial role in the performance of an investment portfolio. One of the major challenges in low-liquidity markets is the difficulty of quickly buying or selling assets due to liquidity constraints. This thesis introduces a novel approach to portfolio optimization in such environments: the LiquidityAdjusted Sharpe Ratio. This method seeks to maximize the risk-return profile of a portfolio while factoring in liquidity risk, using a liquidity shrinkage factor to penalize assets with low liquidity. By doing so, the model balances an asset’s return potential with its associated market risk and liquidity risk. Additionally, we propose a specific case of this approach, termed the Liquidity Variance Return Ratio (LVRR), which measures the Sharpe Ratio achieved per unit of liquidity risk taken in an investment. The higher the LVRR, the more efficiently the portfolio manages liquidity risk in relation to its returns. The goal, therefore, is to maximize the LVRR, making it a distinct case within the broader Liquidity-Adjusted Sharpe Ratio framework. This targeted optimization ensures that portfolios are not only risk-efficient but also liquid, which is crucial in constrained markets. Throughout this document, we present this method’s analytical and empirical solution and propose a Sharpe-Liquidity efficient frontier that considers the return, market risk, and liquidity risk of an investment portfolio. This new frontier offers a more ad hoc approach for investors facing liquidity constraints when trading. We demonstrated that the proposed method and its elements (such as the LVRR portfolio) fall within this front’s optimal and feasible region. Also, we found that to achieve lower liquidity risk in a portfolio, it is generally necessary to accept higher market risk. However, in most cases, and subject to the selection of portfolio assets, the returns of LVRR-optimized portfolios show lower kurtosis with higher positive skewness compared to optimal Maximum Sharpe portfolios. This means that although the volatility of a LVRR portfolio generally increases, this volatility is skewed towards gains, i.e., positive returns. Additionally, when implementing the method through the backtesting of portfolios with random asset selection, we found that our method often outperforms the traditional Sharpe ratio approach in the Mexican market. Specifically, our analysis reveals a 74% probability of achieving superior returns in static long-term portfolios and a 80% probability in dynamic portfolios that incorporate periodic rebalancing. We also found that in liquid markets, the method tends to converge to the Sharpe Ratio, making it better to adopt the classic approach in these contexts due to the low relevance of liquidity risk. After extensive research, it has been concluded that the LVRR method consistently delivers favorable outcomes within low-liquidity markets. This suggests that the proposed methodology can serve as a viable alternative for investors seeking to operate effectively in such environments.
  • Ítem
    Sistema de aprendizaje interactivo de aperturas de ajedrez
    (ITESO, 2024-08) Hernández-Gutiérrez, Alejandro N.; Muñoz-Elguezábal, Juan F.
    El prototipo desarrollado en este proyecto es un sistema de aprendizaje didáctico en el que el usuario puede jugar contra una computadora esta fase del ajedrez de forma aleatoria y obtiene retroalimentación constante de su posición y la del rival así como sugerencias de movimientos de aperturas. La base de datos que alimenta el modelo clasificador [1] proviene de la plataforma online de ajedrez ’Lichess’. El archivo contiene más de veintemil juegos e incluyen los movimientos jugados, la apertura y datos estadísticos de los jugadores. En este trabajo de grado se presenta el modelo de clasificación 8.3 que logra predecir victoria con un accuracy de 91.74 % y un brier score de 0.06, seleccionado comparando una serie de modelos propuestos a través de 2 experimentos.
  • Ítem
    Enhancing Cryptocurrency Transparency: A Graph Neural Network Approach for Bitcoin Address Classification
    (ITESO, 2024-05) Rojas-Mayorquín, Benito T.; Muñoz-Elguezábal, Juan F.
    Cryptocurrencies, notably Bitcoin, have catalyzed a significant shift in digital financial systems. The inherent pseudonymity of blockchain complicates efforts towards transparency and security, presenting a crucial problem that this thesis aims to resolve by enhancing address classification. The relevance of this problem lies in the increasing necessity for compliance with global financial regulations and ensuring the integrity of transactions. Addressing this challenge involves overcoming significant difficulties such as the complexity of analyzing vast amounts of transaction data, the need for accurate data preprocessing, and the application of advanced machine learning techniques on non-traditional data structures like graphs. This research utilizes Graph Attention Networks (GATs) to classify Bitcoin addresses, a method chosen for its robustness in handling relational data and its capacity to focus selectively on the most informative parts of the transaction graph. The efficacy of this approach is demonstrated through controlled experiments, where the GATs achieved an accuracy of 92.87%, a precision of 89.35%, a recall of 92.87%, and an F1 score of 90.17%. These results significantly improve upon previous internal benchmarks and confirm the model’s capability to enhance transparency in Bitcoin transactions. Furthermore, this work contributes a novel open-source Extract, Transform, Load (ETL) process tailored for blockchain data, fostering improved analytical transparency, and aiding regulatory and forensic analysis. The findings propose practical applications in financial technology, moving beyond theoretical discourse into actionable insights.
  • Ítem
    The Role of Sparse Training and Evolutionary Optimization in Volatility Forecasting Machine Learning Models
    (ITESO, 2024-05) Arriaza-Alonzo, Diego F.; Muñoz-Elguezábal, Juan F.
    ETH is the native cryptocurrency of the Ethereum network, one of the most prominent blockchains for its intelligent contracts and diverse ecosystem of decentralized projects. In this research it is studied the problem of ETH/USDT 10 min short-term volatility forecasting by exploiting volatility history, order book data and public trades data 30 minutes prior. On the one hand, order book data consists of buy and sell orders over time and, on the other hand, public trades are orders executed. It is possible to calculate features from both sources that can be used as predictors for models. For the first experiment GARCH(1,1), LSTM with one layer of 100 neurons and an Encoder-Decoder with the Encoder with one LSTM of 100 neurons and the Decoder with one LSTM of 100 neurons are the models selected for volatility predictions. For the second experiment, GARCH is excluded due to poor performance on the first experiment. 10 T-Folds-SV were created omitting 50 minutes between Training and Validation sets to avoid leakage and by KL Divergence only five folds were selected that have the characteristic of being different from each other and provide unique information. With this experiment the RAM consumption was significantly reduced and the results were similar to the first one. Hyperparameter Optimization with less data is now possible and is done by Genetic Algorithms. After three generations of 750 models for both LSTM and Encoder-Decoder it was possible to find the best hyperparameter values and the LSTM best model outperformed its counterparty.
  • Ítem
    Predicción de cambio de precio en mercados bursátiles mediante el uso de modelado predictivo para series de tiempo
    (ITESO, 2024-06) Caloca-Gómez, Carlos; Muñoz-Elguezábal, Juan F.
    En el contexto actual de los mercados bursátiles, la capacidad de predicción a tiempo y con precisión de las fluctuaciones de precios en los distintos activos es de suma importancia para la toma de decisiones. Este proyecto se enfoca en el desarrollo de un sistema de modelado predictivo utilizando técnicas de ciencia de datos para pronosticar los movimientos del precio. Se utilizan datos históricos de velas de transacciones de criptomoneda Ether, los registros son por hora y el periodo de tiempo es desde enero 2023 hasta octubre 2023. El objetivo del trabajo es desarrollar un proceso de modelado predictivo capaz de estimar variacioónes en los precios para determinar el cambio de signo de la variable objetivo. La metodología propuesta incluye la evaluación de modelos de clasificación como perceptrón multicapa y regresión logística, ajuste de hiperparámetros para mejorar la precisión de los modelos. Se utilizan métricas como exactitud, precisión, sensibilidad, valor F1 y área bajo la curva ROC para comparar los resultados de las predicciones. Se busca que este proyecto contribuya a la aplicación de técnicas de ciencia de datos en el campo financiero.
  • Ítem
    Implementación de modelos de predicción para la mejora de gestión de inventarios
    (ITESO, 2024-06) Gómez-Flores, Isaac G.; Alcalá-Temores, Jaime E.
    Este trabajo ofrece una introducción al desafío fundamental de mejorar la precisión en los pronósticos que se usan para la gestión de inventarios y sus efectos en la cadena de suministro. Los pronósticos inexactos pueden provocar desbalances en la gestión de inventarios, lo que implica costos de almacenamiento, posibles costos de desecho de productos sobrantes y gastos extra por tener que apresurar órdenes. Además, puede ocasionar problemas con los clientes y pérdida de ventas de productos. El objetivo principal de este proyecto es proponer una alternativa para la generación de pronósticos de ventas de productos para dos unidades de negocios de la empresa donde el autor participa. Para lograr este objetivo, se realizarán las siguientes acciones: obtener, transformar y crear un conjunto de datos para el análisis, construir modelos de pronóstico estadísticos y de aprendizaje automático, seleccionar los mejores modelos por tipo de producto y comparar las predicciones obtenidas con las estimaciones internas compartidas. Los resultados muestran que, para algunos productos, los modelos desarrollados presentaron una disminución significativa del error en comparación con el método utilizado actualmente. Sin embargo, para otros productos, los errores fueron mayores. En general, los modelos estadísticos tuvieron un mejor rendimiento que los modelos de aprendizaje automático. Finalmente fue posible sugerir una alternativa para la elaboración de pronósticos de ventas en las distintas unidades de negocio, planteando una forma de optimizar los inventarios mediante predicciones más precisas obteniendo para algunos productos una mejora en comparación con el método utilizado actualmente.
  • Ítem
    Analyzing Patterns of Social Responsibility. A Clustering Approach to B Corporation Performance
    (ITESO, 2024-04) Slay-Ramos, Rodolfo; Carrasco-Navarro, Rocío; Hernández-Gutiérrez, Gonzalo
    The study explores the use of hierarchical clustering techniques to assess the performance of B Corporations, which are businesses certified by B Lab for their commitment to social and environmental responsibility. The study aims to identify distinct patterns and clusters among these corporations based on their operational metrics and impact assessments. The research involves a comprehensive analysis of a dataset from B Corporation impact assessments, applying various data science methodologies, including clustering and silhouette scoring, to validate the results. The findings highlight significant variations in performance and operational strategies among different clusters, with a particular emphasis on the influence of worker participation and ownership on overall company performance and sustainability. Key insights from the study suggest that corporate governance structures, especially those involving employee ownership, play a crucial role in enhancing corporate performance and stakeholder impact. The thesis contributes to a broader understanding of how socially responsible business models can be effective and provides valuable implications for policymakers, corporate leaders, and researchers interested in sustainability and corporate governance.
  • Ítem
    Predicción de diagnóstico a partir de datos médicos utilizando algoritmos de PLN
    (ITESO, 2024-05) Bhat, Ashwin G.; Muñoz-Elguezábal, Juan F.
    In the contemporary medical landscape, there is a pressing need for rapid and accurate solutions to health emergencies, as well as access to expert physician insights. Traditional approaches involve clinical consultations where doctors assess patient histories and recommend specialist interventions. However, with the advent of Natural Language Processing (NLP) – a subset of machine learning – there is potential to revolutionize this process. NLP, when applied to medical findings, offers promising avenues for predicting patient diagnoses and identifying early indicators of chronic diseases. Given the vast repositories of publicly accessible medical data, there is an opportunity to harness advanced models such as Spark NLP, Spacy, and Deep Learning to distill meaningful insights from these findings. Such models can not only aid in patient diagnosis but also provide a broader perspective on population health trends, paving the way for proactive disease prevention strategies. This document delves into the utilization of diverse NLP algorithms for diagnosing conditions based on medical findings, underscoring the transformative potential of machine learning in clinical analysis.
  • Ítem
    Educación y prevención del delito. un análisis de la influencia de los centros educativos en la incidencia delictiva de Jalisco
    (ITESO, 2024-05) Zambrano-Aguirre, Oscar; Motta-Bonilla, Byron M.
    En el presente trabajo se aborda el problema de la incidencia delictiva en el estado de Jalisco, México, considerando la educación como un poderoso instrumento de cambio. La investigación se centra en establecer una correlación entre el número y tipos de escuelas a nivel municipal y la incidencia y tipo de delitos en esos lugares. El objetivo central es discernir las mejores estrategias para la creación de instituciones educativas que puedan contribuir a una disminución en los índices de violencia. Inicialmente, se realiza un análisis exploratorio de datos para comprender la distribución actual de delitos y centros educativos. Posteriormente, se presentan modelos estadísticos que expliquen la relación entre las variables. Los resultados del estudio podrían proporcionar observaciones sobre qué municipios podrían beneficiarse más de intervenciones educativas. Finalmente, se enfatiza la urgente necesidad de invertir en educación como mecanismo de prevención del delito y promoción de una sociedad más justa y segura. Esta investigación proporciona un enfoque que invita a la reflexión al vincular directamente la educación con la prevención del delito, enfatizando la relevancia de políticas educativas estratégicas para el bienestar social.
  • Ítem
    Estrategias de machine learning para la personalización de tasas de interés en Fintech. Un enfoque con LGBM y S Learner
    (ITESO, 2024-05) Vilchis-Sánchez, Sofía; Alcalá-Temores, Jaime E.
    Este trabajo innova en la optimización de micropréstamos mediante la personalización de tasas de interés, empleando modelos avanzados de Light Gradient Boosting Machine (LightGBM). A través de experimentos, se examina cómo diferentes ajustes afectan la precisión y eficacia de modelos de clasificación y regresión. Se seleccionaron los modelos más efectivos para integrar un enfoque de ganancia ponderada en recurrencia, aplicando la metodología de S-learner con diversas tasas de interés, buscando maximizar la ganancia del usuario. Este enfoque logró mejorar la personalización de tasas de interés y aumentar las ganancias en un 7% sin afectar la recurrencia de los préstamos, sugiriendo un cambio de paradigma hacia un sector Fintech más inclusivo y centrado en el usuario. El estudio abre caminos para futuras investigaciones en personalización de servicios financieros, explorando nuevas áreas y mejorando la rentabilidad de los micropréstamos, promoviendo un sector Fintech equitativo e inclusivo.
  • Ítem
    Anomaly Detection for Cloud Services
    (ITESO, 2024-05) Ceja-Fuentes, Erick; Alcalá-Temores, Jaime E.
    El estudio presentado en este trabajo de investigación se centra en el análisis de métricas en un sistema basado en la nube. Las métricas se recopilan de diferentes fuentes con distintos niveles de agrupación. Esto crea un entorno ideal para explorar modelos de clasificación.El objetivo principal de este estudio es encontrar correlaciones entre las diferentes fuentes de estas métricas. En particular, el estudio tiene como objetivo examinar los grupos de instancias de la nube e identificar las relaciones entre ellos.Se exploraron varios modelos para analizar las métricas. Después de una cuidadosa consideración, se determinó que los árboles de decisión eran el mejor modelo a utilizar para este tipo de datos. Los árboles de decisión ofrecen varias ventajas para este tipo de análisis, incluida su capacidad para manejar estructuras de datos complejas y su facilidad de interpretación.Los resultados del estudio fueron positivos. Al utilizar árboles de decisión, se mejoró enormemente la clasificación de los diferentes grupos de instancias de la nube. Este éxito demuestra la utilidad de los árboles de decisión para analizar estructuras de datos complejas y puede tener implicaciones para futuros estudios en esta área.
  • Ítem
    Sistema de clasificación de ordenes de supresión
    (ITESO, 2024-05) Durán-Valencia, Thaitiel J.; Alcalá-Temores, Jaime E.
    El sistema de órdenes de supresión policial (PSOS, por sus siglas en inglés) comienza como un proyecto Call for Code en colaboración con la Asociación Nacional de Abogados de Defensa Criminal (NACDL) para construir una base de datos utilizando inteligencia artificial para ayudar a rastrear las órdenes de supresión judiciales. El alcance del proyecto se ha ampliado para rastrear cualquier mala conducta policial. El resultado final utilizaría la inteligencia artificial, en específico Procesamiento de Lenguaje Natural (Natural Language Processing, NLP por sus siglas en inglés) para eliminar cientos de miles de horas de trabajo manual en el intento de crear y mantener una base de datos que identifique el comportamiento problemático de la policía. Este trabajo se centró en un problema de clasificación de texto, cuyo objetivo principal fue explorar cuáles son los métodos de aprendizaje automático supervisado más efectivos para abordarlo.
  • Ítem
    Planificación de eventos socioculturales para evitar la afectación de usuarios de MiBici
    (ITESO, 2024-05) DeLeón-Flores, José R. J.; Motta-Bonilla, Byron M.
    Jalisco ha tenido un crecimiento poblacional acelerado, se ha convertido en una de los estados más importantes del país. Como todo estado con crecimiento acelerado, los problemas vienen, problemas de toda indole. Este trabajo esta enfocado en los problemas que causa una mala planificación de los eventos socioculturales, el cómo es afectado el traslado de la población por la ciudad cuando los eventos obstaculizan las vias de transporte, en este caso el enfoque esta en el transporte urbano denominado Mi Bici. Mi Bici es un sistema de transporte publico que esta localizado en la zona metropolitana de Guadalajara (ZMG), diversas estaciones se encuentran ubicadas dentro de esta zona en las cuales mediante una renta tienes acceso a una bicicleta y se puede retornar ya sea en la misma estación o en una diferente. Básicamente este es el modo de operar del sistema. Este trabajo intenta demostrar, mediante un modelo de tiempo el crecimiento de la población que hace uso de este transporte y así poder llegar a demostrar que grandes cantidades de usuarios son afectados en sus actividades diarias, ya sea para trasladarse a su trabajo, a la escuela o simplemente por actividad física, cuando eventos socioculturales de cualquier magnitud obstruyen las areas en donde se mueven estas masas de ciclistas. La pandemia juega un papel importante en este pronostico, gráficamente se puede visualizar el crecimiento de esta población de ciclistas se fue a cero dada este acontecimiento, ya que todos tuvimos que permanecer durante un largo tiempo encerrados. Es por eso que este trabajo se acoto a un tiempo hasta antes de la pandemia y así visualizar si existía un pronostico de crecimiento o al menos una estabilización en la cantidad de población de usuarios para alertar a las autoridades del gobierno de Jalisco, ya que una eventos que interrumpieran las actividades del día a día de esta población pudiera causar descontento entre los usuarios de este transporte. Los resultados de este trabajo, demostraron que en realidad hay un crecimiento en general y que el pronostico tiende al crecimiento, por lo cuál pudiera ser la premisa para un análisis más profundo para detectar más patrones que pudieran ayudar al gobierno de Jalisco a una buena planificación de cada evento que se libere y coincida en la zona de trafico de usuarios de MiBici.
  • Ítem
    Implementación de NLP y análisis temático para la detección de sesgos de género
    (ITESO, 2024-05) Martínez-Landa, Concepción H.; Silva-Galvez, Arturo
    El sesgo de género en contenidos digitales puede afectar la percepción y la representación, reforzando estereotipos y promoviendo desigualdades. Este estudio se centra en analizar cómo se manifiesta este sesgo, utilizando técnicas de Procesamiento del Lenguaje Natural (NLP) y visualización de datos. A través del análisis del conjunto de datos md_gender_bias, aplicamos NLP y Análisis Latente de Dirichlet (LDA) para desentrañar patrones temáticos y representaciones de género en distintos contextos. El análisis en los conjuntos de datos Yelp y ConvAI2 han revelado la existencia de sesgos de género. En Yelp, si bien no se observa un sesgo de género absoluto, el análisis muestra cierta inclinación hacia palabras asociadas con roles de género masculinos tradicionales, como referencias a profesiones típicamente masculinas, consumo de carnes rojas y actividades estereotípicamente masculinas. Por otro lado, también se identificaron tópicos con una perspectiva más orientada a lo femenino según roles convencionales, con palabras vinculadas a la mujer y actividades culinarias domésticas. En ConvAI2, el sesgo de género es más notorio, con tópicos claramente divididos en experiencias e intereses típicamente masculinos, como deportes y música, contrastando con tópicos femeninos relacionados con la vida familiar, relaciones personales, actividades domésticas y roles de género tradicionales. Para el subconjunto de Wizard, se demuestra que hay una subrepresentación en el género femenino. Esto nos lleva a la conclusión de que la selección de textos para la creación del dataset, así como el etiquetado influyen directamente en la presencia de los sesgos en el mismo. Este estudio resalta la presencia del sesgo de género en los contenidos digitales y subraya la importancia de herramientas avanzadas para su identificación y comprensión. A través de un análisis y visualizaciones, se muestra la presencia de los sesgos de género que se manifiestan el conjunto de datos analizado, finalmente buscando incentivar el desarrollo de estrategias para promover una representación más equitativa y diversa en el ámbito digital.
  • Ítem
    Modelado predictivo con Random Forest para la detección de enfermedades cardíacas
    (ITESO, 2024-05) Estrada-Rodríguez, Héctor D.; Alcalá-Temores, Jaime E.
    El diagnóstico precoz de enfermedades cardíacas permite mejorar la probabilidad de supervivencia de las personas, así como reducir los gastos adicionales al sistema de salud. Es por esto que el objetivo principal de este proyecto es aplicar un modelo de detección de patologías cardíacas, resolviendo de manera particular la necesidad de herramientas analíticas avanzadas que puedan procesar datos clínicos y biomédicos de manera efectiva. Se destaca la implementación y comparación de un modelo de Random Forest frente a la Regresión Logística, así como los procesos de limpieza, preparación de datos y la ingeniería de características realizada. Se exponen los resultados obtenidos, que demuestran la superioridad predictiva del Random Forest en comparación con la Regresión Logística. Finalmente, se presentan las conclusiones del trabajo, enfatizando la viabilidad del Random Forest para la aplicación clínica.
  • Ítem
    Aplicación de modelos Transformer para la clasificación y análisis de quejas en atención al cliente
    (ITESO, 2024-05) Rojas-Villanueva, Enrique I.; Alcalá-Temores, Jaime E.
    En este trabajo, se adoptó una metodología mixta para explorar el impacto de los modelos de Procesamiento de Lenguaje Natural (Natural Language Processing, NLP, por sus siglas en inglés) basados en Transformers, enfocándose específicamente en su capacidad para analizar e interpretar texto. La investigación se centra en evaluar la efectividad y eficiencia de estos modelos al procesar y categorizar interacciones textuales específicas. Dicho análisis se realiza sobre una muestra cuidadosamente seleccionada de 3,000 interacciones en forma de tickets de atención al cliente, provenientes de diversos canales de comunicación digital. Este enfoque permite no solo comprender cómo los modelos de Transformers pueden identificar y clasificar los diferentes tipos de consultas y problemas reportados por los usuarios, sino también evaluar su precisión, la cual se espera alcance al menos el 90 % en la identificación de categorías relevantes. La elección de tickets de atención al cliente como objeto de estudio se debe a su riqueza informativa y relevancia para las empresas que buscan optimizar sus estrategias de servicio y soporte al cliente mediante tecnologías de NLP.
  • Ítem
    Estimación del tiempo de vida de una turbina a través de redes neuronales y árboles de decisión
    (ITESO, 2024-02) Vázquez-Flores, Roberto C.; Rodríguez-Vázquez, Alma N.
  • Ítem
    Segmentación de clientes para un E-commerce soportado en Shopify
    (ITESO, 2024-02) Lagunas-Barba, Daniel; Alcalá-Temores, Jaime E.
  • Ítem
    Aprendizaje profundo en el caucho. Mejora del proceso de manufactura mediante la predicción de propiedades
    (ITESO, 2024-01) Manzo-Rosas, Carlos A.; Alcalá-Temores, Jaime E.
  • Ítem