DMAF - Trabajos de fin de Maestría en Ciencia de Datos

URI permanente para esta colección

Examinar

Envíos recientes

Mostrando 1 - 20 de 68
  • Ítem
    Comparación de modelos predictivos aplicados a las cuartas oportunidades en la NFL
    (ITESO, 2025-02) Cañedo-Richart, Rafael A.; Alcalá-Torres, Jaime E.
    El presente trabajo presenta los resultados derivados de la implementación y evaluación de distintos modelos de clasificación, diseñados para anticipar el desenlace de las cuartas oportunidades en juegos de la NFL. Estos modelos se contrastan con un enfoque de clasificación estándar, representado por una regresión logística simple. Durante el proceso de experimentación, se seleccionaron modelos de Machine Learning que se ajustaran a la naturaleza del problema y la estructura de los datos, apoyados por un análisis estadístico. Además, se implementaron los modelos, y se ofrece una comparación entre ellos mediante diversas pruebas y manipulaciones que respaldan la robustez de los resultados. Si bien se lograron mejorar categóricamente los resultados obtenidos por la regresión logística, los modelos propuestos encontraron limitaciones debido a la naturaleza del problema, que posee un fuerte componente aleatorio. En el apartado de conclusiones y trabajo futuro, se proporcionan reflexiones generales sobre el grado de incertidumbre epistémica de los modelos, y se propone como trabajo futuro realizar análisis de naturaleza bayesiana para comprender de manera integral la incertidumbre total de los modelos (epistémica o del modelo y aleatoria o de los datos).
  • Ítem
    Machine learning en mercados financieros: generando predicciones mediante la clasificación lorentziana y vecinos más cercanos aproximados
    (ITESO, 2024-12) Tinoco-Figueroa, Sergio; Rodríguez-Reyes, Luis R.
    Este trabajo aborda el complejo y multivariado problema de predecir la dirección del precio de un activo financiero con el objetivo de generar un indicador tanto de compra como de venta de dicho activo, ofreciendo soluciones específicas para eliminar las suposiciones humanas y reducir las señales falsas al realizar transacciones. El indicador propuesto demuestra su capacidad para categorizar datos históricos en un espacio de características multidimensional, subrayando la utilidad de la Clasificación por Distancia de Lorentz (LDC, por sus siglas en inglés) al predecir la dirección futura de los movimientos de precios mediante la implementación de un algoritmo de Vecinos Más Cercanos Aproximados (ANN, por sus siglas en inglés). Para este estudio, se analizaron datos históricos de precios correspondientes al par dólares por Bitcoin (BCH/USD), abarcando un período de 60 días y una periodicidad de 15 minutos, lo que resultó en la recopilación de más de 5,000 registros de datos. Estos datos permitieron obtener una base sólida para el análisis y entrenamiento del modelo de clasificación. Los resultados obtenidos durante el desarrollo del estudio destacaron la eficacia del LDC, un algoritmo de clasificación de Aprendizaje Automático optimizado a través de un riguroso proceso de pruebas. Tras una ejecución en tiempo real, el modelo logró ejecutar 70 operaciones con una tasa de éxito del 92.86%, alcanzando 65 operaciones ganadoras frente a solo 5 perdedoras. Además, se obtuvo una acumulación total de 3,056.02 PIPs, lo que refleja un rendimiento positivo sostenido en el periodo evaluado. El Ratio de Sharpe fue de 0.13, lo que, aunque indica un riesgo moderado, se compensa por la alta tasa de aciertos y la consistencia de las ganancias. En última instancia, se concluye proponiendo un modelo de aplicación automático basado en sistemas en la nube. Este modelo implementa los algoritmos desarrollados de manera autónoma, generando transacciones de manera eficiente y objetiva. Este enfoque proporciona una herramienta valiosa para mejorar la precisión y la confiabilidad en las decisiones financieras, contribuyendo así al avance y la eficacia de las estrategias de trading en entornos volátiles y complejos como el mercado de criptomonedas.
  • Ítem
    Levenberg-Marquardt Algorithm
    (ITESO, 2025-01) Díaz-Sánchez, Jorge A.; Ruíz-Cruz, Riemann
    This research presents an efficient Levenberg-Marquardt implementation for neural network training in regression, classification, and transfer learning. While Levenberg-Marquardt offers fast convergence and precision in nonlinear least-squares problems, its high memory and computational demands limit its use in large models. This work optimizes Levenberg-Marquardt to improve its practicality across diverse architectures by addressing these constraints. A key contribution is integrating Levenberg-Marquardt into PyTorch, a widely used deep learning framework. This enables easier adoption, leveraging PyTorch’s GPU acceleration and parallelization for improved efficiency. By minimizing redundant calculations in the Jacobian and Hessian approximations, this implementation significantly reduces memory usage and computational overhead. Instead of merely optimizing storage, it selectively applies Levenberg-Marquardt where needed, balancing second-order precision with resource constraints. Experiments validate Levenberg-Marquardt’s efficiency on benchmark tasks, including MNIST classification and fine-tuning AlexNet. Comparisons with Adam and SGD show that Levenberg-Marquardt achieves competitive accuracy with fewer epochs, making it a viable alternative in high-precision scenarios. In transfer learning, limiting trainable parameters helps mitigate memory concerns. This research demonstrates that Levenberg-Marquardt can be an efficient neural network optimizer when resource management is prioritized. By refining its implementation, Levenberg-Marquardt becomes more practical for deep learning, particularly in tasks requiring fast convergence and high accuracy. Future work will explore further memory optimizations and extensions for high-dimensional datasets, broadening Levenberg-Marquardt’s applicability in modern neural network training.
  • Ítem
    Modelo para la estructuración y clasificación de datos no estructurados usando técnicas de Procesamiento de Lenguaje Natural: un caso de estudio en el ámbito de la industria alimentaria
    (ITESO, 2025-01) Muñoz-López, Patricia; Lozano-Díaz, César
    Este estudio aborda el análisis de datos no estructurados provenientes de etiquetas de productos alimenticios con el objetivo de clasificar alimentos bajo el contexto de diseño y desarrollo de nuevos productos. Dado que estos datos contienen información detallada sobre ingredientes y aditivos, su análisis resulta fundamental para identificar relaciones subyacentes y transformar el texto en valores cuantitativos susceptibles de evaluación sistemática. Para alcanzar este propósito, se emplean técnicas de Procesamiento de Lenguaje Natural (PLN), como los word embeddings y el reconocimiento de entidades nombradas (Named Entity Recognition o NER). En particular, se utilizan modelos como GPT, Word2Vec y GLiNER, con los cuales se desarrolla una metodología orientada a la extracción de patrones relevantes, facilitando así la limpieza, estructuración y análisis de los datos en el marco del desarrollo de productos alimenticios. Los resultados muestran que la metodología es efectiva para procesar datos no estructurados, mejorando la calidad mediante segmentación por idioma, adaptación de modelos preentrenados de NER y balance de clases. Estas optimizaciones permitieron obtener métricas destacadas (accuracy, precision, recall, f1-score) y confirmar la hipótesis inicial, evidenciando un impacto positivo en la clasificación de alimentos. Finalmente, el procesamiento y estructuración de datos dentro de un flujo de trabajo automatizado tiene un alto valor, ya que permite integrar y sistematizar los datos de manera escalable y reproducible. Este enfoque ofrece un modelo escalable para gestionar datos, especialmente aquellos provenientes de bases de datos tipo crowdsourcing, mejorando así la calidad y consistencia de las bases de datos alimentarias y facilitando la actualización continua de información. La centralización de datos de alta calidad podría contribuir considerablemente al desarrollo y la innovación de productos alimenticios.
  • Ítem
    Estrategia de mercadotecnia eficiente: segmentación de canales de venta y clasificación de clientes
    (ITESO, 2025-01) Ramírez-Islas, Ricardo; Alcalá-Temores, Jaime E.
    El grupo International Lean Six Sigma, empresa especializada en certificaciones de mejora continua en los sectores de manufactura y servicios, cuenta con procesos de venta físicos y en línea. El Trabajo que a continuación se presenta ofrece una solución que tuvo como primer objetivo la generación de segmentos estratégicos para ventas en línea, y como segundo objetivo, la clasificación de nuevos clientes en los nuevos segmentos para medir la eficiencia de las campañas de mercadotecnia. Cabe destacar que se realizaron técnicas de procesamiento de datos previos a la implementación de modelos. Para el primer objetivo, se implementó el modelo de segmentación K-means donde se realizaron varios experimentos para obtener el número óptimo de clases. Se concluyó que la segmentación óptima fue de 3 clases, estas agrupaciones resultantes se presentaron como los nuevos segmentos estratégicos para lanzar campañas de mercadotecnia. Para el segundo objetivo, se experimentó y evaluó con varios modelos de clasificación como árbol de decisión, regresión logística y red neuronal. Se concluyó que todos ellos proporcionaban buenos resultados para predecir el segmento de nuevos clientes, sin embargo, el árbol de decisión demostró ser el modelo más eficiente y adecuado para implementar por los resultados demostrados en este trabajo y por las características demandadas por el negocio.
  • Ítem
    Pronóstico de ventas en Jabil Healthcare, junio-agosto 2024
    (ITESO, 2024-12) Flores-Martínez, María F.; Motta-Bonilla, Byron M.
    En este trabajo propongo desarrollar un pronóstico con mayor exactitud que permitirá mejorar la planeación de productos terminados y a su vez que la cadena de suministros fluya con mayor eficiencia provocando que los componentes se reciban en planta en el momento oportuno evitando la acumulación de inventario, o en caso contrario, las demoras de componentes y retrasos en producción.
  • Ítem
    Optimized pathway for non-experienced investors
    (ITESO, 2024-11) Sánchez-Leguízamo, Rosa M.; Rodríguez-Reyes, Luis R.
    Demostraremos que las ganancias netas son mayores y que las pérdidas netas son menores cuando optimizamos el portafolio múltiples veces (N) durante el rango de tiempo de la inversión (escenario que llamaremos variable) usando el precio de apertura comparado con el escenario estático donde solo compramos, optimizamos y vendemos 1 sola ocasión usando el precio de cierre. Aplicaremos el proceso de optimización de Markowitz para crear portafolios de inversión entre 15 a 30 activos (diversificación) para seleccionar el portafolio óptimo que maximice el retorno de inversión, minimice el riesgo y reduzca el costo invirtiendo en el tiempo estratégico de acuerdo con las necesidades de un inversionista sin experiencia en el mercado.
  • Ítem
    Smart Sample Selection for Retrieval Augmented Generation
    (ITESO, 2024-12) Ramírez-Barba, Diego; Motta-Bonilla, Byron M.
    El proyecto tiene como objetivo la optimización de una técnica emergente en el campo del machine learning llamada RAG (Retrieval-Augmented Generation). Esta técnica se utiliza para mejorar el procesamiento de datos en LLMs (Large Language Models) mediante diversos algoritmos, los cuales permiten aumentar la precisión y reducir el sesgo inherente al entrenamiento de estos modelos.
  • Ítem
    Procesamiento del lenguaje natural para el modelado de tópicos en ideas de innovación
    (ITESO, 2024-11) Corona-Bermúdez, Michel C.; Alcalá-Temores, Jaime E.
    Este trabajo propone mejorar la evaluación y priorización de ideas de innovación mediante Procesamiento de Lenguaje Natural (NLP, por sus siglas en inglés) y modelado de tópicos. Se aborda la necesidad de automatizar el análisis de ideas para facilitar su implementación en las empresas. El objetivo principal es identificar el modelo más adecuado para extraer temas relevantes de ideas empresariales, evaluando modelos como LDA y BERTopic en términos de coherencia y perplejidad. La metodología incluye el preprocesamiento de los datos textuales, comenzando con la detección de idioma y traducción al inglés para estandarizar las ideas. Posteriormente, se aplica tokenización, eliminación de palabras comunes y stemming para reducir palabras a su forma base. Esto permite generar representaciones numéricas, que los modelos de tópicos pueden analizar. Los resultados muestran que el modelo BERTopic supera a LDA en coherencia, facilitando la segmentación e interpretación de ideas. Finalmente, el trabajo sugiere áreas de mejora, como la optimización de modelos y su despliegue en plataformas como Amazon SageMaker, lo que permitirá una integración eficiente en entornos empresariales. Este estudio contribuye a la automatización del análisis de ideas de innovación, ofreciendo una herramienta para que las empresas analicen grandes volúmenes de información de manera rápida y efectiva.
  • Ítem
    Predicción a largo plazo del movimiento del precio de acciones bursátiles con base en sus estados financieros
    (ITESO, 2024-11) Topete-Salazar, Alan O.; Alcalá-Temores, Jaime E.
    En este trabajo, se replican algunos resultados obtenidos por Milosevic (2016) para predecir el movimiento de precios de acciones a largo plazo. El presente estudio contrasta en que se evalúan a las empresas con mayor capitalización de mercado en Estados Unidos, a comparación del estudio original que estudiaba compañías con capitalización media del mercado americano y europeo. A través de una revisión del trabajo previo, este estudio busca mejorar la precisión de las predicciones del movimiento de precios de acciones a largo plazo utilizando técnicas avanzadas de aprendizaje automático y comparar el rendimiento con métodos previamente propuestos. Se introducen nuevos modelos y técnicas, y se comparan con el enfoque anterior para evaluar su rendimiento. Se analiza la importancia de las características utilizadas en los modelos para entender mejor qué factores influyen más en las predicciones. Finalmente se proponen recomendaciones para futuros investigadores en el área basados en los hallazgos obtenidos.
  • Ítem
    Liquidity-Adjusted Sharpe Ratio
    (ITESO, 2024-10) González-Vázquez, Sean N.; Sánchez-Torres, Juan D.
    Modern Portfolio Theory, introduced by Harry Markowitz in 1952, and the Sharpe Ratio, proposed by William Sharpe in 1966, focus on portfolio optimization considering market return and risk. Markowitz and Sharpe developed these theories in the New York Stock Exchange (NYSE) context. However, in markets with different characteristics, such as the Mexican market, additional factors beyond returns and market risk play a crucial role in the performance of an investment portfolio. One of the major challenges in low-liquidity markets is the difficulty of quickly buying or selling assets due to liquidity constraints. This thesis introduces a novel approach to portfolio optimization in such environments: the LiquidityAdjusted Sharpe Ratio. This method seeks to maximize the risk-return profile of a portfolio while factoring in liquidity risk, using a liquidity shrinkage factor to penalize assets with low liquidity. By doing so, the model balances an asset’s return potential with its associated market risk and liquidity risk. Additionally, we propose a specific case of this approach, termed the Liquidity Variance Return Ratio (LVRR), which measures the Sharpe Ratio achieved per unit of liquidity risk taken in an investment. The higher the LVRR, the more efficiently the portfolio manages liquidity risk in relation to its returns. The goal, therefore, is to maximize the LVRR, making it a distinct case within the broader Liquidity-Adjusted Sharpe Ratio framework. This targeted optimization ensures that portfolios are not only risk-efficient but also liquid, which is crucial in constrained markets. Throughout this document, we present this method’s analytical and empirical solution and propose a Sharpe-Liquidity efficient frontier that considers the return, market risk, and liquidity risk of an investment portfolio. This new frontier offers a more ad hoc approach for investors facing liquidity constraints when trading. We demonstrated that the proposed method and its elements (such as the LVRR portfolio) fall within this front’s optimal and feasible region. Also, we found that to achieve lower liquidity risk in a portfolio, it is generally necessary to accept higher market risk. However, in most cases, and subject to the selection of portfolio assets, the returns of LVRR-optimized portfolios show lower kurtosis with higher positive skewness compared to optimal Maximum Sharpe portfolios. This means that although the volatility of a LVRR portfolio generally increases, this volatility is skewed towards gains, i.e., positive returns. Additionally, when implementing the method through the backtesting of portfolios with random asset selection, we found that our method often outperforms the traditional Sharpe ratio approach in the Mexican market. Specifically, our analysis reveals a 74% probability of achieving superior returns in static long-term portfolios and a 80% probability in dynamic portfolios that incorporate periodic rebalancing. We also found that in liquid markets, the method tends to converge to the Sharpe Ratio, making it better to adopt the classic approach in these contexts due to the low relevance of liquidity risk. After extensive research, it has been concluded that the LVRR method consistently delivers favorable outcomes within low-liquidity markets. This suggests that the proposed methodology can serve as a viable alternative for investors seeking to operate effectively in such environments.
  • Ítem
    Sistema de aprendizaje interactivo de aperturas de ajedrez
    (ITESO, 2024-08) Hernández-Gutiérrez, Alejandro N.; Muñoz-Elguezábal, Juan F.
    El prototipo desarrollado en este proyecto es un sistema de aprendizaje didáctico en el que el usuario puede jugar contra una computadora esta fase del ajedrez de forma aleatoria y obtiene retroalimentación constante de su posición y la del rival así como sugerencias de movimientos de aperturas. La base de datos que alimenta el modelo clasificador [1] proviene de la plataforma online de ajedrez ’Lichess’. El archivo contiene más de veintemil juegos e incluyen los movimientos jugados, la apertura y datos estadísticos de los jugadores. En este trabajo de grado se presenta el modelo de clasificación 8.3 que logra predecir victoria con un accuracy de 91.74 % y un brier score de 0.06, seleccionado comparando una serie de modelos propuestos a través de 2 experimentos.
  • Ítem
    Enhancing Cryptocurrency Transparency: A Graph Neural Network Approach for Bitcoin Address Classification
    (ITESO, 2024-05) Rojas-Mayorquín, Benito T.; Muñoz-Elguezábal, Juan F.
    Cryptocurrencies, notably Bitcoin, have catalyzed a significant shift in digital financial systems. The inherent pseudonymity of blockchain complicates efforts towards transparency and security, presenting a crucial problem that this thesis aims to resolve by enhancing address classification. The relevance of this problem lies in the increasing necessity for compliance with global financial regulations and ensuring the integrity of transactions. Addressing this challenge involves overcoming significant difficulties such as the complexity of analyzing vast amounts of transaction data, the need for accurate data preprocessing, and the application of advanced machine learning techniques on non-traditional data structures like graphs. This research utilizes Graph Attention Networks (GATs) to classify Bitcoin addresses, a method chosen for its robustness in handling relational data and its capacity to focus selectively on the most informative parts of the transaction graph. The efficacy of this approach is demonstrated through controlled experiments, where the GATs achieved an accuracy of 92.87%, a precision of 89.35%, a recall of 92.87%, and an F1 score of 90.17%. These results significantly improve upon previous internal benchmarks and confirm the model’s capability to enhance transparency in Bitcoin transactions. Furthermore, this work contributes a novel open-source Extract, Transform, Load (ETL) process tailored for blockchain data, fostering improved analytical transparency, and aiding regulatory and forensic analysis. The findings propose practical applications in financial technology, moving beyond theoretical discourse into actionable insights.
  • Ítem
    The Role of Sparse Training and Evolutionary Optimization in Volatility Forecasting Machine Learning Models
    (ITESO, 2024-05) Arriaza-Alonzo, Diego F.; Muñoz-Elguezábal, Juan F.
    ETH is the native cryptocurrency of the Ethereum network, one of the most prominent blockchains for its intelligent contracts and diverse ecosystem of decentralized projects. In this research it is studied the problem of ETH/USDT 10 min short-term volatility forecasting by exploiting volatility history, order book data and public trades data 30 minutes prior. On the one hand, order book data consists of buy and sell orders over time and, on the other hand, public trades are orders executed. It is possible to calculate features from both sources that can be used as predictors for models. For the first experiment GARCH(1,1), LSTM with one layer of 100 neurons and an Encoder-Decoder with the Encoder with one LSTM of 100 neurons and the Decoder with one LSTM of 100 neurons are the models selected for volatility predictions. For the second experiment, GARCH is excluded due to poor performance on the first experiment. 10 T-Folds-SV were created omitting 50 minutes between Training and Validation sets to avoid leakage and by KL Divergence only five folds were selected that have the characteristic of being different from each other and provide unique information. With this experiment the RAM consumption was significantly reduced and the results were similar to the first one. Hyperparameter Optimization with less data is now possible and is done by Genetic Algorithms. After three generations of 750 models for both LSTM and Encoder-Decoder it was possible to find the best hyperparameter values and the LSTM best model outperformed its counterparty.
  • Ítem
    Predicción de cambio de precio en mercados bursátiles mediante el uso de modelado predictivo para series de tiempo
    (ITESO, 2024-06) Caloca-Gómez, Carlos; Muñoz-Elguezábal, Juan F.
    En el contexto actual de los mercados bursátiles, la capacidad de predicción a tiempo y con precisión de las fluctuaciones de precios en los distintos activos es de suma importancia para la toma de decisiones. Este proyecto se enfoca en el desarrollo de un sistema de modelado predictivo utilizando técnicas de ciencia de datos para pronosticar los movimientos del precio. Se utilizan datos históricos de velas de transacciones de criptomoneda Ether, los registros son por hora y el periodo de tiempo es desde enero 2023 hasta octubre 2023. El objetivo del trabajo es desarrollar un proceso de modelado predictivo capaz de estimar variacioónes en los precios para determinar el cambio de signo de la variable objetivo. La metodología propuesta incluye la evaluación de modelos de clasificación como perceptrón multicapa y regresión logística, ajuste de hiperparámetros para mejorar la precisión de los modelos. Se utilizan métricas como exactitud, precisión, sensibilidad, valor F1 y área bajo la curva ROC para comparar los resultados de las predicciones. Se busca que este proyecto contribuya a la aplicación de técnicas de ciencia de datos en el campo financiero.
  • Ítem
    Implementación de modelos de predicción para la mejora de gestión de inventarios
    (ITESO, 2024-06) Gómez-Flores, Isaac G.; Alcalá-Temores, Jaime E.
    Este trabajo ofrece una introducción al desafío fundamental de mejorar la precisión en los pronósticos que se usan para la gestión de inventarios y sus efectos en la cadena de suministro. Los pronósticos inexactos pueden provocar desbalances en la gestión de inventarios, lo que implica costos de almacenamiento, posibles costos de desecho de productos sobrantes y gastos extra por tener que apresurar órdenes. Además, puede ocasionar problemas con los clientes y pérdida de ventas de productos. El objetivo principal de este proyecto es proponer una alternativa para la generación de pronósticos de ventas de productos para dos unidades de negocios de la empresa donde el autor participa. Para lograr este objetivo, se realizarán las siguientes acciones: obtener, transformar y crear un conjunto de datos para el análisis, construir modelos de pronóstico estadísticos y de aprendizaje automático, seleccionar los mejores modelos por tipo de producto y comparar las predicciones obtenidas con las estimaciones internas compartidas. Los resultados muestran que, para algunos productos, los modelos desarrollados presentaron una disminución significativa del error en comparación con el método utilizado actualmente. Sin embargo, para otros productos, los errores fueron mayores. En general, los modelos estadísticos tuvieron un mejor rendimiento que los modelos de aprendizaje automático. Finalmente fue posible sugerir una alternativa para la elaboración de pronósticos de ventas en las distintas unidades de negocio, planteando una forma de optimizar los inventarios mediante predicciones más precisas obteniendo para algunos productos una mejora en comparación con el método utilizado actualmente.
  • Ítem
    Analyzing Patterns of Social Responsibility. A Clustering Approach to B Corporation Performance
    (ITESO, 2024-04) Slay-Ramos, Rodolfo; Carrasco-Navarro, Rocío; Hernández-Gutiérrez, Gonzalo
    The study explores the use of hierarchical clustering techniques to assess the performance of B Corporations, which are businesses certified by B Lab for their commitment to social and environmental responsibility. The study aims to identify distinct patterns and clusters among these corporations based on their operational metrics and impact assessments. The research involves a comprehensive analysis of a dataset from B Corporation impact assessments, applying various data science methodologies, including clustering and silhouette scoring, to validate the results. The findings highlight significant variations in performance and operational strategies among different clusters, with a particular emphasis on the influence of worker participation and ownership on overall company performance and sustainability. Key insights from the study suggest that corporate governance structures, especially those involving employee ownership, play a crucial role in enhancing corporate performance and stakeholder impact. The thesis contributes to a broader understanding of how socially responsible business models can be effective and provides valuable implications for policymakers, corporate leaders, and researchers interested in sustainability and corporate governance.
  • Ítem
    Predicción de diagnóstico a partir de datos médicos utilizando algoritmos de PLN
    (ITESO, 2024-05) Bhat, Ashwin G.; Muñoz-Elguezábal, Juan F.
    In the contemporary medical landscape, there is a pressing need for rapid and accurate solutions to health emergencies, as well as access to expert physician insights. Traditional approaches involve clinical consultations where doctors assess patient histories and recommend specialist interventions. However, with the advent of Natural Language Processing (NLP) – a subset of machine learning – there is potential to revolutionize this process. NLP, when applied to medical findings, offers promising avenues for predicting patient diagnoses and identifying early indicators of chronic diseases. Given the vast repositories of publicly accessible medical data, there is an opportunity to harness advanced models such as Spark NLP, Spacy, and Deep Learning to distill meaningful insights from these findings. Such models can not only aid in patient diagnosis but also provide a broader perspective on population health trends, paving the way for proactive disease prevention strategies. This document delves into the utilization of diverse NLP algorithms for diagnosing conditions based on medical findings, underscoring the transformative potential of machine learning in clinical analysis.
  • Ítem
    Educación y prevención del delito. un análisis de la influencia de los centros educativos en la incidencia delictiva de Jalisco
    (ITESO, 2024-05) Zambrano-Aguirre, Oscar; Motta-Bonilla, Byron M.
    En el presente trabajo se aborda el problema de la incidencia delictiva en el estado de Jalisco, México, considerando la educación como un poderoso instrumento de cambio. La investigación se centra en establecer una correlación entre el número y tipos de escuelas a nivel municipal y la incidencia y tipo de delitos en esos lugares. El objetivo central es discernir las mejores estrategias para la creación de instituciones educativas que puedan contribuir a una disminución en los índices de violencia. Inicialmente, se realiza un análisis exploratorio de datos para comprender la distribución actual de delitos y centros educativos. Posteriormente, se presentan modelos estadísticos que expliquen la relación entre las variables. Los resultados del estudio podrían proporcionar observaciones sobre qué municipios podrían beneficiarse más de intervenciones educativas. Finalmente, se enfatiza la urgente necesidad de invertir en educación como mecanismo de prevención del delito y promoción de una sociedad más justa y segura. Esta investigación proporciona un enfoque que invita a la reflexión al vincular directamente la educación con la prevención del delito, enfatizando la relevancia de políticas educativas estratégicas para el bienestar social.
  • Ítem
    Estrategias de machine learning para la personalización de tasas de interés en Fintech. Un enfoque con LGBM y S Learner
    (ITESO, 2024-05) Vilchis-Sánchez, Sofía; Alcalá-Temores, Jaime E.
    Este trabajo innova en la optimización de micropréstamos mediante la personalización de tasas de interés, empleando modelos avanzados de Light Gradient Boosting Machine (LightGBM). A través de experimentos, se examina cómo diferentes ajustes afectan la precisión y eficacia de modelos de clasificación y regresión. Se seleccionaron los modelos más efectivos para integrar un enfoque de ganancia ponderada en recurrencia, aplicando la metodología de S-learner con diversas tasas de interés, buscando maximizar la ganancia del usuario. Este enfoque logró mejorar la personalización de tasas de interés y aumentar las ganancias en un 7% sin afectar la recurrencia de los préstamos, sugiriendo un cambio de paradigma hacia un sector Fintech más inclusivo y centrado en el usuario. El estudio abre caminos para futuras investigaciones en personalización de servicios financieros, explorando nuevas áreas y mejorando la rentabilidad de los micropréstamos, promoviendo un sector Fintech equitativo e inclusivo.