Hard Drive Failure Prediction through a Hybrid Machine Learning Framework: Integration of LSTM and Decision Trees with SMART Attributes
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
El potencial de fallas en los sistemas de almacenamiento es un problema para cualquier usuario que usa tecnología, este problema puede provocar la pérdida irreversible de información valiosa y mermar la productividad. Este TOG presenta un marco híbrido de aprendizaje automático para la predicción de fallos en discos duros, integrando proyección de datos de series temporales y clasificación binaria. El trabajo aborda un desafío crítico en la confiabilidad del almacenamiento: anticipar fallos antes de que ocurra pérdida de datos utilizando atributos Self-Monitoring, Analysis, and Reporting Technology (SMART).
La investigación emplea una metodología sistemática compuesta por tres componentes principales. Este trabajo se realizó en colaboración con Intel para desarrollar un modelo propio, adecuado para predecir fallos en discos duros. Esto con el objetivo de integrarlo en diversas soluciones de software. El conjunto de datos utilizado es de código abierto y proporcionado por Backblaze, una empresa de almacenamiento de datos en la nube que monitorea el rendimiento de los discos duros que poseen en sus servidores y publica estos datos para su uso público gratuito.
En primer lugar, se aplican técnicas de preprocesamiento exhaustivas al conjunto de datos de Self-Monitoring, Analysis, and Reporting Technology de Backblaze, incluyendo imputación de valores faltantes, selección de características basada en análisis de correlación, y la técnica de sobre muestreo sintético de la clase minoritaria (Synthetic Minority Oversampling Technique (SMOTE)) para abordar el desequilibrio entre registros de discos operativos y fallidos. En segundo lugar, se desarrolla una red neuronal de Long Short-Term Memory (LSTM) para capturar dependencias temporales en las secuencias de atributos SMART, permitiendo predecir valores futuros a partir de observaciones históricas. En tercer lugar, se construye un clasificador basado en Decision Tree (DT) para interpretar los atributos pronosticados y proporcionar predicciones binarias de fallo con fronteras de decisión interpretables.
Los resultados experimentales muestran que, aunque los componentes individuales alcanzan métricas de rendimiento aceptables (82.4% de precisión para el DT en datos balanceados), la canalización integrada enfrenta desafíos con la escasez de datos reales, obteniendo un 63.2% de precisión en el conjunto de prueba. El estudio ofrece una visión crítica sobre las limitaciones prácticas de los enfoques actuales, especialmente en cuanto a los requerimientos de datos temporales y el rendimiento de clasificación bajo desequilibrios extremos de clase. Este trabajo contribuye al campo del mantenimiento predictivo al establecer una base metodológica para combinar pronóstico temporal mediante aprendizaje profundo con modelos explicables de clasificación. Los hallazgos orientan futuras investigaciones sobre predicción de confiabilidad en almacenamiento y ofrecen directrices prácticas para implementar soluciones de machine learning en entornos de centros de datos.