Qué significan los atributos S.M.A.R.T de salud de un disco?

Primeramente que es el S.M.A.R.T. (Self Monitoring Analysis and Reporting Technology). Es una tecnología que viene integrada en todos los discos rígidos y que les permite autodetectar fallas inminentes. Al poder detectar anticipadamente una falla del disco, uno como usuario tiene la posibilidad de hacer una copia de sus archivos y reemplazar el disco, sin llegar a perder datos de manera irrecuperable.

Hay programas capaces de leer estos datos e interpretar si la unidad tiene o está comenzando a tener problemas, de forma tal que se puede monitorizar su estado y prevenir posibles fallas que provoquen pérdida de datos.

La tecnología S.M.A.R.T. interpreta diferentes parámetros del disco como ser: la velocidad de los platos del disco, incremento en la cantidad de sectores defectuosos, errores de calibración, errores de CRC, distancias medias entre el cabezal y el plato, temperatura del disco, etc. Cuando empiezan a producirse fallas, alguno de estos parámetros empieza a mostrar anomalías en sus valores. Y de hecho, si en la BIOS de la computadora activamos el chequeo SMART, relevará los datos cada vez que encendamos el equipo, y avisará con un mensaje en pantalla indicando el tipo de error producido. Algunas computadoras no permiten iniciar el sistema si detectan un error via SMART. Cuando eso sucede, no hay que perder tiempo y se debe hacer un backup urgente del contenido del disco. Si necesitamos acceder pero el sistema lo impide, en general basta con ingresar a la BIOS y desactivar el test SMART, para así poder iniciar el sistema si no tenemos posibilidad de extraer el disco para un backup.

Pero siempre deben recordar la regla de oro: backups, backups, backups. No es paranoia. Lo dice alguien que perdió mucha información hace varios años y desde entonces, hago un TRIPLE backup de todas mis cosas, porque nunca se está lo suficientemente seguro.

Volviendo a los parámetros SMART, vamos a repasar qué indicadores representa cada uno:

ID/Hex Atributo Descripción
01 Raw Read Error Rate Frecuencia de errores en una lectura RAW.
02 Throughput performance Eficiencia media del disco duro.
03 Spin up time Tiempo necesario para empezar a girar.
04 Start/Stop count Número de inicios y paradas del eje del disco.
05 Reallocated sector count Cantidad de sectores reasignados por defectos.
06 Read channel margin Reserva de canales en operaciones de lectura.
07 Seek error rate Frecuencia de errores en posicionamiento.
08 Seek timer performance Tiempo de búsqueda.
09 Power-on hours count Número de horas transcurridas en funcionamiento.
0A Spin retry count Número de intentos de giro.
0B Recalibration Retries Número de intentos de calibración del dispositivo.
0C Device Power cycle count Número de eventos de encendido.
0D Soft read error rate Frecuencia de errores de lectura vía software.
BF G-sense error rate Frecuencia de errores como resultado de impactos internos.
C0 Power-off retract cycle Número de ciclos de apagado.
C1 Load/Unload cycle count Número de ciclos Load/Unload.
C2 Temperature Muestra la temperatura del disco.
C3 Hardware ECC recovered Número de errores recuperados on-the-fly (MAXTOR).
C4 Reallocation Events count Número de operaciones de remapeado.
C5 Current pending sector count Número de sectores inestables.
C6 Offline Uncorrectable Número de errores sin corregir.
C7 UltraDMA CRC Error Rate Número de errores de CRC durante modo UltraDMA.
C8 Write error rate Frecuencia de errores en operaciones de escritura.
C9 Soft read error rate Número de errores al intentar acceder a la pista.
CA Data Address Mark errors Número de errores de Marca de datos (DAM).
CB Run out cancel Número de errores de detección de memoria.
CC Soft ECC correction Número de errores corregidos por software.
CD Thermal asperity rate (TAR) Número de errores de temperatura.
CE Flying height Altura de las cabezas sobre la superficie del disco.
CF Spin high current Cantidad más alta de vueltas del disco.
D0 Spin buzz Número de rutinas inicio de giro del disco.
D1 Offline seek performance Rendimiento de búsqueda durante desconexión.
DC Disk shift Cambio de disco.
DD G-sense error rate Número de errores como resultado de impactos detectados.
DE Loaded hours Número de horas en estado operacional.
DF Load/unload retry count Carga por (lectura, grabación, posicionamiento, …).
E0 Load friction Carga causada por la fricción mecánica.
E1 Load/Unload cycle count Número total de ciclos de carga.
E2 Load-in time Tiempo de carga en disco.
E3 Torque amplification count Cantidad de rotaciones.
E4 Power-off retract count Número de eventos de apagado.
E6 GMR head amplitude Amplitud de las cabezas (GMR-head).
E7 Temperature Temperatura del disco.
F0 Head flying hours Tiempo transcurrido en operaciones de posicionamiento.
FA Read error retry rate Número de errores en operaciones de lectura.

Toda buena aplicación que analice atributos S.M.A.R.T de un disco debe proveer los siguientes valores para tener una mejor comprensión de la situación:

Value: Da el valor teórico óptimo para ese atributo.
Worst: Da el peor valor registrado.
Warn o Threshold: Es el numero de alertas generadas por SMART debido a un valor fuera del rango normal.

datos smart

Qué parámetros controlar

Los parámetros más importantes para controlar son los siguientes:

  • Temperatura del disco. El aumento de la temperatura a menudo es señal de problemas de motor del disco.
  • Velocidad de lectura de datos. Reducción en la tasa de transferencia de la unidad.
  • Spinup Time. Cambios en el tiempo de inicio pueden reflejar problemas.
  • Reallocated sector count. La unidad reasigna sectores internos cuando detecta errores físicos, si la cantidad es muy elevada, se podría estar ante un inminente fallo de la unidad.
  • Velocidad de búsqueda (Seek time). Un elevado tiempo de búsqueda podría estar implicando algún error lógico o físico.
  • Altura de vuelo del cabezal. Si se observa una tendencia a la baja en la altura de vuelo del cabezal, éste podría terminar tocando el plato, ocasionando un accidente físico e irreparable en el disco.
  • Uso de ECC y Conteo de errores: El número de errores detectados por la unidad, aunque se corrijan internamente, suele señalar problemas futuros con ese disco. La tendencia suele ser más importante que el conteo real.

Los valores de los atributos S.M.A.R.T van del número 1 al 253, siendo 1 el peor valor. Los valores normales son entre 100 y 200. Estos valores son guardados en un espacio reservado del disco duro.

Con qué software controlar

Una aplicación muy confiable y con demo gratuito que permite leer atributos SMART, es el AIDA64, que en la sección almacenamiento, tiene un apartado para ver los datos de SMART de cada disco que tengamos instalado.

Para ver info sobre la tecnología S.M.A.R.T. bajo Linux, se puede consultar este artículo

    

 

 

2 Respuestas

  1. Roxana dice:

    Hola! que indica la columna Intervalo y Datos en el AIDA?

  2. Raúl dice:

    Hola buenos días alguien podría explicarme los siguientes parámetros??
    D- a) Velocidad de los platos del disco
    -b) Sectores defectuosos
    -c) Errores de calibración
    -d) Error de CRC
    -e)Distancias medias entre el cabezal y el plato
    -f) Temperatura del disco