¿Qué se almacena realmente en un disco?

martes, 12 de mayo de 2015 por Peter Robinson

El concepto “datos de TI” es muy abstracto y suele ser descrito de manera aburrida y poco atractiva (a pesar de que la gran parte de los datos almacenados en discos duros sean personales, importantes para nosotros y a menudo únicos). Ya se trate de las fotografías de tus vacaciones, de tus películas favoritas o de los frutos de tu trabajo duro, el valor de tu unidad de disco duro es igual al valor de los datos almacenados en ella.

Hace casi 35 años, una pequeña empresa llamada Ontrack se introducía en el mercado con un programa que permitía a los usuarios instalar discos duros de mayor tamaño: 40 MB (¡qué tiempos aquellos!). ¿Por qué hemos cambiado de sector entonces? Porque perdimos nuestros datos… Pero esa es otra historia.

¿Dónde están mis archivos? Un rompecabezas detectivesco

Independientemente de lo que almacenes (imágenes, vídeos, ebooks, tesis) o de que seas el administrador de un servidor que aloja sitios web o una base de datos de gran volumen, no son los archivos en sí mismos los que están ubicados físicamente en tu dispositivo, sino más bien la información sobre estos archivos, conocida como directorio de archivos. Cuando se produce una pérdida datos es posible que se deba a que ha fallado todo intento de indicar el lugar de almacenamiento de un archivo específico en un disco. Lo que ocurre entonces es que la información sobre el archivo se dispersa por todo el disco (a veces se dispersa incluso en varias unidades diferentes). Además de esto, todos estos fragmentos de información pueden grabarse más de una vez.

"En mayor o menor medida, todos y cada uno de nosotros somos conscientes de que la tecnología digital graba datos en sistema binario, es decir, que los datos no son más que una cadena de unos y ceros. Esto no es del todo cierto. Lo que para nosotros es un cero o un uno lógico, es en realidad una molécula estructurada de manera electromagnética en la superficie del disco. Las cabezas magnéticas graban los valores altos o bajos de la señal a medida que da vueltas sobre el plato. A continuación, un sistema de motor electrónico procesa la información."

Robin England, ingeniero senior de investigación y desarrollo en Kroll Ontrack

Encriptado: "Origen" en un disco

Antes de que la información sobre nuestros archivos se almacene en forma de huella magnética en el disco, debe ser encriptada. En un disco duro moderno se utilizan al menos 5 niveles de encriptado. Me recuerda a la película Origen, de Leonardo DiCaprio, en la que su personaje se adentra en los distintos niveles de profundidad surrealista.

En el caso de nuestro disco duro, este proceso es indispensable. ¿Por qué debe encriptarse tantas veces la información antes de ser escrita en un disco? La codificación garantiza que los fragmentos de código que se leen en el disco son únicos e inequívocos. Además de esto, existen ciertos tipos de encriptado que son responsables de la corrección de todos los posibles los errores de lectura que surjan (y que siempre surgen) durante la grabación y la posterior lectura de los datos, así como de minimizar el tiempo de búsqueda.

Curiosamente, una de las fases del encriptado es la fase llamada “aleatorizador”, que se utiliza para dar carácter aleatorio a una secuencia del código. Dicho de otro modo: las cadenas de bits se mezclan aleatoriamente (en realidad se mezclan de manera pseudoaleatoria, porque la concesión de carácter aleatorio se lleva a cabo en coherencia con el algoritmo adoptado). ¿Por qué? Resulta que los datos codificados originalmente contienen información con estructuras comunes y repetitivas (patrones), que, si se escribiesen directamente en el disco, crearían múltiples cadenas magnéticas repetitivas. Estos patrones desorientarían al cabezal de lectura que realiza la búsqueda de una cadena específica.

En cualquier caso, aquí no termina el problema. Ni siquiera la concesión de carácter aleatorio puede eliminar ciertos patrones magnéticos problemáticos. Un buen ejemplo de este tipo de patrones sería una serie de ceros; estos ceros crearían una zona sin señal que podría leerse de manera incorrecta. Por este motivo es necesario introducir el código siguiente (RLL), que garantizará que la grabación no tendrá más ceros de los que debería (a un código de 16 bits le corresponden de 10 a 15 ceros).

Protección contra errores

La codificación también es necesaria para asegurar la máxima protección contra errores. Si bien la grabación magnética es susceptible a numerosos errores y daños, la probabilidad de error media que impide una lectura correcta es habitualmente inferior a 10 -13, es decir, muy baja. Para alcanzar tales resultados se utiliza otro tipo de codificación. El Código de corrección de errores (ECC) calcula pares de bits que pueden utilizarse durante la codificación para detectar y corregir errores.

Como puedes ver, la relación entre nuestro archivo y la información guardada en el disco duro es muy compleja. Aun en el caso de que podamos recuperar la imagen del disco tras el fallo del dispositivo original, tendremos que tener las herramientas y el conocimiento adecuado para descodificar los datos por completo. Es más, si el disco que ha fallado se ha encriptado con anterioridad, la recuperación de la información original podría no ser posible. Sería un escenario similar a la tarjeta Jacquard que se convirtió en papel para tirar.

Si tienes comentarios u opiniones, no dudes en compartirlos conmigo a través de la sección de comentarios que se encuentra más abajo. En la próxima entrada describiré lo que le ocurre a la información codificada en el archivo cuando se guarda en el disco.

El blog de la recuperación de datos

Si ha sufrido una pérdida de datos, contáctenos inmediatamente.