martes, 18 de noviembre de 2014

¿Se pueden fusionar el respaldo y el archivado?

Durante años, las mejores prácticas de TI han proclamado que el respaldo y el archivado de datos son dos funciones claramente separadas que nunca deben entrelazarse.

Sin embargo, gran parte de esta sabiduría convencional se basa en una concepción anticuada de las capacidades de la arquitectura de respaldo.

Ahora, con índices de software más escalables, además de aparatos de respaldo en disco rentables que pueden manejar cargas de trabajo mixtas y cintas de formato abierto, ¿es el momento de repensar la sabiduría convencional y finalmente fusionar estos dos procesos?
El valor de la convergencia del respaldo y el archivado de datos

Antes de determinar si la combinación del respaldo y el archivado es incluso posible, el valor de hacer esto debe ser considerado. ¿Qué se gana a partir de la convergencia del respaldo y el archivado de datos?

La primera gran ganancia es que los datos solo tienen que ser movidos una vez. Sin la convergencia, los datos se copian en repetidas ocasiones, y cuando se determina que es adecuado para el archivado se copia una vez más.

La segunda gran ganancia sería la eliminación de múltiples silos de almacenamiento. Un único silo que puede almacenar tanto el respaldo como el archivado reduciría significativamente los costos.

En tercer lugar, la mejor práctica para la adecuada gestión de datos es que el archivo almacena la única copia de los datos archivados. Esto significa que se elimina del almacenamiento de producción y del almacenamiento de respaldo. Debido a esto, el archivo necesita ser protegido, ya sea por replicación o copiando los datos a una segunda área de almacenamiento de archivo. Este es un problema, especialmente para los archivos de disco. Los datos se pueden replicar en un segundo archivo de disco (caro) o se pueden "respaldar" a otro archivo de disco (complejo y propenso a errores).

¿El resultado neto de la convergencia? Una reducción significativa en los costos de capital y operativos, así como la simplificación de los procesos de TI.
¿Se puede hacer convergir el respaldo y el archivado?

El primer reto por superar al fusionar el respaldo y el archivado de datos es asegurarse de que el software puede realizar la tarea.

El respaldo es el primer paso clave en este proceso, ya que los datos tienen que ser almacenados de forma segura en un dispositivo de almacenamiento secundario. Esto significa que si se combinan el respaldo y el archivado, tiene que suceder dentro del software de respaldo.

En el pasado, esto era imposible porque las aplicaciones de respaldo tenían bases de datos relativamente simples que no podían escalar para satisfacer las demandas de rastrear millones de archivos. Incluso si el software de respaldo tenía estas capacidades, el hardware típico utilizado para un servidor de respaldo no habría sido capaz de proporcionar la potencia que necesitaría tal aplicación.

Los tiempos han cambiado. Muchas aplicaciones de respaldo modernas tienen bases de datos muy escalables que pueden rastrear billones de objetos. Desde el punto de vista del servidor, incluso el hardware modesto de servidor hoy es adecuado para hospedar la aplicación y su base de datos.

El segundo desafío es asegurarse que el hardware de respaldo (disco y cinta) puede escalar para satisfacer las demandas y que esté diseñado para trabajar en conjunto para mantener los costos de almacenamiento bajo control. El sistema de respaldo basado en disco hace un área de aterrizaje ideal para los conjuntos de respaldo iniciales y en funcionamiento. También, gracias a la tecnología de escalado horizontal, pueden continuar almacenando esos datos en el futuro previsible.

Muchos sistemas de respaldo basados en disco ahora pueden soportar la diferencia entre la carga de trabajo del respaldoy el archivado. Un punto clave a examinar es la escalabilidad del motor de deduplicación del sistema. En un entorno combinado, habría millones (si no miles de millones) más de archivos por rastrear, por lo que el motor de deduplicación se puede sobrecargar. Los planificadores tienen que buscar motores de deduplicación que puedan segmentar datos para que no tengan que gestionarlos todos ellos, o motores que realmente puedan escalar para satisfacer las demandas de gestionar billones de archivos.

El tercer desafío es la legibilidad del respaldo y el archivo. La mayoría de las aplicaciones de respaldo y archivado escriben los datos en un formato propietario. Sin embargo, este uso de formatos propietarios está cambiando. Un número creciente de proveedores de respaldo de virtualización escriben sus respaldos en un formato nativo que es directamente legible por el hipervisor. Al mismo tiempo, más proveedores de archivado están escribiendo sus datos en cinta en un formato estándar llamado LTFS (sistema lineal de archivos de cinta). Muchos proveedores de cinta soportan ahora LTFS o han expresado planes de soportarlo.
¿Qué falta?

El ingrediente clave que falta es que el software de respaldo actúe más como el software de archivado. Esto significa tener una comprensión más a nivel de archivo de los datos para que las políticas de retención se puedan establecer sobre la base del tipo de archivo, la ubicación y la edad. Hay algunas aplicaciones de respaldo que ya proporcionan esta capacidad como TSM de IBM y Data Protector de HP. Otro elemento clave sería que estas aplicaciones escribieran datos en formatos nativos que pueden ser leídos por un sistema operativo.
Cómo llegar hasta allí

Si un centro de datos quiere fusionar el respaldo y el archivado de datos, hay dos opciones viables para lograr ese objetivo. En primer lugar, el planificador de TI podría seleccionar software de respaldo que provea una base de datos escalable y soporte tanto discos como cintas. También puede querer buscar un software que pueda realizar el seguimiento de los datos a nivel de archivo.

Una alternativa puede ser buscar un producto de archivo que haya fusionado disco y cinta. Estos productos presentan un solo punto de montaje NFS/CIFS a los cuales los datos pueden ser enviados desde la aplicación de respaldo o una serie de secuencias de comandos. El producto entonces gestionaría el movimiento de los datos de disco a cinta, así como la retención de esos datos.
Conclusión

La convergencia del respaldo y el archivado puede reducir de forma significativa los costos de gestión, así como los costos de hardware asociados a esos procesos. De hecho, hay productos de software de respaldo que pueden proporcionar la gestión de datos y la integración de una variedad de tecnologías de hardware de respaldo y archivado como la indexación y la búsqueda a nivel de contexto.

Además, los productos de archivo como los de Crossroads Sistemas y Quantum han evolucionado para ser "solo otro punto de montaje”. Escondido detrás de este punto de montaje puede estar un disco de bajo costo, el almacenamiento de objetos o incluso cinta. Los datos pueden ser vertidos en estos repositorios con simples comandos de copia o utilizando las utilidades de las aplicaciones, lo que permite que este repositorio sirva tanto como respaldo y archivo. Las imágenes instantáneas pueden ser tomadas del archivo para entregar una capacidad de reversión de punto en el tiempo.

Sobre el autor: George Crump es presidente de Storage Switzerland, una firma de análisis de TI centrada en el almacenamiento y la virtualización.