viernes, 28 de agosto de 2015

EMC: Rendimiento del respaldo

El rendimiento del respaldo mide la velocidad a la que una solución puede recopilar datos y, por lo general, se expresa en megabytes por segundo (MB/s) o terabytes por hora (TB/h).

Efecto de la deduplicación en el rendimiento

Generalmente, las soluciones de respaldo con deduplicación basadas en disco muestran un rendimiento de restauración más rápido que las basadas en cinta, ya que el disco está en línea y permite el acceso aleatorio. Sin embargo, el rendimiento del respaldo varía según el proveedor, ya que la deduplicación de datos es un proceso que consume muchos recursos.

Mientras se realizan operaciones de escritura, el proceso de deduplicación determina si ya se ha almacenado una pequeña secuencia de datos, a veces hasta petabytes de datos antes. Un simple índice de estos datos es demasiado grande para caber en una memoria de acceso aleatorio (RAM), a menos que se trate de una implementación muy pequeña. Muchas soluciones necesitan buscar en discos, y las búsquedas en discos son muy lentas y no hay expectativas de mejora.

Las maneras más sencillas de agilizar la deduplicación de datos consisten en empeorar la reducción de datos, buscando solo secuencias de gran tamaño para que no haya que ejecutar búsquedas en disco con tanta frecuencia, y en agregar más hardware para que haya más discos entre los que repartir la carga. Ambas tienen el desafortunado efecto secundario de elevar el precio del sistema, lo cual hace que el disco sea menos atractivo que la cinta desde una perspectiva económica.

Los proveedores difieren en sus enfoques, pero nosotros empleamos un enfoque exclusivo con sistemas EMC Data Domain, que aprovechan una arquitectura centrada en la unidad central de proceso (CPU) para identificar rápida y eficazmente datos redundantes, lo que permite un rendimiento líder en el sector.

Rendimiento centrado en CPU frente a centrado en disco (que depende de los ejes)

A diferencia de EMC, muchos proveedores utilizan un enfoque centrado en disco para la deduplicación. Sin embargo, dado que las unidades de disco son el componente más lento de cualquier sistema de almacenamiento, para obtener un mayor rendimiento, es común fraccionar los datos en una gran cantidad de unidades con la idea de que funcionen en paralelo para manejar la E/S.

Si su sistema usa este método para alcanzar los requisitos de rendimiento, considere el equilibrio adecuado entre rendimiento y capacidad. Esto es importante, ya que el objetivo de la deduplicación de datos es reducir la cantidad de unidades de disco.

Con EMC Data Domain Stream Informed Segment Layout, un enfoque en línea centrado en CPU, se precisan muy pocas unidades de disco para alcanzar el máximo rendimiento, de modo que la deduplicación cumple las expectativas de menor espacio de almacenamiento.

Rendimiento del proceso de respaldo y recuperación de flujo único

El rendimiento de flujo único indica con qué rapidez puede escribirse, leerse o copiarse en una cinta un archivo dado para su retención a largo plazo.

Debido a las ventanas de respaldo para datos críticos, el rendimiento del respaldo es lo que pide la mayoría de los usuarios, aunque el tiempo de ejecución de restauración es más significativo para la mayoría de los acuerdos de nivel de servicio (SLA).

Rendimiento agregado del respaldo/restauración por sistema

Con varios flujos, ¿con qué rapidez puede un sistema dado recopilar o recuperar datos? Esto ayudará a calcular la cantidad de controladores o sistemas necesarios para la implementación.