Según el analista que consulte, el crecimiento de los datos está impulsando la demanda de capacidad de almacenamiento de datos dentro de las empresas a una tasa de 40% a 650% anual. Si eso le parece una gama extraordinariamente amplia para una estimación analista, lo es. Y hay dos explicaciones.
En primer lugar, nadie sabe realmente qué tan rápido están creciendo los datos. En segundo lugar, las tendencias de la demanda de capacidad tienen poco que ver con las tendencias actuales de crecimiento de datos. Se basan en cambio en estimaciones de la cantidad de capacidad que los consumidores compran año tras año, no en la velocidad a la que crecen los datos.
Eso significa que los planificadores que quieren elaborar una estrategia de gestión de la capacidad están comenzando con poco más que un mandato de gestión para doblar la curva de costos de almacenamiento –reconocer el hecho de que el almacenamiento representa en la actualidad entre 33 y 70 centavos de cada dólar gastado en hardware de TI. El trabajo pesado de identificar los requisitos de capacidad real, los factores de crecimiento, y los enfoques de procedimiento y tecnológicos para la reducción de la demanda de capacidad dependen totalmente de ellos.
En 2011, IDC –con sede en Massachussets Framingham–, proyectó que había 21.2 exabytes de almacenamiento externo desplegados en todo el mundo. Esto se utilizaba para almacenar no sólo los datos de producción (aproximadamente 55% de los cuales son archivos, según los analistas), sino también los duplicados de datos y la basura. De acuerdo con el analista, se utilizó la mitad de nuestro disco para almacenar las copias de los datos escritos en la otra mitad. Y nuestra renuencia a tirar nada ha hecho que nuestra infraestructura de almacenamiento en algo que se parezca al cajón de basura de la cocina.
El disco no es la única modalidad de almacenamiento. La industria ha definido al menos dos tipos de disco –de baja capacidad, alta velocidad de Nivel 1 y el de menor costo, de alta capacidad de Nivel 2– y reconoce un nivel de cinta totalmente independiente (Nivel 3) que se utiliza principalmente para almacenar las copias de seguridad y datos de archivo.
Recientemente, con la introducción de dispositivos de almacenamiento basados en memoria flash, denominados dispositivos de almacenamiento de silicio, un "nuevo" Nivel 0 se ha introducido en la jerarquía de almacenamiento. Técnicamente, el almacenamiento de silicio ha sido siempre una parte de la arquitectura de almacenamiento en niveles. El paradigma de la gestión de almacenamiento jerárquico de IBM (HSM) –que existe desde los primeros días del cómputo mainframe– de manera típica incluía memoria del sistema y dispositivos de almacenamiento de acceso directo (DASD), que son esencialmente los conjuntos (arrays) de disco y cinta.
El propósito de múltiples niveles de almacenamiento, y la funcionalidad del software inherente a HSM para mover datos entre niveles, era simplemente para gestionar la capacidad de almacenamiento y el costo. El esquema se basa en la frecuencia de acceso a los datos y las características de frecuencia de modificación de los datos. Los datos a los que se accedía o modificaba con alta frecuencia usaban almacenamiento de silicio. Sin embargo, este almacenamiento era extremadamente costoso y limitado, por lo que los datos se migraban tan rápido como era posible hacia DASD, desde el Nivel 0 al Nivel 1, donde el acceso y la actualización podrían ser acomodados en tasas bastante altas. En una estrategia clásica de HSM –articulada cuando los DASD eran del tamaño de refrigeradores, ofrecían capacidad limitada, y requerían sus propios edificios (granjas DASD) para manejar los requisitos de energía y climatización– la presión estaba en migrar los datos lo más rápido posible del disco a la cinta, que era la capa de capacidad de almacenamiento (entonces Tier 2) optimizada para almacenar datos que se acomodaban con mucha menos frecuencia en tasas bastante altas de acceso o modificación.
Sin machacar el punto, la arquitectura por niveles y HSM proporcionan una metodología sencilla para la gestión de la capacidad, pero una, por desgracia, que no ofrece una transición a los ambientes de cómputo distribuido desplegados en muchas empresas. Parte de la razón es histórica y técnica: los ambientes de cómputo distribuido que se implementaron de manera temprana se basaban en redes LAN de baja velocidad para interconectar las minicomputadoras (servidores) y microcomputadoras (PC) que no podían manejar la carga de movimientos de datos de HSM. Por otra parte, la industria trató de ampliar los productos de disco para proporcionar capacidad de almacenamiento especializado que competiría con la cinta. Los arreglos de discos SATA de alta capacidad y bajo costo, algunos de los cuales cuentan con software de valor añadido "de reducción de datos" (llamados appliances de librería de cinta virtual [VTL] para deduplicación) fueron de los primeros, seguidos de los arreglos de almacenamiento por niveles que proveían de bandejas, tanto de discos de Nivel 1 y Nivel 2, así como de software HSM para mover automáticamente los datos de un nivel a otro; y, por último, las matrices masivas de discos inactivos fueron probadas en el mercado como un nuevo nivel de capacidad de almacenamiento.
Pero el costo de los appliances de disco especiales, sobre todo con la aceleración de los precios generada por el software de valor agregado incorporado en la controladora de la matriz, tiene una adopción limitada. Cuando se han adoptado productos como los de deduplicación VTL, en su mayoría han sido relegados a un papel de nicho –aumentando en lugar de sustituir la cinta, que continúa almacenando aproximadamente el 80% de los datos del mundo.
Lo que se necesita para gestionar la capacidad de almacenamiento de datos no es un aparato que abarrote más datos en el mismo número de ejes, sino una estrategia que aproveche el nivel de almacenamiento adecuado para almacenar los datos correctos. En lugar de centrarse estrictamente en la eficiencia de la asignación de capacidad –que es el punto de las tecnologías de reducción de datos, tales como la compresión y la deduplicación– los planificadores deben tener en cuenta la eficiencia de uso de la capacidad. Esa es una forma elegante de decir que una estrategia eficaz de gestión de la capacidad no sólo incluye la gestión táctica de espacio (deduplicación y compresión), sino la gestión estratégica de datos (archivado, por ejemplo).
El proceso se inicia mediante el análisis de su situación. Usando una herramienta de informes de gestión de almacenamiento, como Storage Manager de SolarWinds (anteriormente Tek Tools Storage Profiler), puede ejecutar un informe que identifique los archivos a los que no se ha accedido o modificado en los últimos 30, 60 o 90 días. Ordenar estos archivos por sus propietarios (también en los metadatos de archivos) proporcionará una manera de comenzar un diálogo con el usuario (o su administrador) que es dueño de los archivos para que los archivos se puedan mover a un repositorio o ser eliminados.
Casi tanto como el 40% de los datos almacenados en el disco actualmente podría ser más costo-efectivo si se alojara en una plataforma de archivo, ya sea basado en disco, basado en cinta o en un servicio en la nube. El ahorro derivado de archivar los datos y devolver el 40% de su capacidad a un uso productivo puede proporcionar suficientes ahorros para pagar por toda su estrategia de gestión de la capacidad de almacenamiento de datos en el futuro.
Espacio desperdiciado
Aprovechar al máximo de almacenamiento en disco: Cómo no perder el espacio
Según Jon Toigo, CEO y director de gestión de Toigo Partners International, y presidente del Instituto de Gestión de Datos, uno de los mayores problemas con la capacidad de almacenamiento de datos es el desperdicio de espacio. Esto se debe en gran medida a las empresas que almacenan datos obsoletos, tales como duplicados, datos con tasas bajas de referencia o datos huérfanos. Además, muchas empresas no tienen un método listo para determinar qué datos se pueden eliminar o mover a un archivo.
Aprovisionamiento delgado
Refutando métodos comunes de contención de capacidad
La idea detrás del thin provisioning (aprovisionamiento delgado) es que los administradores de almacenamiento sepan con suficiente antelación cuándo van a tener que añadir más capacidad a un entorno, y puedan evitar la compra de un exceso de capacidad esperando hasta que sea realmente necesario. El problema, dice Toigo, es que el thin provisioning no hace nada para reducir la capacidad directamente; más bien, alivia el costo de matrices de discos adicionales.
Deduplicación y compresión
Algunas correcciones de capacidad sólo funcionan a corto plazo
La deduplicación y compresión son vistas como maneras de éxito seguro para reducir la capacidad de almacenamiento de datos, y no se puede negar que pueden hacer una diferencia –hasta cierto punto. La deduplicación puede eliminar las copias de datos que no son necesarias, pero las matrices con un proceso de deduplicación integrada son a menudo más caras. La compresión permite que la misma cantidad de datos se almacene en una cantidad menor de la capacidad, pero no es claro si los ahorros de capacidad valen la pena el precio.
Estrategia ILM
Cómo la estrategia adecuada del ciclo de vida de la información puede ahorrar capacidad
La gestión del ciclo de vida de datos (DLM), también conocida como gestión de la información del ciclo de vida (ILM), no es un concepto nuevo, pero a menudo se pasa por alto cuando se trata de mantener los requisitos de capacidad de almacenamiento de datos bajo control. La creación de políticas que automatizan el movimiento de datos es la base del DLM. Por ejemplo, todos los datos creados por un determinado departamento dentro de una organización pueden ser etiquetados como tales en los metadatos, y desde allí pueden ser dirigidas a un almacenamiento específico. Esto es un gran beneficio para los profesionales de almacenamiento cuando se trata de determinar qué datos se almacenan en dónde, así como el control de la cantidad de capacidad en una matriz determinada.