lunes, 9 de febrero de 2015

El data warehouse no está listo para jubilarse en la era de big data

La intención original del data warehouse era segregar las operaciones analíticas del procesamiento de transacciones del mainframe para evitar lentificaciones en los tiempos de respuesta de las transacciones, y reducir al mínimo el incremento en los costos de CPU acumulados al ejecutar consultas ad hoc y crear y distribuir informes. 

Con el tiempo, el data warehouse empresarial (EDW) se convirtió en un componente central de las arquitecturas de información, y ahora es raro encontrar un negocio maduro que no emplee alguna forma de un EDW o una colección de data marts más pequeños para soportar aplicaciones de inteligencia de negocios, informes y analítica.

Pero a medida que las organizaciones adoptan cada vez más nuevas tecnologías –clústeres de Hadoop, NoSQL, bases de datos en columnas y en memoria, herramientas de virtualización de datos– se plantean interrogantes acerca de la relevancia futura del software de data warehouse en las infraestructuras de TI empresariales. Algunas personas ya han empezado a sonar el toque de difuntos para el EDW, prediciendo su desaparición inminente a manos de sistemas de big data y plataformas de computación de alto rendimiento.

Y esas otras tecnologías ofrecen algunas ventajas sobre el tradicional data warehouse. Hadoop es un marco de procesamiento distribuido que promete altos niveles de escalabilidad de rendimiento utilizando hardware de bajo costo. Las bases de datos en memoria y el software columnar orientado a usos analíticos también pueden aumentar drásticamente el rendimiento del procesamiento. Las bases de datos NoSQL eluden las restricciones de esquema de los principales sistemas de gestión de bases de datos relacionales y proporcionan una flexibilidad más amplia en el desarrollo de aplicaciones. Poner una herramienta de virtualización de datos en capas sobre los sistemas permite la integración sobre la marcha y, en algunos casos, también permite el procesamiento de transacciones y aplicaciones analíticas para tocar simultáneamente los mismos conjuntos de datos; ambas capacidades pueden reducir la necesidad de extraer y cargar datos en un almacén segregado.

Mire debajo de las cubiertas en los costos de TI

Sin embargo, los informes de la muerte del data warehouse pueden llegar a ser muy exagerados. Desde una perspectiva financiera, las motivaciones para migrar a las nuevas tecnologías deben equilibrarse con los méritos de continuar aprovechando las inversiones existentes en tecnología EDW que ya están en uso de producción –y aún así producir los bienes de datos. También es útil señalar que, con el fin de ser realizado, la percepción del valor de cambio radical a veces requiere una inversión mayor de lo previsto originalmente.

Como ejemplo, considere los costos de infraestructura. Hay una implicación respecto a que descargar e instalar software de código abierto, como Hadoop, en una configuración de cosecha propia de los sistemas informáticos comerciales interconectados, ofrece una alternativa de bajo costo ante los servidores de gama alta o mainframes que normalmente albergan los data warehouses. Si bien es posible crear un entorno de colchón de pruebas usando ese enfoque, se necesita más para que un clúster Hadoop cumpla con sus promesas de rendimiento en aplicaciones de producción: Una organización debe invertir no solo en nuevas tecnologías, sino también en recursos de personal cualificado para implantar y gestionar la plataforma.

El potencial de Hadoop para la elasticidad en el almacenamiento también sugiere un espacio en disco potencialmente ilimitado. Pero no siempre se navega con viento en popa en el lago de datos Hadoop. Siendo realistas, la disponibilidad de una cantidad aparentemente inagotable de almacenamiento puede animar a los usuarios a guardar datos de forma innecesaria, llenando rápidamente el espacio en disco disponible con una amplia gama de datos no estructurados (y sin gobierno) que pueden no tener ningún valor empresarial real.

Un enfoque mixto para la gestión de datos
Algunos otros hechos clave que debemos reconocer:
  • Las organizaciones que han invertido importantes cantidades de dinero y esfuerzo en su entorno de data warehouse tendrían que ver una proyección de retorno de la inversión considerable para un despliegue Hadoop o NoSQL antes de decidirse a romper por completo el EDW y reemplazarlo.
  • Debido a la naturaleza del desarrollo de código abierto, tecnologías como Hadoop y las diversas herramientas que lo rodean aún tienen algo de tiempo para avanzar antes de que alcancen el nivel de madurez que el software de data warehouse ha alcanzado –si es que alguna vez llegan allí.
  • A pesar de que los componentes del ecosistema Hadoop pretenden replicar los esquemas dimensionales y consultas analíticas interactivas soportadas por los data warehouses, sigue siendo en gran medida orientada a lotes para el corto plazo.
  • Muchos usuarios de negocios siguen dependiendo de los informes y las capacidades de consulta ad hoc de sus data warehouses de confianza.
Por supuesto, no se puede ignorar la disponibilidad de una plataforma de procesamiento paralelo que puede ejecutar algoritmos computacionales complejos para analizar grandes volúmenes de datos de maneras que no se pueden hacer usando un sistema orientado al corte y fragmentación dimensional. Los resultados de este tipo de aplicaciones analíticas se pueden utilizar para aumentar los datos en un data warehouse empresarial, mejorando los perfiles de clientes y permitiendo tomar decisiones de negocios más informadas.

Eso sugiere que, si bien es probable que Hadoop, NoSQL y otras tecnologías alternativas surjan como componentes importantes de BI y las arquitectura de analítica, la estrategia óptima las mezclará con el EDW. No es el momento de cerrar la puerta al data warehouse por ahora.