Los lagos de datos comerciales tienen la clave para satisfacer la necesidad de nuevas combinaciones de datos de los negocios de crecimiento rápido y para poner a trabajar la analítica de big data en toda la empresa.
Para explorar las oportunidades de negocios y las capacidades tecnológicas, analizamos los lagos de datos con Paul Maritz, director ejecutivo de Pivotal, el proveedor de plataformas como servicio lanzado por EMC y VMware en 2013. Paul, un líder en el sector de la tecnología durante tres décadas, trabajó anteriormente como director de estrategias de EMC y director ejecutivo de VMware.
El “lago de datos” es un concepto y una funcionalidad nuevos, tanto que hasta el 1.º de agosto no tenía una definición en Wikipedia. ¿Nos podría explicar qué son los lagos de datos y qué hacen?
Los lagos de datos comerciales se pueden analizar desde tres perspectivas:
La primera implica considerarlos un lugar para colocar todos los datos que es posible que se quieran utilizar. Eso incluye los datos estructurados que se obtienen de bases de datos tradicionales y los datos no estructurados, como texto. Esto abarca los datos generados por la empresa y los datos importados de orígenes y servicios externos. Se incluyen los datos de redes sociales y de sensores y telemetría, que se generan en grandes cantidades y con los cuales la mayoría de las empresas recién están aprendiendo a trabajar.
La segunda perspectiva implica considerarlos una plataforma para analítica de big data. Un lago de datos no es solamente una zona de almacenamiento para todos los tipos de datos. También es donde se pueden analizar los datos y donde se pueden encontrar correlaciones entre datos que nunca antes se habían examinado en conjunto. Muchos de los avances con la analítica de negocios provienen no solo de examinar más datos o de realizar análisis más sofisticados, sino también de realizar combinaciones de datos nuevas, que revelen los impulsores del rendimiento del negocio.
La tercera perspectiva implica utilizar los lagos de datos para ayudar a solucionar la persistente tensión entre la presión corporativa para colocar datos estándares en data warehouse y usarlos de forma coherente, y la necesidad de la unidad de negocios de contar con vistas locales y combinaciones de datos que se implementen en todas las hojas de cálculo de Excel. Un lago de datos es un recurso compartido y puede contener muchos datos cuidadosamente administrados. Sin embargo, también proporciona una plataforma para que las unidades de negocios obtengan los datos y creen rápidamente las vistas y las aplicaciones impulsadas por datos que necesitan en realidad.
En Pivotal, resumimos estos tres usos con un eslogan: "Almacene todo. Analice todo. Construya lo que necesita."
Analicemos estos tres aspectos individualmente con más detalle. ¿En qué se diferencian los lagos de datos de los data warehouses tradicionales?
Los propósitos y las tecnologías esenciales son bastante diferentes. Los data warehouses organizan datos estructurados que se representan en columnas y filas. El formato de los datos se determina con anticipación, así como también las formas principales en que se usarán los datos. Los modelos subyacentes de bases de datos relacionales y orientadas a objetos no han cambiado en décadas. Mientras tanto, los datos que usamos y la forma en que los usamos han cambiado considerablemente.
Los lagos de datos pueden almacenar una gran variedad de datos, tanto estructurados como no estructurados, y pueden escalarse para manejar volúmenes muy grandes. No es que vaya a tratar de almacenar todos los datos para siempre, pero puede recopilar datos de interés potencial sin tener que conocer sus usos. Además, tiene gran flexibilidad para mover gran cantidad de datos dentro y fuera del almacenamiento según sea necesario, por ejemplo, datos de redes sociales que son útiles para analizar un mercado específico. La arquitectura de lagos de datos, diseñada a partir del sistema de archivos distribuido Hadoop, también disminuye considerablemente el costo del almacenamiento. Más importante aún, el propósito del lago de datos no es solo almacenar y recuperar datos, sino también explorarlos, reunirlos de formas imprevistas, analizarlos y aprender de ellos.Pero no pongamos demasiado énfasis en las diferencias. Las empresas necesitan sus data warehouse y otros repositorios para trabajar en conjunto con los lagos de datos. Los data warehouse se utilizan principalmente para Business Intelligence y para la creación de informes. Los lagos de datos se utilizan para vistas personalizadas de negocios, analítica y predicción. Los datos deberían migrarse según sea necesario desde los data warehouse hacia los lagos de datos para análisis y, luego, los resultados pueden volver al data warehouse para creación de informes. Cada uno agrega más valor al otro y, en conjunto, logran una funcionalidad integral para aprovechar los datos.
Díganos más acerca de los lagos de datos como plataformas para analítica de big data.
Como indiqué antes, el lago de datos no es solo una zona de descanso. También es el lugar en que se debería poder analizar los datos en el lugar, sin tener que separarlos y transferirlos. Esto significa que puede trabajar en más datos de forma más rápida. Por esto, prefiero llamarlo analítica de datos "de gran volumen y rápidos".
Big data no sirve solo para trabajar con cantidades de datos sin precedentes o, incluso, cantidades grandes de datos no estructurados. Si puede tener todos los datos relevantes en un solo lugar y analizarlos rápidamente, puede influir en los eventos cuando todavía están en desarrollo. Puede sorprender a las personas y las cosas en el acto e influir en ellos en tiempo real. Esto es lo que los pioneros en aplicaciones de negocios de big data han tratado de hacer todo el tiempo: detener transacciones fraudulentas de tarjeta de crédito en proceso, anticipar errores y apagar un equipo antes de que se dañe, reorientar el tráfico de red o de la red de alimentación de forma inmediata para evitar nodos con fallas y congestión de tráfico.
Gracias a la tecnología actual de datos de gran volumen y rápidos, los negocios pueden crear estos tipos de aplicaciones de forma mucho más rápida y rentable que los pioneros. Los científicos de datos y otros profesionales de analítica tienen una plataforma para explorar lo que los datos revelan sobre problemas complejos del negocio y desarrollar de forma iterativa virtualizaciones y modelos predictivos para expresar dichos problemas y abordarlos.
Las organizaciones y los individuos han estado generando cantidades enormes de datos por un período prolongado. Solo últimamente hemos contado con tecnologías y métodos para ocuparnos de ellos con relativa facilidad. Los lagos de datos ayudan a poner big data al servicio de la empresa.
¿Cómo los lagos de datos rediseñan las prácticas de administración de información?
Un lago de datos es un recurso empresarial que brinda a las unidades de negocios, las funciones y los departamentos libertad y flexibilidad sin precedentes para reunir, analizar y usar los datos que más necesitan. Los veo generar grandes cambios.
Por ejemplo, "corporativos" es solo otra vista y no incluye todos los datos de la corporación. Por ejemplo, la función de financiamiento corporativo puede establecer políticas y definir la forma en que las unidades de negocios envían los datos para consolidar datos financieros. Sin embargo, las unidades de negocios pueden variar o enriquecer esos datos para comprender mejor y administrar sus propias operaciones. Un lago de datos activa diferentes vistas de combinaciones de datos casi ilimitadas. Es un enfoque inherentemente distribuido y flexible, en lugar de uno jerárquico y predestinado.
El control de datos cambia de forma interesante. Las personas que han creado grandes data warehouses dan testimonio de que el mayor esfuerzo reside en el control de los datos, en especial, el proceso, a menudo, tedioso y ocasionalmente conflictivo de lograr que diferentes partes de la empresa lleguen a un acuerdo respecto a lo que significan los datos y cómo representarlo. El objetivo es lograr un acuerdo con anticipación respecto a todo, lo cual es imposible y explica por qué incluso los mejores data warehouses parecen incompletos e inflexibles.
Con los lagos de datos, por el contrario, los datos y sus usos no están predeterminados, de manera que las organizaciones necesitan llegar a un acuerdo cuando es más importante: en los momentos de colaboración en el uso de datos. Esto hace del buen manejo y control de datos una actividad mucho más continua y distribuida.
¿Cuáles son algunas de las aplicaciones de los lagos de datos en la actualidad?
Naturalmente, vemos aplicaciones que necesitan analizar grandes cantidades de datos recientemente generados o combinados, por ejemplo, análisis genómico o modelos predictivos relacionados con cuándo y dónde fallarán las redes de alimentación.
Las empresas de todos los tipos tienen oportunidades en torno a la información y la experiencia del cliente. Puede reunir todo lo que sabe sobre sus clientes y toda la información que ellos le entregan: perfiles de cliente, historial de compras, interacciones de ventas y de centro de llamados, datos de los medios sociales donde los clientes hablan por sí mismos. También puede "instrumentalizar" la experiencia del cliente de forma muy detallada con la ayuda de los dispositivos móviles de los clientes y los métodos de captura de datos normales de la empresa. Analice todos los datos en conjunto y podrá diseñar y ofrecer una experiencia más atractiva, e incluso moldear la experiencia en tiempo real.
Los directores de TI deberían estar especialmente interesados en aplicaciones relacionadas con la seguridad de los sistemas de información. Los controles, como los firewalls y la autenticación, no bastan para proteger a una empresa contra todas las amenazas externas o internas de la actualidad. También puede ver y analizar las conductas de las personas o los programas que tienen o parecen tener credenciales válidas. Una organización que coloca todos los registros del sistema y la actividad de red en un lago de datos puede localizar mejor y de forma más rápida anomalías, lo que lleva a tener una respuesta más rápida y más orientada. Entonces, la administración de TI puede cerrar el ciclo mediante el uso de la inteligencia generada a partir del lago de datos para crear modelos predictivos del momento y el lugar en que es más probable que ocurran los problemas.
Una vez que las empresas adquieran experiencia en el uso de los lagos de datos en la seguridad de TI, preveo una gama de aplicaciones para analizar y administrar otras formas de riesgos del negocio.
Dado que los lagos de datos son nuevos, ¿qué deberían anticipar las organizaciones al implementarlos?
Los lagos de datos serán muy grandes, al menos, tendrán un orden de magnitud mayor que los repositorios de datos corporativos más grandes de hoy en día. Esto se debe a que la tasa de generación de datos potencialmente útiles sigue acelerándose. Afortunadamente, los lagos de datos tienen una estructura de costos mucho más favorable que las bases de datos convencionales, donde realizar analítica de big data puede llegar a ser prohibitivo en términos de costos, sin mencionar que es tecnológicamente difícil de manejar.
Para los profesionales de TI y, en especial, de administración de datos, hay nuevas habilidades que aprender, nuevos métodos que practicar y cambios necesarios en el enfoque. Los data warehouses tratan de obtener todos los datos a la perfección para las transacciones y los informes. Los lagos de datos tratan de juntar datos interesantes para análisis e información. Por esto, los significados de calidad de datos y suficiencia cambian. Y ya mencioné los cambios al control de datos cuando se necesita determinar mucho menos de forma anticipada. Para trabajar en ambos escenarios (y necesitamos personas que puedan hacerlo) los encargados de la administración de datos deben ser muy inteligentes y flexibles.
Para los líderes del negocio, el desafío más grande puede ser decidir qué hacer con los lagos de datos porque hay tantas oportunidades. Las limitaciones respecto a la cantidad de datos con que puede trabajar una organización se han eliminado eficazmente. Esto abre posibilidades infinitas para hacer cosas nuevas, realizar de mejor forma los procesos antiguos y hacer todo de forma extremadamente rápida. Estamos limitados por nuestra imaginación, no por la tecnología.
Con la eliminación de las limitaciones, algunas organizaciones comprenden claramente lo que importa y logran que funcione. Por ejemplo, UPS ha estado utilizando información y analítica para enfrentar el problema del "vendedor viajero" durante décadas. Su esfuerzo más reciente usa mucha más telemetría y datos de tráfico para ahorrar millones de millas de camión de entregas y millones de galones de combustible. Otras empresas tratarán de hacer muchas cosas y sus esfuerzos y beneficios se fragmentarán. Incluso otras están paralizadas por todas las opciones nuevas y las estudian en lugar de actuar de acuerdo con ellas.
Los líderes de negocios y sus asesores de tecnología deben realizar sus elecciones. Y cuando el panorama no les es familiar, eso no es fácil. Recomendamos elegir algunas oportunidades que puedan generar impulso y hacer que funcionen.
¿Cuáles son los aspectos clave que los directores de TI deberían conocer en relación con los lagos de datos comerciales y qué deberían hacer respecto a ellos?
Los lagos de datos no están en el horizonte, están aquí mismo hoy. La integración tecnológica del almacenamiento de datos flexible y escalable con analítica de big data es ciertamente compleja. Pocas empresas querrían hacerlo por sí solas o, incluso, invertir directamente en toda la tecnología subyacente. Esa es la razón por la cual los lagos de datos son una oferta de plataforma como servicio en Pivotal. La funcionalidad está aquí, y queremos que el tiempo para obtener beneficios de negocios sea muy breve.
Son lagos de datos comerciales. Su propósito es permitir al personal de negocios y a las organizaciones trabajar con más datos de interés, generar analítica mejor y de forma más rápida, decidir y actuar en tiempo real y generar mucha más información y valor. Para el negocio, el lago de datos es un servicio. El éxito se mide según cómo se utiliza el servicio y se convierte en otras formas de valor para el negocio.
Por último, usted puede ser ambicioso. La mayoría de las empresas solo examinan superficialmente lo que pueden hacer con big data y la analítica. Las limitaciones en el uso de los datos realmente se han eliminado. Así que trabaje con sus partners ejecutivos del negocio, elija una o dos oportunidades interesantes, sea creativo y supere sus ambiciones.