Grandes implementaciones de datos a nivel de software podrían ser lanzadas próximamente debido a que los sistemas de almacenamiento de datos actuales están comenzando a venirse abajo ante la gran cantidad de datos que manejan las organizaciones. Esto no significa que el sistema de almacenamiento actual haya quedado obsoleto de repente, sólo que su naturaleza está cambiando para dar paso a un almacenamiento de datos mayor.
“Diferentes estilos han ido y venido en la arquitectura del almacenamiento de datos durante años” dijo Philip Russom, director de investigación y gestión de datos en el “Data Warehousing Institute” (TDWI) ubicado en Renton, Washington. “Tenemos que evolucionar de nuevo el almacenamiento, tal y como lo hicimos en el pasado moviéndonos a mayores volúmenes y diversidad de datos”
¿Hadoop puede reemplazar a los datawarehouses?
Los sistemas de datos basados en Hadoop inicialmente fueron vistos como aquellos que acabarían con el sistema de almacenamiento de datos actual, pero esa sensacón ha dado lugar con el tiempo a una posible coexistencia. Así lo demuestra una encuesta donde el 78% de profesionales, consultores y propietarios de negocios encuestados por TDWI dijeron que Hadoop podría ser un complemento útil en su almacenamiento de datos a la hora de soportar herramientas analíticas avanzadas. Otro 41%, ve Hadoop como una forma efectiva de obtener información de los datos empresariales. Preguntados sobre si el sistema Hadoop podría reemplazar el sistema de almacenamiento de datos EDW, apenas el 4% dijo que sí.
Hadoop se considera hoy en día como un sistema de código libre o abierto que es utilizado para resguardar, procesar, almacenar y analizar grandes cantidades y volúmenes de datos, hablando de cientos de terabytes, peta bytes e incluso exa bytes a través de una enorme cantidad de grupos de ordenadores que utilizan modelos de programación, está diseñado para pasar de servidores individuales a miles de máquinas.
Russom cree que usar Hadoop para organizar la información y cargarla dentro del almacenamiento de datos es un paso avanzado para las compañías, pero el proceso de la puesta en escena es uno de los aspectos del almacenamiento de datos que también ha cambiado significativamente en los últimos años.
“En muchos casos, los datos sin procesar pueden agruparse en Hadoop y analizarse allí” dijo Russom. “Esta zona de datos en los viejos tiempos era temporal pero ahora ha evolucionado para convertirse en una especie de base de archivos y Hadoop lo hace posible.”
Compañeros de Armas en el Procesamiento de Datos
Aún así, él no cree que estos archivos existan aislados de los almacenes de datos. Algunos de estos datos serán almacenados en EDWs, quizás en forma de resultados analíticos agregados, ya que cada vez más ambas tecnologías se están usando de forma conjunta. Y no es para menos, ya que de acuerdo con Russom, el uso de ambas te permite una visión máxima en el desarrollo de los negocios.
Varios proyectos de big data comenzaron siendo rechazados o de forma independiente, generando a las empresas el riesgo de que crearan un nuevo almacenamiento de información. “Para prevenir esto, las organizaciones deberían incorporarlos en una gran administración global desde el principio”, dijo el analista de Gartner Inc. Mark Beyer. Eso significa preguntar a muchos las mismas preguntas que se suelen hacer sobre los datos convencionales a los trabajadores de los programas soberanos como, “¿De dónde viene una serie de conjunto de datos?, ¿Por cuánto tiempo debe mantenerse y necesita ser recuperado después de ser usado?”
Beyer también apunta que aplicar técnicas de manejo de gestión de datos probadas a unas ya existentes es importante, especialmente para toda esa información que proviene de fuentes externas. Incluyendo datos recopilados desde Facebook, Twitter y otras redes sociales.
“Comprendiendo los orígenes de la información y sus factores así como lo rápido que pueden cambiar es crucial para un manejo efectivo de los grandes conjuntos de datos”, apuntó.
El balance final es que los activos de grandes conjuntos de datos no son más precisos que otros de información digital. A menudo, lo son menos inclusive. Y como resultado, previnió a sus gerentes que estuvieran preparados para cualquier bache en el camino.
“Los grandes conjuntos de datos son invasores, no los controlas” –dijo Beyer-