jueves, 22 de enero de 2015

La hora del Big Data

- Tras la ola de Cloud Computing, surge el concepto de Big Data que trae más que promesas, ofreciendo una ventaja competitiva para muchas empresas.
- Pero, ¿qué es Big Data? Gartner lo define como los datos que son relevantes en cuatro aspectos principales: volumen, velocidad, variedad y complejidad.


Volumen
Suele utilizarse como sinónimo de Big Data. A pesar de ser uno de los aspectos más llamativos, no es el único. El reto relacionado con el volumen de datos se ha puesto de manifiesto recientemente, debido a la proliferación de los sistemas de información e inteligencia, el incremento del intercambio de datos entre sistemas y dispositivos nuevos, nuevas fuentes de datos, y el nivel creciente de digitalización de los medios de comunicación que antes sólo estaban disponibles en otros formatos, tales como texto, imágenes, videos y audio.

Velocidad
Se asocia con la proliferación de nuevas fuentes de datos, y la necesidad de utilizar estos datos más rápidamente. Fuentes de datos automatizados, tales como sensores, RFID, GPS generan datos cada fracción de segundo para varias métricas diferentes y, junto con otros equipos de la empresa, causan un flujo constante de datos que se generan con el tiempo. Los dispositivos que generan datos a intervalos más largos, tales como los teléfonos inteligentes, los cuales existen en gran número, también terminan generando corrientes constantes de datos que necesitan ser ingeridos rápidamente. Por otro lado, todos estos datos tienen poco o ningún valor si no se convierten rápidamente en información útil.

Variedad
Está relacionada con la organización de los datos. Esta organización se divide básicamente en datos estructurados, semi-estructurados y no estructurados. Los datos estructurados son los datos tradicionalmente presentes en los sistemas corporativos (bases de datos, archivos jerárquicos y secuenciales, etc.), los datos semi-estructurados suelen estar disponibles a través de los registros del sistema (servidores web, CDR, etc.) y los datos no estructurados se relacionan principalmente, con el contenido digital más reciente, y se pusieron a disposición previamente en un formato no digital, tales como archivos de imagen, audio, texto, entre otros. El universo del Big Data contempla la posibilidad de utilizar todos los datos disponibles a través de correos electrónicos, documentos, mensajes, imágenes, grabaciones de audio, registros, videos, etc.

Complejidad
Está relacionada con la forma de tratar con todas las características mencionadas anteriormente, para brindar información útil de manera eficiente.

Muchos proveedores explotan sus características técnicas para almacenar grandes volúmenes de datos y se centran en las características aisladas de Big Data, sin mostrar cómo hacerlo de una manera integrada y sencilla. Otros piensan en Big Data como Data Warehouse  o Business Intelligence, pero el mayor potencial de Big Data, es la capacidad de hacer el análisis avanzado de estos datos, que también se llama Big Data Analytics.

¿Cuál es la diferencia?
Un Data Warehouse requiere el diseño de un proyecto a largo plazo y la construcción de modelos de datos, procesos de ETL, reportes, etc. A menudo se trata de un proyecto que tiene nuevas exigencias de forma y cada interacción es lenta. Un modelo de datos de mantenimiento requiere cambios en el proceso de ETL, y estos procesos a su vez tienden a tardar horas en completarse. La propuesta detrás de Big Data Analytics se puede traducir a través de la filosofía de trabajo que tiene el acrónimo MAD, lo que significa: 
Magnético, Ágil y Profunda (Magnetic, Agile y Deep).

-Magnético. Se refiere a la capacidad de "atraer" a todos los datos, viejos y nuevos, sin preocupaciones exageradas por su calidad, e incorporarlos de forma rápida para su uso. Este enfoque es opuesto al que se utiliza en un almacén de datos empresarial (Enterprise Data Warehouse) que tiende a "repeler" a los datos de nuevas fuentes, que sólo se pueden utilizar tras su limpieza e integración. En el mundo analítico, incluso en ausencia de datos de ciertos valores pueden tener una relevancia estadística.

-Ágil. Se refiere a la posibilidad de ingerir, digerir, producir y adaptar los datos de una manera rápida. Por el contrario, como ya se ha dicho, un Enterprise Data Warehouse requiere de un diseño a largo plazo y una planificación. ¿Cómo los datos pueden ser útiles si no es posible extraer la información útil de una manera oportuna?

-Profundo. Se refiere a la capacidad de análisis detallado de los datos que van mucho más allá de la tradicional drill-down del Data Warehouse Enterprise. Sofisticados métodos estadísticos se utilizan para ver "los árboles de un bosque, y no sólo el bosque."

¿El ambiente de Big Data puede eliminar un almacén de datos empresariales (Enterprise Data Warehouse)? No necesariamente. Los entornos pueden ser complementarios, pero con objetivos diferentes, y uno puede ser la fuente de datos de la otra. El enfoque analítico permite a las empresas establecer los objetivos correctos en el futuro, en lugar de limitarse a la imagen más allá de los datos, en una forma ágil.

En la práctica, Big Data se puede definir como todos los datos que las actuales tecnologías tradicionales tienen dificultades para abordar. Con el fin de saber si se enfrenta a un problema de Big Data, piense si usted tiene problemas para hacer frente a uno de los siguientes aspectos: almacenamiento, protección, gestión, intercambio, análisis y vista previa. Big Data requiere un nuevo enfoque para hacer frente a todos estos aspectos.

¿Están las empresas utilizando Big Data? 
Hay empresas con un alto grado de madurez analítica, es decir, las empresas que toman sus decisiones basadas en hechos y que ahora se benefician de una ventaja competitiva estratégica. Algunos analistas confirman que las empresas que adoptan Big Data Analytics tendrán una ventaja competitiva de 20% en todas las métricas financieras sobre sus competidores.

¿Qué se puede hacer entonces con grandes volúmenes de datos?

-Entender mejor a sus clientes.
-Anticípese a los cambios en el comportamiento de su mercado.
-Decidir cuáles son los mejores objetivos para su campaña.
-Predecir fallas de los equipos.
-Optimizar los procesos.
-Reducir los riesgos.

Sólo como un ejemplo, algunos casos útiles en el mercado de la banca donde el uso de la tecnología de predicción es avanzada:

-Identificación de los productos más rentables.
-Segmentación de clientes.
-Identificación de la siguiente mejor oferta.
-Crédito de puntuación.
-Detección del fraude.
-Provisiones para préstamos incobrables.
-Retención de clientes o pérdida de clientes.

Todos estos casos contribuyen de manera significativa al aumento de los ingresos por cliente y evitar la pérdida de ellos, que se traduce en millones de dólares de ingresos y ahorros anuales.

IDC predice que el mercado de Big Data en EE.UU. será de US$ 16.9B en 2015,el 2010 fue de US$ 3.2. Esto significa un crecimiento de casi el 40% anual. El uso cada vez mayor de Big Data se debe en parte a las nuevas tecnologías que abordan lo que las tecnologías tradicionales no pueden, y que son clave en el proceso.

Características de las TI para hacer frente a Big Data

-Scale-out architecture
Es el uso de clusters computacionales en lugar de servidores monolíticos y "grandes" y caros. Esta arquitectura permite una escala lineal de rendimiento con un menor costo de adquisición y actualización.

-MPP (Massive Parallel Processing) 
Base de datos: Bases de datos MPP optimiza el trabajo computacional del hardware, permitiendo que los volúmenes de datos muy grandes puedan ser manejados más fácilmente, con menos esfuerzo.

-NoSQL (Not Only SQL)
Nuevas tecnologías emergentes, como Apache Hadoop, que permiten el uso de datos no estructurados en grandes volúmenes a bajo costo.

-El uso de hardware x86
Esta tecnología tiene un costo por núcleo varias veces menor que la tecnología RISC, lo que permite la aplicación de una potencia de cálculo de procesamiento superior a un menor costo. El uso de plataformas propietarias y dispositivos de hardware especializados, tales como FPGAs, aumenta el costo total de propiedad.

-Dentro de la memoria y en la base de datos de herramientas de análisis.
Herramientas que permiten la exploración de datos utilizando algoritmos sofisticados han estado alrededor por varios años, pero Big Data trae una nueva dimensión a los resultados. Para tomar ventaja de todo el volumen de datos y minimizar el movimiento de datos, que tiene un coste computacional muy alto, se requiere el uso de In-Database y en la memoria-Analytics.

El científico de datos
Para materializar los beneficios de Big Data Analytics, también hay un nuevo profesional en el mercado: The Data Scientist (el científico de datos). El perfil de este profesional tiene habilidades que incluyen la programación de computadoras, conocimientos de tecnología, la comunicación, el dominio de la industria, estadísticas y matemáticas aplicadas. Hay un déficit estimado de 140.000 a 190.000 de estos profesionales sólo en los Estados Unidos.

La falta de profesionales a su disposición, combinada con la inversión prevista en esta área en los próximos años, demuestra claramente que las empresas están adoptando la tecnología. Ahora es el momento para que otras empresas empiecen  a comprender los beneficios potenciales de esta nueva ola y empezar a hacer uso de ella.