lunes, 24 de noviembre de 2014

El enigma del 'big data': ¿cómo definirlo?

Los grandes volúmenes de datos están revolucionando los negocios del siglo XXI sin que nadie sepa lo que realmente significan. Un grupo de científicos informáticos acaba de crear una definición con la que esperan poner de acuerdo a todo el mundo.

Una de las mayores nuevas ideas dentro de la informática es el concepto de 'big data'. Todo el mundo parece estar de acuerdo con que los grandes volúmenes de datos está revolucionando el comercio del siglo XXI. Cuando se trata de negocios, ofrecen unos conocimientos sin precedentes, mejoras en la toma de decisiones y nuevas fuentes de ganancias.

No obstante, si le pides a un director de tecnología que te defina qué son los grandes volúmenes de datos, probablemente acabe con la mirada en el suelo. Seguramente acabes con una definición distinta de cada persona a quien preguntes. Y eso resulta problemático para cualquiera que intente comprar, vender y utilizar servicios basados en grandes volúmenes de datos. ¿Qué es exactamente lo que ofrecen?

Jonathan Stuart Ward y Adam Barker, de la Universidad de St Andrews en Escocia, se han puesto con el asunto. Han recabado las diversas definiciones que ofrecen las organizaciones de alta tecnología mayores y más influyentes del mundo. Después han intentado extraer una definición que ponga de acuerdo a todo el mundo.

El objetivo de Ward y Barker era abarcar lo máximo posible, pero los resultados son ambiguos. Es difícil conseguir una definición formal, ya que muchas organizaciones prefieren dar ejemplos anecdóticos.

En particular, es difícil definir la noción de 'grande', entre otras cosas, porque un conjunto de datos que parece grande hoy día, probablemente resultará pequeño en un futuro no muy lejano. Cuando una organización da cifras concretas de lo que constituye algo 'grande', otra da una definición relativa, lo que implica que los grandes volúmenes de datos siempre irán más allá de lo que las técnicas convencionales puedan manejar.

Algunas organizaciones señalan que los grandes conjuntos de datos no siempre son complejos, y que los pequeños, siempre son simples. Lo que quieren decir es que es la complejidad de un conjunto de datos la que más peso tiene a la hora de catalogarlo como 'grande'.

He aquí un resumen de los tipos de descripciones que Ward y Barker han descubierto de varias organizaciones influyentes:

1. Gartner. En 2001, un informe de Meta (hoy día Gartner) tomó nota del aumento del tamaño de los datos, la tasa de aumento a la que se producen y la creciente variedad de formatos y representaciones empleadas. Este informe es anterior a la expresión 'big data', pero proponía una definición triple con tres 'V': volumen, velocidad y variedad. Desde entonces, esta idea se ha hecho muy popular y, a veces, incluye una cuarta V: veracidad, para cubrir la cuestión de la confianza y la incertidumbre.

2. Oracle. 'Big data' es la derivación de valor a partir de la toma de decisiones de negocio en función de bases de datos relacionales tradicionales, aumentada con nuevas fuentes de datos no estructurados.

3. Intel. Las oportunidades de trabajo con grandes volúmenes de datos surgen en organizaciones que generen un promedio de 300 terabytes de información a la semana. La clase de datos más común es la de las transacciones comerciales almacenadas en bases de datos relacionales, seguida de documentos, correo electrónico, datos de sensores, blogs y redes sociales.

4. Microsoft. "'Big data' es un término cada vez más utilizado para describir el proceso de aplicación de una significativa potencia de computación (lo último en el aprendizaje de máquinas e inteligencia artificial) a conjuntos de información de enorme tamaño y, a menudo, de alta complejidad".

5. El proyecto de código abierto MIKE (siglas en inglés de Method for an Integrated Knowledge Environment). El proyecto MIKE argumenta que los grandes volúmenes de datos no tienen que ver con el tamaño sino con la complejidad. Por consiguiente, lo que define un conjunto de datos como 'big data' es su alto grado de permutaciones e interacciones.

6. El Instituto Nacional de Estándares y Tecnología de EEUU. El Instituto afirma que los grandes volúmenes de datos se refieren a aquellos que "superan la capacidad o la habilidad de los métodos y sistemas actuales o convencionales". En otras palabras, la noción de 'grande' está relacionada con el estándar de computación actual.

Como podemos ver, la cosa está bastante mezclada.

Además de buscar definiciones, Ward y Barker intentaron comprender mejor la forma en que la gente usa la frase de búsqueda 'big data' en Google Trends, para ver qué palabras se le asocian más comúnmente. Estos son los resultados: análisis de datos, Hadoop, NoSQL, Google, IBM y Oracle.

Para acabar el estudio con valentía, aportan una definición propia en la que tratan de reunir todas estas ideas tan dispares. Aquí va su definición: "'Big data' es un término que describe el almacenamiento y análisis de conjuntos de datos de gran tamaño o complejidad, a través de una serie de técnicas que incluyen, entre otras: NoSQL, MapReduce y el aprendizaje de máquinas".

Su objetivo por lograr una definición con la que todo el mundo pueda estar de acuerdo es algo que merece la pena intentar y que, sin duda, llega con retraso.

Ref: arxiv.org/abs/1309.5821: Undefined By Data: A Survey of Big Data Definitions