miércoles, 26 de noviembre de 2014

Como sacar oro al Big Data

Es incuestionable que vivimos en el siglo de la información, la era internet y la conectividad de las cosas está permitiendo que podamos acceder a “toneladas” de datos. Para poder almacenar toda esa información nace el Big Data. El Big Data es una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). 

Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento,búsqueda, compartición, análisis y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado

El gran volumen de información que ha ido apareciendo ha pasado de medir la información en Kilobytes(KB), a Megabytes (MB), Gigabytes (GB), Terabyte (TB), Petabyte (PB), Exbyte (EB) y se ha estimado que a finales del año 2013 se alcanzó la cifra de 2,2 zettabyte (ZB) de datos almacenados en internet, y que estos datos alcanzarían los 2,5 ZB en 2014. La gran pregunta es cuando llegaremos al yottabyte (YB). Para llenar un yottabyte con megabytes, son necesarios un trillón:

Con todo este ingente volumen de información, la clave es como sacarle partido, es decir como transformar la información en conocimiento para tomar decisiones. El uso de técnicas analíticas por parte de las compañías ha evolucionado desde la generación de alarmas hasta la predicción de sucesos:

1. Alarmas simples: (Eficacia limitada de las acciones comerciales que puedan realizarse)
  • Identificación de eventos que indican por sí mismos una tendencia en el cliente (p.ejem: desvinculación e impacto directo en el riesgo de fuga. Necesidad de nuevos productos por una alta nueva, etc.)
  • La actualización de las variables se realiza de forma continua
2. Segmentación de perfiles de clientes (perfiles de riesgo o compra): (Costes elevados para que la acciones comerciales tengan impacto ya que se debe atacar a ‘todo’ el segmento)
  • Identificación de segmentos de clientes en función de su valor y comportamiento
  • Determinación de los perfiles de riesgo o con mayor propensión a ciertos productos o servicios
3. Modelos predictivos de propensión: (Máxima efectividad ya que atacamos a clientes concretos con la antelación suficiente como para retenerlos)
  • Construcción de modelos que predicen la propensión a compra o abandono en base a características actuales del cliente
  • Los modelos tienen más profundidad en el uso de variables (continuamente actualizadas) e identifican con mayor anticipación posibles desviaciones en las propensiones del cliente
Vamos a centrarnos en éstos últimos. El score de los modelos está correlacionado con la probabilidad de que suceda un evento… y esto impacta en el resultado de las acciones. La mayor parte del esfuerzo se concentra en identificar, crear y transformar las variables para el análisis. Se dispone de diferentes técnicas analíticas para diferentes propósitos:

1. Arboles de decisión: son alternativa idónea cuando el modelo debe seguir una lógica de negocio para ser explicado. Consiste en clasificar a los individuos en grupos de comportamiento diferente discriminando por las variables de entrada. Es una técnica de modelización supervisada. Se utilizan cuando el sentido de negocio es un factor de peso en la estructura del modelo. Bondades de los árboles de decisión:
  • Su principal virtud es que son entendibles y explicables.
  • Buena capacidad predictiva con variables categóricas. Es necesario trabajar las variables de entrada definiendo los cortes adecuados
  • Alta flexibilidad en cuanto a los tipos de variables de entrada y tratamiento de missings. Además no se ven muy afectados por los outliers
  • Muy fáciles de implementar, mantener y revisar.Se debe controlar el sobre ajuste del modelo avaluando el modelo con una muestra de test para asegurar la precisión
2. Redes neuronales: son una buena alternativa pero requiere más trabajo de exploración que otras técnicas. Combinan los atributos de una observación para tomar una decisión. El proceso de modelización consiste en entrenar a la red neuronal para que aprenda a combinar los atributos con la estructura y pesos más adecuados. Bondades de las redes neuronales:
  • Siguen un proceso heurístico de entrenamiento que le permite ir ajustando los pesos para los atributos de entrada (p.e: back propagation)
  • Las variables de entrada deben normalizarse en rangos de 0 a 1 para facilitar la convergencia del algoritmo
  • Cuantas más capas intermedias más ajustará el resultado y más riesgo de sobreajuste. Es importante tener una muestra de entrenamiento y una muestra de test
  • Uno de los argumentos para no usar las redes neuronales suele ser que es una caja negra difícil de interpretar. Una posible solución puede ser realizar árboles de decisión para “abrir” la caja y entender el funcionamiento (modelos subrogantes)
3. Regresiones logísticas: una de las técnicas más utilizadas porque son modelos eficientes y de alta capacidad predictiva. La regresión logística es una técnica de modelización paramétrica…… se supone que la relación entre las variables explicativas y la variable target transformada (logit) es lineal. Bondades de las regresiones logísticas:
  • No hay limitaciones en cuanto a las variables independientes o explicativas, pueden ser continuas o categóricas
  • Definida la variable dependiente como la ocurrencia o no de un acontecimiento, el modelo de regresión logística la expresa en términos de probabilidad
  • Las regresiones logísticas requieren menos esfuerzo que las redes neuronales. No es necesario explorar diferentes estructuras e ir comprobando diferentes sobreajustes
  • En caso de tener que hacer múltiples modelos resultan la mejor opción
4. Máquinas de vectores de soporte (SVM): alternativa para modelos de propensión, pero son difíciles de interpretar, mantener e implementar. Son modelos de aprendizaje estadístico basados la separación espacial por medio de hiperplanos seleccionados para maximizar la distancia (Ganancia). Clasifican la información de un problema no lineal transformándolo en un problema lineal de dimensión superior.Bondades de los SVM
  • En ciertos análisis de predicción del abandono se puede comprobar que no existe diferencia estadística entre el modelo logístico y las redes neuronales, mientras que los modelos de vectores de soporte logran superar la precisión de estos modelos
  • Aunque conceptualmente es bastante sencillo matemáticamente puede ser algo más complicada la implementación que con los árboles de decisión, sin embargo, existen numerosas librerías en diferentes formatos para facilitar la tarea.
Solo una perfecta combinación entre buena información, capacidad analítica, sentido común y flexibilidad y rapidez en la ejecución de las acciones son las claves del éxito, de la estrategia de los negocios en el Siglo XXI.

Referencia