Big Data: es el tema de moda estos días, promete descubrimientos en casi cualquier campo, desde medicina a mercadotecnia a aprendizaje de máquina y más. Pero para muchos de nosotros, los problemas de administrar Big Data aparecen cuando nos enfrentamos a esa gran oleada de fotos digitales y videos que hemos grabado con nuestros smartphone y cámaras. Multipliquen esto por el número de gente que hace esto alrededor del mundo y es un gran problema.
En la superficie, no parece un intento por tratar de curar el cáncer (hablaremos sobre esto más adelante), pero es un dolor de cabeza colosal organizar, clasificar, buscar y recuperar nuestro contenido multimedia – y diseñar sistemas para hacer esto a escala de manera efectiva es un reto enorme.
Por fortuna, el profesor Heiko Schuldt e Ivan Giangreco del Grupo de Bases de Datos y Sistemas de Información (DBIS) en la Universidad de Basel trabajan en un proyecto para hacer justo eso, y muchas cosas más. Su sistema integrado aprovecha el poder de la nube, para entender y clasificar terabytes de datos conformados por contenido multimedia para encontrar y regresar objetos parecidos.
El sistema del equipo de Basel combina el poder de las bases de datos relacionales, con la adaptabilidad de los sistemas de recuperación de información. El sistema Basel puede manejar y almacenar cualquier tipo de dato multimedia, incluyendo sus características. Cuando un algoritmo para extracción de características es definido, el sistema ejecuta de manera automática la extracción, almacenamiento, e indexación tanto de los datos de las características como del objeto por sí mismo.
Este enfoque lleva de manera eficiente consultas Booleanas así como búsquedas basadas en imágenes de calificación basadas en sus calificaciones de similitud de características. Además, provee nuevos paradigmas de consulta e interfaces; por ejemplo, pueden bocetar una imagen o partes de eso y encontrar imágenes que son similares a su boceto.
Es emocionante ver cómo este trabajo ha progresado desde que los investigadores de Basel tomaron su primer taller de entrenamiento de herramientas de TI para la Investigación en Europa en ETH Zúrich en noviembre del 2013. Esto permitió al equipo desarrollar e implementar de manera rápida su sistema de manera escalable.
Su programa estilo Mapa Reducido puede crecer conforme millones de imágenes son agregadas al sistema. Al moverse a la nube, los investigadores de Basel han sido capaces de desarrollar, implementar y demostrar el sistema, probando sus ideas a escala en los 14 millones de imágenes que comprenden la base de datos de ImageNet. Ellos presentaron su trabajo en el Congreso Internacional de Big Data IEEE (IEEE Big Data 2014)
El profesor Schuldt explica: “En recuperación de imágenes a gran escala, tanto la efectividad como la eficiencia son requerimientos esenciales. Gracias al uso de la nube, hemos sido capaces de conseguir eficiencia en la recuperación para poder concentrarnos más en la efectividad de la recuperación, en especial al desarrollar nuevos paradigmas de búsqueda e interfaces de usuario basadas, por ejemplo, en gestos o bocetos”.
Los investigadores de Basel buscan atacar el aún más grande conjunto de datos de Bing Clickture, que contiene 40 millones de imágenes. También planean probar el sistema en contenido de video, en lo que ellos llaman el proyecto IMOTION, que “multiplicará los retos en términos de eficiencia en la recuperación”, comenta el profesor Schuldt. Su siguiente trabajo fue presentado en la 37 Conferencia sobre Investigación y Desarrollo en Recuperación de Información Internacional ACM-SIGIR, y esperamos ver cómo el equipo continúa empujando los límites de Big Data.
Retomando el comentario del tratamiento del cáncer. Enfoques similares a aquellos utilizados por el proyecto del equipo Basel podrían de hecho, ayudarnos un día a entender y tratar mejor el cáncer. La ciencia de la computación subyacente y las tecnologías de nube podrían ser utilizadas por ejemplo, para administrar y analizar escaneos MRI de tumores.
El proyecto del equipo Basel es sólo un ejemplo de qué tan fácil es alistarse y comenzar en la nube y acelerar su investigación – en especial cuando al aprovechar la TI para Investigación, que ofrece no sólo entrenamiento sino también recompensas sustanciales de almacenamiento.
Referencia Big Data controlado con la nube