Un lago de datos es un depósito de almacenamiento que contiene una gran cantidad de datos en bruto en su formato nativo hasta que se necesiten. Mientras que un almacén de datos jerárquico almacena los datos en archivos o carpetas, un lago de datos utiliza una arquitectura plana para almacenarlos.
A cada elemento de datos en un lago se le asigna un identificador único y se le etiqueta con un conjunto de etiquetas de metadatos extendidos. Cuando se plantee una cuestión de negocios, el lago de datos puede consultarse por datos pertinentes, y ese pequeño conjunto de datos puede ser analizado para ayudar a responder la cuestión.
El término “lago de datos” está generalmente asociado con el almacenamiento de objetos orientado hacia Hadoop. En tal escenario, los datos de una organización se cargan por primera vez en la plataforma Hadoop, y luego se aplican herramientas de análisis de negocio y data mining a los datos que residen en los nodos del clúster de Hadoop de las computadoras básicas.
Al igual que con big data, el término “lago de datos” a veces es menospreciado como una simple etiqueta de marketing de un producto compatible con Hadoop. Cada vez más, sin embargo, el término está siendo aceptado como una manera de describir cualquier grupo de datos grande en el que los requisitos de esquema y datos no están definidos hasta que se consulta los datos.