A FONDO

Data warehouse: Qué es y cómo mejora la gestión empresarial



Dirección copiada

A medida que han aumentado las bases de datos operativas, se han creado data warehouse para llevar a cabo un análisis holístico de los datos empresariales más importantes. ¿Cuál es la diferencia entre estos grandes almacenes de datos y los data lakes?

Publicado el 10 jul 2024



Data warehouse

A finales de los ochenta, cuando el uso de aplicaciones informáticas comenzó a generalizarse en las empresas, apareció el Data Warehouse (DW), un repositorio centralizado de información recopilada por diversas funciones empresariales, homogeneizada, historizada y agregada para su análisis. Incluso hoy en día, muchas empresas y otras organizaciones con muchos procesos y «trabajadores del conocimiento» sitúan la adopción de esta tecnología entre sus principales prioridades de TI.

¿Qué entiende por almacén de datos

En las primeras décadas transcurridas desde el nacimiento de DW, quienes se centraron en este tema, siempre fue necesario hacer hincapié en la diferencia (y la complementariedad) entre las bases de datos operativas (DB) conectadas a las aplicaciones que respaldan los procesos empresariales individuales y los almacenes de datos. En ambos casos, se trata de repositorios (repositorios) de datos, pero las bases de datos operativas tienen la función de almacenar todo lo relacionado con actividades transaccionales específicas (de hecho, estamos hablando del procesamiento de transacciones en línea, OLTP), mientras que los almacenes de datos, como se mencionó , están destinados a almacenar datos sintéticos, historizados y conciliados para producir «fotografías» posteriores de lo sucedido en el entorno empresarial.

De esta forma, los DW permiten alimentar los sistemas de informes, inteligencia empresarial y análisis de forma más rápida y eficiente, lo que permite, entre otras cosas, tener conocimientos innovadores sobre los factores que afectan al rendimiento empresarial y, por lo tanto, crear nuevos KPI (indicadores clave de rendimiento) y modelos organizativos a alcanzar. El tipo de procesamiento que permiten los DWs, por lo tanto, se denomina Procesamiento Analítico Online (OLAP), en el que se tienen en cuenta múltiples dimensiones de un hecho empresarial determinado y se obtienen modelos de análisis denominados «cubos».

Diferencias entre Data Lake y Data Warehouse

Desde los años noventa, ha habido un aumento exponencial de los datos no estructurados y semiestructurados, que no se pueden gestionar con almacenes de datos. De hecho, en la gran mayoría de los casos, utilizan bases de datos relacionales (basadas en tablas con filas y columnas) y el lenguaje de consultas SQL. Para centralizar y gestionar este tipo de datos, que ya existían antes de esa época, pero en cantidades más pequeñas, finalmente se ha desarrollado el modelo (ya probado a principios de los ochenta) de bases de datos orientadas a objetos.

La creciente presencia de bases de datos DW y de objetos ha llevado a varios proveedores de soluciones de gestión de datos y almacenamiento a lanzar el paradigma dei Lago de datos, destinado a ser un repositorio universal de bases de datos operativas, almacenes de datos, bases de datos de objetos y otras fuentes de datos. Al menos hasta hace poco, el modelo de lago de datos ha demostrado ser útil principalmente desde el punto de vista de la unificación de la infraestructura, pero menos desde un punto de vista lógico: por el contrario, muchos observadores advierten del riesgo de que los lagos de datos prolonguen la visión de los datos en silos.

Mejore la gestión de datos con soluciones de almacenamiento de datos

Volviendo a DW, cabe destacar que, a diferencia de los lagos de datos, estos siempre han tenido (y tienen) una arquitectura basada en muchas tablas, dispuestas en diferentes niveles, con jerarquías precisas entre los datos. El propósito de esta estructuración, y de la reconciliación y limpieza previas de los datos de bases de datos heterogéneas, es garantizar a los usuarios un acceso más rápido a las dimensiones del negocio al recurrir a una única fuente de verdad (SSOT) en comparación con los datos de la empresa vistos de manera integral.

Las herramientas utilizadas para la ETL (Extract, Transform, Load) desempeñan un papel fundamental a la hora de crear esta verdad y elegir las dimensiones útiles para el análisis OLAP. Se encargan de extraer los datos de las bases de datos operativas y de otras fuentes (mediante conectores y API específicos), transformarlos (corregirlos, deduplicarlos, estandarizarlos, asignar permisos de acceso para proteger la confidencialidad de los datos, etc.) y cargarlos (o transmitirlos) en el DW.

Otro capítulo fundamental para mejorar la gestión de datos en el almacén de datos es la creación de «metadatos». Este término significa «datos que explican otros datos» o «datos sobre datos». Su existencia favorece la comprensión dentro de la empresa del significado de todos los datos y, por lo tanto, los procesos interdisciplinarios de colaboración y toma de decisiones.

Además, si antes de la llegada de DW para realizar análisis había que solicitar copias largas de datos analíticos de diferentes bases de datos operativas y luego compararlos (actividades que podían llevar días o semanas), con los almacenes de datos se pueden realizar los mismos análisis en unas pocas horas o minutos.

Optimice su infraestructura de datos con opciones avanzadas de almacenamiento de datos

Los almacenes de datos basados en tecnologías de última generación respaldan la escalabilidad empresarial también gracias a la escalabilidad de las arquitecturas con las que se pueden construir. Las arquitecturas DW se pueden dividir en tres tipos: en uno, dos o tres niveles. En el pasado, era difícil cambiar de un tipo de arquitectura a otro sin tener que prácticamente rediseñarlo todo, comprar hardware y software nuevos y escribir mucho código.

Veamos los tres tipos. El primero, que sigue siendo adecuado para pymes y empresas emergentes, tiene un solo elemento central, que consiste en un middleware que conecta cómodamente las bases de datos operativas y las herramientas de análisis de forma directa. El segundo tiene dos niveles en su centro: uno de feed (a veces denominado staging), compuesto por herramientas de ETL, y el otro del propio almacén de datos, que contiene el repositorio de metadatos y los datos empresariales conciliados, historizados y preparados para las consultas de los usuarios de BI.

En la estructura de tres niveles, además del ETL y un gran DW central, hay mercados de datos. Se trata de pequeños DWs dedicados a las necesidades de análisis de áreas funcionales específicas, o incluso de equipos de proyectos, que contienen en una pequeña parte subconjuntos de los datos contenidos en el almacén de datos y, en su mayoría, datos de interés específico para sus usuarios, que también pueden añadirse directamente desde ellos.

Muchas ofertas actuales de almacenamiento de datos (de proveedores históricos del sector o de nuevos proveedores que han surgido en las últimas dos décadas) incluyen las tecnologías y los servicios para crear DW, hacerlos crecer, modificarlos de forma flexible y, finalmente, pasar de un tipo de arquitectura a otro. Cada vez más, estos entornos de desarrollo e implementación se utilizan en la nube, sobre todo si los proveedores son proveedores de nube (como Amazon, Google o Microsoft Azure), pero también en el de proveedores de TI, históricos como Hitachi, IBM, Microsoft, Oracle, Sap, Teradata y otros, o emergentes como Databrick o SnowFlake.

Las ventajas competitivas de las soluciones de almacenamiento de datos

Si es necesario identificar qué elementos de diferenciación competitiva existen entre las distintas propuestas de almacenamiento de datos, en primer lugar es posible considerar todo aquello que permita evitar la dependencia de los usuarios. Las arquitecturas deberían ofrecer la mayor apertura posible a las fuentes de datos, que hoy en día son tanto bases de datos operativas como aplicaciones empresariales que se ofrecen en modo software como servicio en la Web. Por lo tanto, preste mucha atención a la cantidad de conectores y de. API (interfaz de programación de aplicaciones)

Se debe hacer un discurso similar en el sentido de las herramientas de inteligencia empresarial: el almacén de datos y el data mart deben ser accesibles desde cualquier herramienta analítica que ya se utilice en la empresa o que planee adquirir en el mercado libre.

Otro tema importante es el de la portabilidad de una nube a otra (en el caso de las mejores ofertas de DW) o el soporte a la integración multinube, en el caso de las propuestas de los proveedores de servicios en la nube. La disponibilidad de herramientas de ETL que permiten crear fácilmente canalizaciones de datos, tanto en formato nativo como transformado, y cargarlas en el DW o en los data marts. También en este caso, es deseable no estar limitados: los ingenieros de datos deberían poder elegir entre herramientas propiedad del proveedor de DW y herramientas de terceros o de código abierto, con las que ya estén acostumbrados a trabajar.

También es interesante la posibilidad de que estas herramientas de canalización de ETL no contengan código (por lo que también las puedan utilizar personas que no son usuarios de TI) y permitan implementar algoritmos Aprendizaje automático (ML)para automatizar, por ejemplo, el análisis de macrodatos almacenados en lagos de datos y obtener datos que puedan cargarse, tras una remodelación especial, en el DW.

La oferta de servicios gestionados tiene una gran demanda, por ejemplo, en la gestión de la infraestructura, el almacenamiento, la integración con otros tipos de repositorios (incluidos los lagos de datos) y una seguridad muy importante. Por último, pero no por ello menos importante, la relación precio-rendimiento.

Fuente: Zerounoweb.it, Network Digital360

Artículos relacionados

Artículo 1 de 3