Informe: El almacén de datos

Publicado: 2022-03-11

Las empresas y los consumidores están generando más datos que nunca. La proliferación de dispositivos y productos digitales está impulsando la expansión exponencial del universo digital. Si bien teóricamente es un activo, la escala de estos datos presenta un desafío: ¿cómo pueden las empresas organizar su información en la práctica para revelar información procesable?

Si bien la minería de datos y la inteligencia comercial brindan la valiosa extracción y presentación de dichos conocimientos, el almacén de datos (DWH) es la agregación y reorganización preparatoria de los vastos datos subyacentes, que a menudo residen en múltiples ubicaciones. Comprender el papel del DWH dentro del ecosistema más amplio de la ciencia de datos, la minería de datos y la inteligencia comercial es esencial para el gerente moderno.

¿Qué es un almacén de datos?

El DWH es un depósito centralizado de información digital, agregada de una variedad de fuentes dispares y organizada en una estructura optimizada para informes. Lo que es más importante, el DWH proporciona información procesable a toda la empresa, lo que permite a los empleados realizar análisis personalizados y tomar mejores decisiones.

Conceptos esenciales del almacén de datos

El modelo relacional versus dimensional

Para apreciar la funcionalidad de un almacén de datos, es importante comprender la diferencia entre un modelo relacional y dimensional. Si bien suenan técnicos, son fáciles de distinguir.

Desde una perspectiva de uso práctico, las bases de datos relacionales y dimensionales difieren en un criterio crítico: el flujo de información. Mientras que las bases de datos relacionales están optimizadas para la entrada de datos, las bases de datos dimensionales se crean para la salida, especialmente en forma de informes y análisis conocidos como inteligencia empresarial.

El modelo relacional organiza la información en torno a un único punto de información, por ejemplo, el nombre de un cliente. En dicho modelo, el nombre del cliente existe en una ubicación, con toda la información asociada, como detalles de contacto y fechas de transacciones, enumeradas en tablas asociadas o relacionadas.

Por el contrario, la base de datos dimensional esencialmente "descomprime" la base de datos relacional, lo que permite a los usuarios "cortar y trocear" fácilmente los datos en la permutación necesaria para cumplir con sus necesidades de generación de informes. Por ejemplo, en la entrada anterior de la base de datos relacional, los detalles de contacto del cliente se dividirían en campos discretos, como el número de teléfono, la dirección, la ciudad, el estado y el código postal.

La base de datos dimensional esencialmente "descomprime" la base de datos relacional, lo que permite a los usuarios "cortar y dividir" los datos fácilmente.

La distinción entre la base de datos relacional y dimensional puede parecer abstracta. Sin embargo, para aquellos encargados de entregar análisis e informes cada vez más complejos, apreciar la distinción proporciona una valiosa comprensión fundamental para trabajar con equipos técnicos que mantienen estos recursos.

El almacén de datos - "Está encendido"

Como detalló Bill Inmon, uno de los creadores del almacén de datos, algunas características específicas gobiernan el diseño del almacén de datos. De acuerdo con Inmon, el almacén de datos es una recopilación de datos variable en el tiempo, integrada, no volátil y orientada a temas en apoyo de las decisiones de gestión.

Eso es un bocado, pero una vez dividido en partes, esta definición pinta una imagen clara de la estructura básica de DWH. Para que estos criterios sean fáciles de recordar, reorganizamos los criterios de Inmon según el anagrama "It's On"

Integrado: los datos deben tener formatos coherentes. A menudo extraídos de diferentes fuentes, los campos de datos deben tener convenciones de nomenclatura coherentes.

Variante de tiempo: el DWH revela tendencias, que dependen del cambio a lo largo del tiempo. El registro de puntos de datos a lo largo del tiempo es fundamental para revelar las relaciones entre los datos.

Orientado al tema: el DWH permite el análisis y la elaboración de informes centrados en el tema. Por ejemplo, una empresa puede querer evaluar las ventas de un producto a lo largo del tiempo y luego profundizar en las tendencias regionales o específicas del segmento de clientes.

No volátil: una vez que los datos ingresan al almacén, no cambian.

El Data Warehouse se diferencia de la base de datos transaccional

Los sistemas de bases de datos transaccionales y DWH realizan funciones fundamentalmente diferentes y sirven a diferentes usuarios. Si bien el DWH está optimizado para informes y análisis, los sistemas de transacciones, a menudo denominados Procesamiento de transacciones en línea (OLTP), están optimizados para la disponibilidad y la velocidad de procesamiento.

Los usuarios de OLTP suelen ser empleados de front-end y, por lo general, acceden a varios registros a la vez. Los usuarios de DWH suelen ser analistas y administradores, cuyos informes pueden generar varios millones de registros simultáneamente.

El sistema de transacciones y DWH también difieren en la granularidad y permanencia de los datos. En el OLTP, los datos contienen valores actuales, que son detallados y muy variables (cada pocos segundos, miles de transacciones cambian los valores de estos registros). Por el contrario, el DWH contiene datos reestructurados que no se pueden cambiar una vez cargados.

El proceso de préstamo de consumo ilustra sucintamente las diferencias clave entre estos sistemas. Cuando un cliente obtiene un préstamo de automóvil, por ejemplo, la base de datos transaccional captura detalles como el tipo de automóvil, el color, el año de compra, el precio de compra y los detalles personales del comprador. Una vez convertida al modelo DWH, la información transaccional (en torno a la transacción de un solo cliente) se desagrega en partes componentes. Estas partes, a su vez, se agrupan con partes comparables de otras transacciones.

Al consultar el DWH, un empleado del prestamista podría acceder a informes compuestos por datos de clientes agregados. Por ejemplo, al tratar de optimizar la inversión en publicidad, un gerente de marketing podría buscar automóviles de un tipo o rango de precios determinado con la tasa de aprobación de préstamos más alta, o la edad promedio y el nivel de ingresos de los solicitantes de préstamos a lo largo del tiempo. Dicha información podría redirigir la inversión publicitaria a canales más relevantes con mensajes más específicos.

El Data Warehouse frente al Data Mart y Data Lake

El DWH puede ir acompañado de bases de datos relacionadas, el data mart y el data lake, cuyos nombres descriptivos sugieren funciones distintas. Un subconjunto del DWH, el data mart atiende a un grupo específico de usuarios, por ejemplo, una división o unidad comercial específica. Mientras que el DWH tiene varios temas relevantes para varios departamentos, como ventas, clientes, productos, inventario, proveedores, un data mart generalmente tiene un área temática para un departamento, como ventas o finanzas.

Hay dos tipos de data marts, dependientes e independientes, y cada uno presenta beneficios únicos. El data mart dependiente se basa en el DWH y tiene la ventaja de la coherencia. Debido a que todos los datos están centralizados y son consistentes dentro del DWH, los data marts resultantes también son consistentes. Si bien los data marts dependientes más robustos requieren un DWH y, por lo tanto, son más costosos de desarrollar.

Los data marts independientes, por otro lado, extraen datos directamente de las mismas bases de datos de origen, como un mini DWH. Aunque su desarrollo es más rápido y menos costoso, los data marts independientes conllevan un mayor riesgo, ya que las definiciones de datos pueden volverse inconsistentes entre los data marts desarrollados de forma independiente. Sin embargo, si se desarrollan con disciplina, los data marts independientes pueden finalmente ensamblarse en un DWH.

Los lagos de datos generalmente se configuran en un clúster de hardware económico y escalable. Esto permite que los datos se descarguen en el lago sin tener que preocuparse por la capacidad de almacenamiento. Si bien el DWH generalmente se limita a texto y datos numéricos, el lago también puede contener una variedad más amplia, incluidas redes sociales, datos de sensores e imágenes.

Almacén de datos y minería de datos

El DWH permite la minería de datos, que equipa a las empresas con el poder de predecir el futuro. El objetivo principal de la minería de datos es revelar patrones en grandes conjuntos de datos. Dichos patrones, a su vez, revelan relaciones entre diferentes categorías de datos y sus funciones comerciales subyacentes.

Tales relaciones brindan a los gerentes información procesable, esencialmente nuevas palancas para impulsar los resultados comerciales deseados, como el crecimiento del cliente o el aumento de las ventas por cliente. Por ejemplo, revisar los datos históricos de ventas por segmento geográfico o industrial puede resaltar un crecimiento anómalo, cuya fuente puede proporcionar a los gerentes de ventas aprendizajes para aplicar a otros segmentos.