Tres principios del desarrollo del almacén de datos
Publicado: 2022-03-11Gartner estima que cerca del 70 al 80 por ciento de los proyectos de inteligencia comercial recién iniciados fracasan. Esto se debe a innumerables razones, desde una mala elección de herramientas hasta la falta de comunicación entre TI y las partes interesadas del negocio. Habiendo implementado con éxito proyectos de BI en todas las industrias, espero compartir mis experiencias en esta publicación de blog y resaltar las razones clave por las que fallan los proyectos de inteligencia empresarial. Este artículo presentará contramedidas para fallas basadas en tres principios que deben regir cómo se construyen los almacenes de datos. Seguir estos conceptos de almacenamiento de datos debería ayudarlo como desarrollador de almacenamiento de datos a navegar el viaje de desarrollo evitando los baches comunes o incluso los sumideros de las implementaciones de BI.
Implementación de almacén de datos de inteligencia empresarial
Si bien los criterios para un almacén de datos de inteligencia comercial exitoso varían según el proyecto, se esperan y requieren ciertos mínimos en todos los proyectos. Aquí hay una lista de los principales atributos que generalmente se encuentran en un almacén de datos de inteligencia comercial exitoso:
- Valor: los proyectos de inteligencia empresarial pueden abarcar el curso de muchos meses o incluso años. Sin embargo, es importante mostrar los beneficios de un almacén de datos a las partes interesadas de su negocio desde el principio del proyecto para garantizar la financiación y el interés continuos. Idealmente, a las partes interesadas se les debe mostrar algún valor comercial significativo del nuevo sistema dentro de las primeras tres semanas de un proyecto.
- BI de autoservicio: los días de espera en TI para cumplir con las solicitudes de datos o realizar análisis de datos han terminado. El éxito de cualquier proyecto de BI ahora se mide por qué tan bien capacita a los usuarios comerciales para extraer valor del sistema por sí mismos.
- Costo: los proyectos de BI generalmente tienen costos iniciales de implementación relativamente altos. Para contrarrestar y compensar el alto costo inicial, es importante diseñar almacenes con bajos costos de mantenimiento. Si el cliente requiere un equipo completo de desarrolladores de BI para garantizar/diagnosticar problemas de calidad de datos, realizar cambios de rutina en los modelos de datos o manejar fallas de ETL, el sistema sería costoso de presupuestar y correría el riesgo de apagarse después de un tiempo. .
- Adaptabilidad: la capacidad de adaptarse a las demandas comerciales en evolución es crucial. Es importante tener en cuenta la innumerable cantidad de herramientas de BI que están disponibles en el mercado y el ritmo al que evolucionan para incluir funcionalidades y características adicionales. Junto con el hecho de que los negocios evolucionan continuamente, los requisitos para el almacén cambiarán; la adaptabilidad requiere que los almacenes de datos se diseñen para permitir el uso de herramientas de BI alternativas, como diferentes back-ends o herramientas de visualización en el futuro, y que se adapten a los cambios en los requisitos, a menudo imprevistos.
A través de mi experiencia en la creación de soluciones exitosas, y quizás aún más importante, al estar involucrado en proyectos fallidos, he llegado a la conclusión de que tres principios clave son fundamentales para aumentar la probabilidad de una implementación exitosa del sistema de inteligencia comercial. Sin embargo, antes de cubrirlos en detalle, comencemos con algo de contexto.
¿Qué es un almacén de datos?
Antes de profundizar en los diferentes conceptos de almacenamiento de datos, es importante comprender qué es realmente un almacenamiento de datos.
Los almacenes de datos a menudo se consideran sistemas de inteligencia comercial creados para ayudar con las necesidades diarias de generación de informes de una entidad comercial. No tienen los mismos requisitos de rendimiento en tiempo real (en implementaciones estándar) que los sistemas de datos OLTP, y mientras que los sistemas OLTP solo contendrán los datos relacionados con un pequeño subconjunto del negocio, los almacenes de datos buscan abarcar todos los datos relacionados con el negocio
Los modelos de almacén de datos ofrecen beneficios a una empresa solo cuando el almacén se considera el centro de "todo lo relacionado con los datos" y no solo una herramienta a través de la cual se producen los informes operativos. Todos los sistemas operativos deben tener una comunicación bidireccional con el almacén de datos para alimentar datos y recibir comentarios sobre cómo mejorar la eficiencia operativa. Cualquier cambio comercial, como un aumento en los precios o una reducción del suministro/inventario, primero debe crearse un prototipo y pronosticarse dentro de su entorno de almacenamiento de datos para que su empresa pueda predecir y cuantificar el resultado de manera confiable. En este contexto, todas las funciones de ciencia de datos y análisis de datos se centrarían en el almacén de datos.
Hay muchos componentes de un almacén de datos, y no es simplemente una base de datos:
- Una base de datos es un medio a través del cual almacena sus datos.
- Un almacén de datos va más allá e incluye herramientas y componentes necesarios para extraer valor comercial de sus datos y puede incluir componentes como canalizaciones de integración, marcos de calidad de datos, herramientas de visualización e incluso complementos de aprendizaje automático.
Aquí hay una representación más visual de la diferencia entre una base de datos y una estructura de almacén de base de datos. Las bases de datos o los nuevos almacenes meta de datos lógicos, como Hive, forman la estrella central del sistema estelar de un almacén de datos, con todos los demás componentes como sus planetas giratorios. Sin embargo, a diferencia de un sistema estelar, un almacén de datos puede tener una o más bases de datos y estas bases de datos deben ser intercambiables con las nuevas tecnologías, como veremos más adelante en este artículo.
Primer principio del almacén de datos: la calidad de los datos es suprema
Los almacenes de datos solo son útiles y valiosos en la medida en que las partes interesadas del negocio confíen en los datos que contienen. Para garantizar esto, se deben construir marcos que capturen y corrijan automáticamente (cuando sea posible) los problemas de calidad de los datos. La limpieza de datos debe ser parte del proceso de integración de datos con auditorías de datos periódicas o se realizan perfiles de datos para identificar cualquier problema de datos. Si bien se implementan estas medidas proactivas, también debe considerar medidas reactivas cuando se filtran datos incorrectos y el usuario los informa.
Para garantizar la confianza del usuario en el sistema de almacenamiento de datos, cualquier dato erróneo destacado por los usuarios comerciales debe investigarse como una prioridad. Para ayudar con estos esfuerzos, el linaje de datos y los marcos de control de datos deben integrarse en la plataforma para garantizar que el personal de soporte pueda identificar y remediar cualquier problema de datos rápidamente. La mayoría de las plataformas de integración de datos integran algún grado de soluciones de calidad de datos, como DQS en MS SQL Server o IDQ en Informatica.
Aproveche estas plataformas integradas si está utilizando una herramienta comercial en sus canalizaciones de integración de datos, pero además, asegúrese de desarrollar los mecanismos que lo ayudarán a mantener la calidad de sus datos. Por ejemplo, la mayoría de las herramientas de integración de datos carecen de una buena funcionalidad para rastrear el linaje de datos. Para superar esta limitación, se puede crear un marco de control de lotes personalizado utilizando una serie de tablas de control para rastrear cada flujo de datos que ocurre dentro del sistema.
Es muy difícil recuperar la confianza de las partes interesadas de su negocio si encuentran mala calidad dentro de su plataforma, por lo que la inversión inicial en marcos de calidad de datos debería valer la pena.
Segundo Principio del Almacén de Datos: Voltear el Triángulo
Esta figura ilustra la división del esfuerzo en la implementación y el uso de la mayoría de los almacenes de datos.

La mayor parte del esfuerzo se invierte en construir y mantener el almacén, mientras que el valor agregado de tener un almacén para análisis de negocios es una porción mucho menor del esfuerzo. Esta es otra razón por la que los proyectos de inteligencia empresarial suelen fallar. A veces, lleva demasiado tiempo en el ciclo del proyecto mostrar algún valor significativo para el cliente, y cuando el sistema finalmente está en su lugar, aún requiere mucho esfuerzo de TI para obtener algún valor comercial. Como dijimos en la introducción, diseñar e implementar sistemas de inteligencia de negocios puede ser un proceso largo y costoso. Por lo tanto, las partes interesadas esperarán con razón comenzar a cosechar rápidamente el valor agregado de sus esfuerzos de inteligencia comercial y almacenamiento de datos. Si no se materializa ningún valor agregado, o si los resultados simplemente llegan demasiado tarde para tener algún valor real, no hay mucho que les impida desconectarse.
El segundo principio del desarrollo del almacén de datos es invertir el triángulo como se ilustra aquí.
Su elección de herramientas de inteligencia comercial y los marcos que implemente deben garantizar que una mayor parte del esfuerzo que se realiza en el almacén sea para extraer valor comercial que para construirlo y mantenerlo. Esto garantizará altos niveles de participación de las partes interesadas de su negocio porque verán de inmediato el valor de invertir en el proyecto. Más importante aún, permite que la empresa sea autosuficiente en la extracción de valor sin tener una dependencia tan fuerte de TI.
Puede adherirse a este principio siguiendo metodologías de desarrollo incremental al construir el almacén para asegurarse de entregar la funcionalidad de producción lo más rápido posible. Seguir la estrategia de data mart de Kimball o las metodologías de diseño de data warehouse de Linstedt's Data Vault lo ayudará a desarrollar sistemas que se construyan de manera incremental mientras toman en cuenta los cambios sin problemas. Utilice una capa semántica en su plataforma, como un cubo MS SSAS o incluso un Business Objects Universe, para proporcionar una interfaz empresarial fácil de entender para sus datos. En el caso del primero, también proporcionará un mecanismo fácil para que los usuarios consulten datos de Excel, que sigue siendo la herramienta de análisis de datos más popular.
La incorporación de herramientas de BI que defienden la BI de autoservicio, como Tableau o PowerBI, solo ayudará a mejorar la participación del usuario, ya que la interfaz para consultar datos ahora se simplifica drásticamente en lugar de escribir SQL.
El almacenamiento de datos de origen en un lago de datos antes de llenar una base de datos ayudará a exponer los datos de origen a los usuarios en una etapa muy temprana del proceso de incorporación. Al menos los usuarios avanzados, como los cuantificadores comerciales, ahora podrán digerir los datos de origen (a través de los archivos sin procesar) conectando herramientas como Hive/Impala encima de los archivos. Esto ayudará a reducir el tiempo necesario para que la empresa analice un nuevo punto de datos de semanas a días o incluso horas.
Tercer principio del almacén de bases de datos: Plug and Play
Los datos están a punto de convertirse en el equivalente digital del petróleo. En los últimos años, hemos sido testigos de una explosión en la cantidad de herramientas que se pueden usar como parte de una plataforma de almacenamiento de datos y la tasa de innovación. Liderando la carga están las innumerables herramientas de visualización disponibles en este momento, con opciones avanzadas para back-ends muy cerca. Dado este entorno y la propensión a que los requisitos comerciales cambien constantemente, es importante tener en cuenta que necesitará intercambiar componentes de su pila de tecnología o incluso introducir/eliminar otros con el tiempo, según lo dicten los cambios tecnológicos y comerciales.
Basado en la experiencia personal, sería una suerte que una plataforma pudiera durar 12 meses sin algún tipo de cambio significativo. Una cantidad razonable de esfuerzo es inevitable en estas situaciones; sin embargo, siempre debe ser posible cambiar las tecnologías o el diseño, y su plataforma debe estar diseñada para satisfacer esta eventual necesidad. Si el costo de migración de un almacén es demasiado alto, la empresa podría simplemente decidir que el costo no está justificado y abandonar lo que construyó en lugar de buscar migrar la solución existente a nuevas herramientas.
Es imposible construir un sistema que satisfaga todas las necesidades futuras imaginables. Por lo tanto, se necesita un cierto nivel de apreciación de que cualquier cosa que diseñe y construya ahora podría reemplazarse con el tiempo al construir almacenes de datos. Con este fin, recomendaría el uso de herramientas y diseños genéricos siempre que sea posible en lugar de acoplar estrechamente su plataforma a las herramientas en las que se ejecuta. Por supuesto, esto debe hacerse después de una cuidadosa planificación y consideración, ya que el poder de muchas herramientas, especialmente las bases de datos, está en su individualidad y en su estrecha complementariedad.
Por ejemplo, el rendimiento de ETL mejora drásticamente cuando se utilizan procedimientos almacenados en una base de datos para crear nuevos datos de análisis empresarial en lugar de extraer y procesar los datos fuera de la base de datos mediante Python o SSIS. Con respecto a la capa de informes, las herramientas de visualización ofrecerían ciertas funcionalidades que no están disponibles en otros; por ejemplo, Power BI admite consultas MDX personalizadas, pero Tableau no. Mi punto no es recomendar la deserción de los procedimientos almacenados o evitar los cubos SSAS o Tableau en sus sistemas. Mi intención es simplemente promover la importancia de ser consciente al justificar cualquier decisión de acoplar estrechamente su plataforma a sus herramientas.
Otro sumidero potencial está en la capa de integración. Es muy fácil usar una herramienta como SSIS para su integración de datos debido a sus capacidades de depuración o facilidad de uso con la plataforma SQL Server. Sin embargo, migrar cientos de paquetes SSIS a otra herramienta se convertiría en un proyecto muy costoso. En los casos en los que principalmente esté haciendo "EL", busque utilizar una herramienta genérica para realizar su procesamiento. El uso de un lenguaje de programación como Python o Java para escribir un cargador genérico para cargar su capa de preparación ayudará a reducir los paquetes de SSIS individuales que, de lo contrario, habría requerido. Este enfoque no solo ayuda a reducir los costos de mantenimiento y migración futura, sino que también ayuda a automatizar más aspectos del proceso de incorporación de datos sin tener que escribir nuevos paquetes individuales (relacionado con el Principio 2).
En todos estos casos, debe decidir un compromiso práctico entre los beneficios inmediatos y los costos de migración futuros para garantizar que el almacén no se deseche porque no puede manejar el cambio o porque el cambio habría requerido demasiado tiempo. esfuerzo o inversión.
Terminando
Hay muchas razones por las que un determinado sistema de inteligencia empresarial puede fallar, y también hay algunos descuidos comunes que pueden conducir a una falla eventual. El panorama tecnológico en constante cambio, el presupuesto limitado para los sistemas de datos debido a una prioridad secundaria mal concebida para los sistemas operativos, y la gran complejidad y dificultad de trabajar con datos significa que se debe considerar cuidadosamente no solo los objetivos inmediatos sino también los planes futuros al diseñar y construcción de los componentes de un almacén de datos.
Los fundamentos del almacenamiento de datos descritos en este artículo tienen como objetivo guiarlo al hacer estas importantes consideraciones. Por supuesto, tener en cuenta estos principios no garantiza el éxito, pero sin duda contribuirán en gran medida a ayudarlo a evitar el fracaso.