abril 22, 2024

El modelo hub-and-spoke: una alternativa a la malla de datos

Estamos emocionados de traer Transform 2022 en persona el 19 de julio y virtualmente del 20 al 28 de julio. Únase a los líderes de inteligencia artificial y datos para discusiones en profundidad y oportunidades emocionantes para establecer contactos. ¡Regístrese hoy!


La malla de datos es un tema candente en la comunidad de datos y análisis. Presentado en 2020 por Zhamak Dehghani en su artículo “Principios de malla de datos y arquitectura lógica”, la malla de datos es un nuevo modelo distribuido para organizar equipos de análisis para entregar productos de datos y está destinado a abordar los desafíos de datos centralizados y descentralizados. Pero, ¿es este enfoque realmente el mejor enfoque para las empresas hoy en día?

Modelos organizativos para el análisis

A lo largo de los años, hemos visto modelos organizacionales tanto centralizados como descentralizados para brindar análisis al negocio. Si bien ambos modelos tienen sus ventajas, cada uno tiene serias desventajas que los hacen inadecuados para satisfacer las necesidades de los consumidores ávidos de datos de hoy.

1. Modelo centralizado

El almacén de datos permite a las empresas almacenar datos en una ubicación seleccionada para que, en teoría, todos puedan encontrar y consultar sus datos de forma segura. Con un control central sobre la plataforma de datos y los estándares, los datos se pueden definir de manera consistente y entregar de manera confiable.

Figura 1: Modelo centralizado para la gestión y el análisis de datos

En la práctica, sin embargo, existen algunos problemas importantes con este enfoque. Primero, los datos deben seleccionarse y cargarse con tanta precisión que solo TI tenga las habilidades para construir el almacén de datos. Esto convierte a TI en un cuello de botella para la integración de nuevos datos. En segundo lugar, debido a que el equipo de TI generalmente no comprende el negocio, luchan por traducir los requisitos comerciales en requisitos técnicos y, por lo tanto, exacerban el cuello de botella y frustran a sus clientes. En última instancia, los usuarios comerciales luchan por analizar miles de tablas de almacenamiento de datos, lo que hace que el almacenamiento de datos centralizado sea atractivo solo para los usuarios más sofisticados.

2. Modelo descentralizado

Impulsados ​​por la frustración de los usuarios finales y la explosión de popularidad de las herramientas de visualización como Tableau, los usuarios comerciales han tomado el asunto en sus propias manos con un enfoque descentralizado. En lugar de esperar a que TI entregue los datos, los usuarios comerciales crearon sus propios extractos de datos, modelos de datos e informes. Al descentralizar la preparación de datos, los usuarios comerciales se liberaron de TI y evitaron la “pérdida de traducción” asociada con el enfoque centralizado dirigido por TI.

Figura 2: Modelo descentralizado para la gestión y el análisis de datos

En la práctica, sin embargo, este enfoque, al igual que el enfoque centralizado, también ha presentado algunos desafíos importantes. Primero, con la falta de control sobre las definiciones comerciales, los usuarios comerciales han creado sus propias versiones de la realidad con cada tablero que han creado. Como resultado, las definiciones de negocios y los resultados en competencia destruyeron la confianza de la administración en los resultados analíticos. En segundo lugar, el enfoque descentralizado ha llevado a la proliferación de plataformas y herramientas que compiten y, a menudo, son incompatibles, lo que dificulta o imposibilita la integración de análisis en todas las unidades comerciales.

La malla de datos

La malla de datos está destinada a abordar los desafíos de ambos modelos. Acepta que los datos de hoy están distribuidos y permite que todos los usuarios de una organización accedan y analicen la información comercial desde prácticamente cualquier fuente de datos, sin la intervención de equipos expertos en datos. Se basa más en las personas y la organización que en la tecnología, razón por la cual es tan convincente. La arquitectura distribuida de una malla descentraliza la propiedad de cada dominio corporativo. Esto significa que cada dominio tiene control sobre la calidad, la privacidad, la frescura, la precisión y el cumplimiento de los datos para casos de uso analítico y operativo.

Sin embargo, el enfoque de malla de datos admite un modelo organizativo totalmente descentralizado al eliminar por completo el equipo centralizado. Me gustaría sugerir una alternativa a este enfoque que introduce un centro de excelencia para hacer que un modelo de gestión de datos descentralizado funcione para la mayoría de las empresas.

Modelo hub-and-spoke: una alternativa a la malla de datos

Está claro que ningún enfoque, centralizado o descentralizado, puede ofrecer agilidad y consistencia al mismo tiempo. Estos objetivos están en conflicto. Sin embargo, existe un modelo que puede ofrecer lo mejor de ambos mundos cuando se implementa con las herramientas y los procesos adecuados.

El modelo hub-and-spoke es una alternativa a la arquitectura de malla de datos con algunas diferencias críticas. Es decir, el modelo hub-and-spoke presenta un equipo central de datos, o centro de excelencia (el “hub”). Este equipo posee la plataforma de datos, las herramientas y los estándares de procesos, mientras que los equipos de dominio corporativo (los “radios”) poseen los productos de datos para sus dominios. Este enfoque resuelve el fenómeno de “todo va bien” del modelo descentralizado al permitir que los expertos en la materia (SME), o administradores de datos, creen de forma independiente productos de datos que satisfagan sus necesidades.

Figura 3: modelo Hub-and-Speak para gestión y análisis de datos

Apoyar un modelo hub-and-spoke descentralizado para crear productos de datos requiere que los equipos hablen un lenguaje de datos común y no SQL. Lo que necesitas es un lógico forma de definir las relaciones entre los datos y la lógica empresarial separada y distinta de la representación física de los datos. Un modelo de datos semánticos es un candidato ideal para servir como Rosetta Stone para equipos de dominio de datos dispares porque se puede usar para crear un gemelo digital de la empresa mediante el mapeo de datos físicos en términos comerciales. Los expertos en dominios pueden codificar su conocimiento comercial en forma digital para que otros puedan cuestionar, conectarse y mejorar.

Para que este enfoque funcione a escala, es fundamental implementar una plataforma de nivel semántico común que admita el uso compartido de modelos de datos, las dimensiones compatibles, la colaboración y la propiedad. Con una capa semántica, el equipo central de datos (hub) puede definir modelos comunes y dimensiones compatibles (p. ej., tiempo, producto, cliente) mientras que los expertos en dominios (rayos) poseen y definen sus propios modelos de procesos comerciales (p. ej., “facturación”, “envío “, “generación de prospectos”). Con la capacidad de compartir recursos de modelos, los usuarios comerciales pueden combinar sus modelos con modelos de otros dominios para crear nuevos mashups para responder preguntas más profundas.

Figura 4: Combinación de modelos compartidos y modelos específicos de dominio

El modelo hub-and-spoke tiene éxito porque aprovecha las fortalezas de los equipos centralizados y el dominio corporativo: el equipo centralizado posee y administra la plataforma técnica y publica modelos compartidos, mientras que los equipos corporativos crean productos de datos específicos del dominio usando un conjunto coherente de definiciones de negocio y sin necesidad de entender los modelos de negocio de otros dominios.

Cómo llegar allá

Pasar a un modelo hub-and-spoke para distribuir productos de datos no tiene por qué ser disruptivo. Hay dos caminos hacia el éxito, según el modelo existente para implementar el análisis.

Si su organización de análisis actual es centralizado, el equipo central y los equipos comerciales deben identificar colectivamente los dominios de datos clave, asignar la gestión de datos e incorporar un ingeniero de análisis en cada uno. El ingeniero de análisis puede provenir del equipo central o del equipo comercial. Usando una plataforma de nivel semántico, el ingeniero de análisis integrado puede trabajar dentro del equipo del dominio comercial para crear modelos de datos y productos de datos para ese dominio. El ingeniero de análisis integrado trabaja con el equipo de datos central para establecer estándares para las herramientas y el proceso, identificando patrones comunes.

Si su organización actual es descentralizado, se puede crear un equipo de datos central para establecer estándares para herramientas y procesos. Además de administrar la plataforma de capa semántica y sus objetos y modelos compartidos, el equipo de datos central puede administrar las canalizaciones de datos y las plataformas de datos compartidas por los equipos de dominio.

Construyendo a escala

El modelo organizacional óptimo para el análisis dependerá del tamaño y la madurez de la organización. Sin embargo, nunca es demasiado pronto para construir a escala. No importa cuán pequeño sea, invertir en un modelo hub-and-spoke descentralizado para crear productos de datos pagará dividendos ahora y en el futuro. Al promover la gestión y propiedad de datos por parte de expertos en el dominio, utilizando un conjunto común de herramientas y definiciones semánticas, toda la organización tendrá el poder de crear productos de datos a gran escala.

David P Mariani es CTO y co-fundador de atscale, inc.

Tomadores de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es el lugar donde los expertos, incluidos los ingenieros de datos, pueden compartir ideas e innovaciones relacionadas con los datos.

Si desea leer ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

¡Incluso podría considerar contribuir con su propio artículo!

Leer más de DataDecisionMakers

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *