diciembre 10, 2023

Sin memoria, sin gritos: rompiendo la barrera del almacenamiento de datos

Únase a los principales ejecutivos en San Francisco el 11 y 12 de julio para escuchar cómo los líderes están integrando y optimizando las inversiones en IA para el éxito. Aprende más


En la era de la información, los grandes datos se ven cada vez más como el elemento vital de cualquier organización. Sin embargo, dado que los datos se han vuelto tan grandes y variados, analizarlos adecuadamente sigue siendo un gran desafío para las empresas.

Por lo tanto, los conocimientos comerciales que estos datos vitales deberían poder producir se vuelven demasiado difíciles, lentos o costosos de producir.

Un desafío clave es la interacción entre las soluciones de almacenamiento y análisis. ¿Pueden manejar estas masas de datos o hay alguna forma de superar la barrera del almacenamiento por completo?

Formatos de almacenamiento de datos: una historia

La línea de tiempo de esta gran explosión de datos se puede dividir en tres períodos distintos.

Evento

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos compartirán cómo integraron y optimizaron las inversiones en IA para lograr el éxito y evitar errores comunes.

Suscríbase ahora

Primero hubo almacenamiento de archivos de texto sin formato (TXT), seguido de sistemas de administración de bases de datos relacionales (RDBMS), que permitieron un monitoreo e interacción más fáciles con conjuntos de datos más grandes.

La tercera fase, los formatos modernos de código abierto como Parquet e Iceberg, que recopilan archivos comprimidos de manera más efectiva, es el resultado de que estas bases de datos se vean superadas por los datos que debían recopilar y analizar.

Luego llegó la etapa en la que las empresas de bases de datos desarrollarían sus propios métodos de almacenamiento en forma de almacenes de datos. Estos formatos de almacenamiento de datos personalizados y patentados ofrecen un mejor rendimiento y permiten que las empresas que dependen de los datos almacenen sus datos de manera que puedan consultarlos y administrarlos de manera más efectiva.

Entonces, ¿por qué el análisis de datos sigue rezagado?

El costo de los almacenes de datos

A pesar de la personalización que ofrecen, los formatos de almacenamiento de almacenamiento de datos tienen una serie de inconvenientes.

Los protocolos de importación de estos almacenes requieren los datos comerciales deben pasar por un procesamiento previo antes de ingresar al almacén, por lo que las consultas se retrasan. Además, no existe una única fuente de “verdad”, ya que el proceso de sincronización entre la ubicación de almacenamiento de origen (donde se crean los datos, aún sin procesar) y el almacén de datos es complejo y puede distorsionar los conjuntos de datos.

El bloqueo del proveedor es otro problema, ya que los datos que se pueden consultar desde cualquier lugar en el formato de almacenamiento a menudo están cerrados a una sola aplicación y, por lo tanto, no siempre son compatibles con las diversas herramientas necesarias para el análisis de datos. Finalmente, cada vez que un departamento quiere analizar sus datos, las fuentes de datos deben duplicarse, lo que puede conducir a un intercambio de datos complicado y, a veces, imposible entre diferentes almacenes de datos.

A medida que estas deficiencias se vuelven cada vez más evidentes y plantean mayores desafíos para las empresas basadas en datos, se desarrolla el cuarto capítulo de la saga del archivo de datos.

Introduzca el “lago de datos”.

Sumérgete en el lago de datos

A diferencia de un almacén de datos (y la naturaleza finita y cerrada que implica su nombre), un lago de datos es fluido, profundo y completamente abierto. Por primera vez, las empresas de cualquier tamaño pueden guardar datos relevantes, desde imágenes hasta videos y texto, en una ubicación de almacenamiento centralizada, escalable y ampliamente accesible.

Debido a que estas soluciones, con sus entradas y afluentes y la naturaleza fluida de sus formatos de almacenamiento, están diseñadas no solo para almacenar datos, sino también para compartir y sincronizar datos, los lagos de datos no se atascan por el bloqueo del proveedor, por la duplicación de datos. desafíos o complicaciones de una sola fuente de verdad.

Combinados con formatos de código abierto como los archivos Apache Parquet, que son lo suficientemente potentes como para manejar las necesidades analíticas en varios silos dentro de una organización, estos sistemas de almacenamiento únicos han permitido a las empresas trabajar con éxito dentro de una arquitectura de lago de datos y disfrutar de sus beneficios de rendimiento.

la casa en el lago

Si bien los lagos de datos son una solución prometedora de almacenamiento y análisis, todavía son relativamente nuevos. Como resultado, los expertos de la industria todavía están explorando las oportunidades potenciales y las dificultades que tales capacidades de computación en la nube pueden tener en sus soluciones de almacenamiento.

Un intento de superar los inconvenientes actuales es combinar las capacidades del lago de datos con la organización del almacén de datos y la computación en la nube, denominada “casa del lago de datos”, esencialmente un almacén de datos que flota en un lago de datos.

Considere que un lago de datos es solo una colección de archivos en carpetas: simple y fácil de usar, pero incapaz de extraer datos de manera efectiva sin una base de datos centralizada. Incluso después de que los almacenes de datos desarrollaran una forma de leer formatos de archivo de código abierto, los desafíos de los retrasos en la importación, el bloqueo del proveedor y una única fuente de verdad permanecieron.

Los lagos de datos, por otro lado, permiten a las empresas utilizar un motor de procesamiento de base de datos y una capa semántica similares para consultar todos sus datos tal cual, sin transformaciones ni copias excesivas, al tiempo que conservan los beneficios de ambos métodos.

El éxito de este enfoque combinado de almacenamiento y análisis de datos ya es alentador. El vicepresidente y director de investigación de Ventana Research, Matt Aslett, predice que para 2024, más de las tres cuartas partes de los usuarios de lagos de datos invertirán en tecnologías de lagos de datos para mejorar el valor comercial de los datos acumulados.

Las empresas ahora pueden disfrutar de los beneficios analíticos de las bases de datos SQL y las capacidades de almacenamiento asequibles y flexibles de un lago de datos en la nube, mientras siguen siendo dueños de sus datos y mantienen entornos analíticos separados para cada dominio.

¿Qué tan profundo es este lago?

A medida que las empresas de datos adoptan más y más data lakehouses en la nube, cada vez más las empresas podrán concentrarse en uno de los activos más críticos de los negocios de hoy: análisis complejos en grandes conjuntos de datos. En lugar de llevar sus datos a los motores de alojamiento, las empresas en realidad traerán motores de alto nivel a cualquier dato que necesite ser analizado.

Gracias a las bajas barreras de entrada de los lagos de datos en la nube, donde la asignación de hardware se puede lograr con solo unos pocos clics, las organizaciones tendrán datos de fácil acceso para cada caso de uso posible.

Se seguirá probando la capacidad de los proveedores de lagos de datos para manejar conjuntos de datos más grandes sin escalar automáticamente sus recursos informáticos de forma indefinida. Pero incluso a medida que avanza la tecnología, el método del lago de datos seguirá siendo consistente en su capacidad para permitir la independencia de los datos y ofrecer a los usuarios los beneficios tanto de los almacenes de datos como de los lagos de datos.

Las aguas del lago de datos pueden parecer no probadas, pero cada vez hay más pruebas de que los proveedores y las empresas que no se lanzan al agua no se darán cuenta de su potencial de datos.

Matan Libis es Vicepresidente de Producto en cuadrado.

Tomadores de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es donde los expertos, incluidos los ingenieros de datos, pueden compartir ideas e innovaciones relacionadas con los datos.

Si desea leer ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

¡Incluso podría considerar contribuir con su propio artículo!

Leer más de DataDecisionMakers

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *