Data Warehouse en tiempo real: llevando la analítica a los datos

Data Warehouse en tiempo real: llevando la analítica a los datos

data warehouse

Un data warehouse tradicional es probablemente el mayor obstáculo cuando se trata de realizar un análisis ágil de un negocio.

Imaginemos la siguiente situación: estamos analizando y recopilando datos sobre el rendimiento de las ventas de tus productos y nos surge la duda de por qué, en una determinada región, las ventas están funcionando mejor que en el resto de áreas. Inmediatamente, buscamos en nuestra data warehouse la explicación. Empezamos a extraer cubos y slices de datos, y los analizamos desde diferentes perspectivas, pero no somos capaces de encontrar la respuesta de por qué las ventas son mejores en esa región.

Concluimos que necesitas datos que no están disponibles en los sistemas de nuestra empresa. Algunos datos geográficos que están disponibles a través de Hadoop podrían responder a la pregunta. Pero, ¿cómo podemos obtener esta información y analizarla rápidamente?

 

KYO - CTA Texto - DM

 

Llevando la analítica a los datos

Si no queremos utilizar la fórmula tradicional de especificación, remodelación del data warehouse, y carga y testeo de datos necesitaremos una nueva forma de data warehouse más moderno. Lo que necesitamos en última instancia es un tipo de semántica que nos permita remodelar nuestro data warehouse en tiempo real y sobre la marcha. Esta semántica permite a quiénes toman las decisiones dejar los datos donde están almacenados, sin llevarlos al data warehouse. Lo que realmente necesitamos es una forma de llevar  nuestra analítica a los datos, en lugar de hacerlo a la inversa.

Esta sería la lista de deseos que necesitamos:

  • Acceso a la fuente de datos en tiempo real.
  • Capacidad para remodelar el data warehouse en tiempo real.
  • Sin replicación de datos. Los datos permanecen donde están.
  • Sin pérdida de tiempo con trabajos de carga de datos.
  • Procesamiento analítico hecho en el momento.
  • Reducción drástica de objetos de datos para ser almacenados y mantenidos.
  • Eliminación de agregados.

Aunque las herramientas analíticas modernas añaden perfectamente fuentes de datos sobre la marcha y mezclan diferentes fuentes de datos, estos componentes siguen siendo herramientas analíticas. Cuando se debe poner a disposición de múltiples usuarios datos adicionales, o son datos en una escala y complejidad muy grandes, las herramientas analíticas carecen del poder de computación y la escalabilidad necesarias. Simplemente, no tiene sentido mezclar las fuentes de datos individualmente para cada usuario, cuando los múltiples usuarios están requiriendo los mismos complejos datos adicionales.

Un data warehouse, en este caso, es la respuesta. Sin embargo, hay todavía un obstáculo que superar: un data warehouse tradicional requiere un esfuerzo sustancial para adaptarse a las nuevas necesidades de datos. Así que, añadimos a nuestra lista de deseos los siguientes elementos:

  • Ajustar y adaptar el modelo.
  • Desarrollo de scripts de carga y transformación.
  • Asignación de tamaño.
  • Programación y herencia.
  • Pruebas y mantenimiento.

En 2016 comenzó el futuro del data warehouse. La tecnología in memory con acceso inteligente, nativo y en tiempo real, movió la información desde la analítica al data warehouse, y también el data warehouse al core de los sistemas in memory. Combinado con la tecnología push back, donde los cálculos analíticos son llevados de nuevo a una plataforma de computación in memory, el análisis es llevado a los datos. El procesamiento integral in memory se ha convertido en una realidad, lo cual permite una agilidad real. Este procesamiento integral ya está listo para el internet de las cosas y los datos a escala Petabyte.

 

Acceso nativo y en tiempo real para análisis

¿Qué aportan los data warehouse de última generación a la analítica? Permiten un acceso nativo desde los componentes analíticos de alto nivel a través del data warehouse y hasta la plataforma principal in memory, con nuestros datos operativos. Y eso no es todo, este acceso nativo es en tiempo real. Cada interacción basada en análisis de un usuario final, genera cálculos. Con la arquitectura descrita, estos cálculos son devueltos masivamente a la plataforma donde residen nuestros datos.

La misma arquitectura integrada es también fundamental cuando se trata de agilizar y optimizar datos. Cuando se requieren datos nuevos y complejos, se pueden añadir sin replicación de datos. Y al no haber replicación de datos, el modelado del data warehouse se puede hacer en tiempo real, progresivamente, aprovechando la semántica. Ya no tenemos que modelar, crear y rellenar nuevas tablas y agregados cuando se necesitan datos adicionales en el data warehouse, porque no hay nuevas tablas necesarias. Solo creamos semántica adicional, y esto se puede hacer en tiempo real.

 

KYO - CTA horizontal - DM

Escribe tu comentario

Tu dirección de correo electrónico no será publicada.