Cómo afectan las bases de datos distribuidas a las copias de seguridad

Cómo afectan las bases de datos distribuidas a las copias de seguridad

bases de datos distribuidas

El Big Data ha sacudido el panorama de las bases de datos. El big data implica tener que trabajar con bases de datos distribuidas y con este panorama, obtener una copia completa y fiable de varios petabytes de datos no parece algo sencillo.

Hadoop, MongoDB y Cassandra son algunos de los productos más utilizados en Big Data. Los datos se distribuyen a través de bases de datos distribuidas en múltiples servidores en lugar de estar todo empaquetado en un servidor único y masivo.

La ventaja principal de este sistema radica en la flexibilidad: para alojar más petabytes, solo tienes que agregar una o dos máquinas baratas adicionales en lugar de tener que pagar mucho dinero por un gran servidor. Sin embargo, existe un punto donde podría haber algún tipo de fricción: las copias de seguridad y su posterior recuperación.

 

Problema y solución de backups en bases de datos distribuidas de Big Data

Los productos de backup tradicionales tienen problemas con cantidades muy grandes de datos. La naturaleza escalable de la arquitectura también puede ser difícil de manejar para las aplicaciones de copia de seguridad tradicionales.

 

KYO - CTA Texto - DM



Hoy en día, las bases de datos escalables horizontalmente incluyen algunas capacidades de disponibilidad y recuperación, pero no son tan robustas como las que estamos acostumbrados en los sistemas tradicionales.

Se trata de un problema que puede dejar a las grandes empresas vulnerables cuando se producen interrupciones. No obstante, también es una oportunidad para una nueva clase de productos de protección de datos que empieza a aparecer. Este es el caso de RecoverX de la compañía Datos IO.

RecoverX es un producto de nueva generación que permite copias de seguridad cuando tenemos datos distribuidos entre varias máquinas pequeñas.  En estos casos, los productos tradicionales de copias de seguridad no pueden darte la solución.

Aquí ya no existe el concepto de log duradero porque no hay master. Cada nodo está trabajando en sus propias cosas. Diferentes nodos podrían tener diferentes privilegios y cada nodo tiene una vista diferente de una operación.

Eso es en parte debido al requerimiento de tener en cuenta lo que comúnmente se conoce como las tres V de grandes datos; volumen, velocidad y variedad. Más concretamente, para ofrecer escalabilidad mientras se alojan enormes cantidades de datos diversos que llegan a velocidades cada vez más alarmantes, las base de datos distribuidas se han tenido que alejar de los criterios ACID (Atomicity, Consistency, Isolation, Durability) que utilizan las bases de datos relacionales tradicionales. En su lugar, han adoptado lo que se conoce como principios  BASE (Basically Available, Soft state, Eventual consistency).

Se trata de una distinción crítica: lo más importante es que donde las bases de datos tradicionales prometen una consistencia fuerte en todo (la C de ACID), las base de datos distribuidas se esfuerzan en lo que se llama consistencia eventual. Las actualizaciones se reflejarán en todos los nodos de la base de datos tarde o temprano, pero hay un retraso de tiempo.

Si necesitas escalabilidad, necesitas renunciar a la consistencia. Tienes que renunciar a una u otra. Eso hace que sea difícil obtener una copia de seguridad fiable y completa de la base de datos de big data para poder hacer una recuperación justo cuando se necesita. No solo es difícil rastrear qué datos podrían haberse movido en una base de datos distribuida en un momento dado, sino que además es difícil estar protegido si los datos se corrompen.

Y esto es lo que trata de solucionar Datos IO con RecoverX. Intenta abordar esas preocupaciones a través de características que incluyen lo que ellos llaman versiones escalables o de deduplicación semántica. El resultado son copias de seguridad de base de datos distribuidas que son eficientes en cuanto a espacio y disponibles en formatos nativos.

 

KYO - CTA horizontal - Estrategia de datos

Compartir