TIPOS DE OLAP

20 oct 2015
6 Min. de lectura

TIPOS DE OLAP

Tradicionalmente los sistemas OLAP se clasifican en las siguientes categorías:

ROLAP

La implementación OLAP almacena los datos en un botón relacional llamado ROLAP los datos son detallados evitando las agregaciones y las tablas que se encuentran normalizadas, los esquemas más comunes son de estrella y copo de nieve aunque es posible de trabajar sobre cualquier base de datos relacional. La arquitectura de esta se compone de un servidor de banco de datos relacional y el botón OLAP se encuentra en el servidor dedicado. La principal ventaja de esta arquitectura es que permite el análisis de una enorme cantidad de datos.

La arquitectura ROLAP excede a los datos relacionados para proporcionar los análisis OLAP. La primicia de los sistemas ROLAP es que las capacidades OLAP se ejecutan mejor contra las bases de datos relacionales.

Utiliza una arquitectura de tres niveles:

Nivel Base De Datos: Usa base de datos relacionales para el manejo, acceso y obtención de datos.
Nivel de Aplicación: Ejecuta las consultas multidimensionales de los usuarios.
3 Motor Rolap: Se integra con niveles de presentación atreves de los cuales los usuarios realizan un análisis OLAP.

MOLAP

Esta almacena los datos de una base de datos multidimensional. Para utilizar los tiempos de respuesta, hacer resúmenes de información calculados por adelantado y un sinfín de operaciones utilizadas de forma multidimensional para proporcionar el análisis su principal premisa es que OLAP esta mejor implantado almacenando los datos multidimensionales.

El sistema MOLAP utiliza una arquitectura de 2 niveles, la base de datos multidimensional y el motor analítico.

Los servidores de bases de datos multidimensionales (MDDs) deben tener un mecanismo para poder consultar cada nivel de desagregación y debe tener la capacidad de excavar en estos niveles con el fin de poder analizar detalladamente los datos. No implica esta tecnología que las bases de datos relacionales no sirvan para consultas complejas ni que no soporten consultas OLAP. Lo hacen pero en una forma ineficiente y su costo/efectividad y su facilidad de uso no son tan buenos como en las bases de datos multidimensionales.

Cubos e hipercubos de datos

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante “tablas dinámicas” en una hoja de cálculo o a ravés de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.

Dimensiones

Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos.

Variables

También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas.

Estructuras no-jerárquicas y jerárquicas de los datos

Una Base de datos jerárquica es un tipo de Sistema Gestor de Bases de Datos que, como su nombre indica, almacenan la información en una estructura jerárquica que enlaza los registros en forma de estructura de árbol (similar a un árbol visto al revés), en donde un nodo padre de información puede tener varios nodos hijo.

Esta relación jerárquica no es estrictamente obligatoria, de manera que pueden establecerse relaciones entre nodos hermanos. En este caso la estructura en forma de árbol se convierte en una estructura en forma de grafo dirigido. Esta variante se denomina Bases de datos de red.

El modelo jerárquico facilita relaciones padre-hijo, es decir, relaciones 1:N (de uno a varios) del modelo relacional. Pero a diferencia de éste último, las relaciones son unidireccionales. En justicia, dichas relaciones son hijo-padre, pero no padre-hijo. Por ejemplo, el registro de un empleado (nodo hijo) puede relacionarse con el registro de su departamento (nodo padre), pero no al contrario. Esto implica que solamente se puede consultar la base de datos desde los nodos hoja hacia el nodo raíz. La consulta en el sentido contrario requiere una búsqueda secuencial por todos los registros de la base de datos (por ejemplo, para consultar todos los empleados de un departamento). En las bases de datos jerárquicas no existen índices que faciliten esta tarea.

Obsérvese que, a priori, no existen relaciones N:M (de muchos a muchos) en el modelo jerárquico. Salvo que se simulen mediante varias relaciones 1:N. No obstante, esto puede provocar problemas de inconsistencia, ya que el gestor de base de datos no controla estas relaciones.

Limitaciones del modelo jerárquico

A continuación se mencionan los problemas típicos de las bases de datos jerárquicas y que no existen en las bases de datos relacionales. Todos estos problemas derivan del hecho de que el sistema gestor de base de datos no implementa ningún control sobre los propios datos, sino que queda en manos de las aplicaciones garantizar que se cumplen las condiciones invariantes que se requieran (por ejemplo, evitar la duplicidad de registros). Dado que todas las aplicaciones están sujetas a errores y fallos, esto es imposible en la práctica. Además dichas condiciones suelen romperse ex profeso por motivos operativos (generalmente, ajustes debidos a cambios en el negocio) sin evaluarse sus consecuencias.

Duplicidad de registros

No se garantiza la inexistencia de registros duplicados. Esto también es cierto para los campos “clave”. Es decir, no se garantiza que dos registros cualesquiera tengan diferentes valores en un subconjunto concreto de campos.

Integridad referencial

No existe garantía de que un registro hijo esté relacionado con un registro padre válido. Por ejemplo, es posible borrar un nodo padre sin eliminar antes los nodos hijo, de manera que éstos últimos están relacionados con un registro inválido o inexistente.

Desnormalización

Este no es tanto un problema del modelo jerárquico como del uso que se hace de él. Sin embargo, a diferencia del modelo relacional, las bases de datos jerárquicas no tienen controles que impidan la desnormalización de una base de datos. Por ejemplo, no existe el concepto de campos clave o campos únicos.

Consultas multidimensionales de datos

Una de las herramientas más utilizadas por las empresas son las aplicaciones OLAP, ya que las mismas han sido creadas en función a bases de datos multidimensionales, que permiten procesar grandes volúmenes de información, en campos bien definidos, y con un acceso inmediato a los datos para su consulta y posterior análisis.

Las consultas en la base de datos constan de archivos que permiten realizar muchas tareas diferentes con los datos. Se pueden utilizar las consultas para controlar los campos de datos que se pueden ver. También se pueden utilizar las consultas para controlar los registros que visualiza en la base de datos. Las consultas pueden cambiar el orden de presentación de datos y pueden incluso actualizarlos. Las consultas no contienen información de la base de datos, sino tan solo las instrucciones necesarias para seleccionar los registros y campos requeridos de una base de datos.

Para complementar la información previamente proporcionada siga el link, es un video que en su corto tiempo de duración logra abarcar gran parte del contenido relacionado con el tema:

https://www.youtube.com/watch?v=j0kl1vZjsGE