Conceptos generales y diseño de los DWH (Almacén de datos).


Características de los DWH (Almacén de datos).

  1. Orientada a un tema. Tema como cliente, proveedor, producto, venta. En lugar de procesamiento de transacciones de una organización.
  2. Integrada. Usualmente se construye integrando múltiples fuentes heterogéneas. Se requieren técnicas de limpieza e integración de datos para asegurar la consistencia entre los datos.
  3. Históricos. Los datos se almacenan para proporcionar información desde una perspectiva histórica. Cada elementos clave contiene explícita o implícitamente un elemento de tiempo.
  4. No volátil. No requiere mecanismos para procesamiento de transacciones, recuperación y control de concurrencia. Sólo requiere dos operaciones para accesar los datos: carga iniciar y acceso de datos.
  5. Usa procesamiento analítico en línea(OLAP). Menos consultas pero más grandes, lecturas frecuentes, actualizaciones frecuentes(diariamente, semanalmente), operaciones de lectura o actualización(en dos faces), grandes volúmenes de datos(colección de datos históricos), modelo de datos sencillo(multidimensional/de-normalizado)
  6. Calidad de datos. Diferentes fuentes típicamente utilizan diferentes representaciones, códigos y formatos de datos que deben ser unificados. Y así garantizar una mejor calidad en los datos.

¿Por qué se considera que es necesaria la integración de los datos en un DWH y no en una aplicación de base de datos?

Ya que esta toma los datos de diferentes fuentes heterogéneas, lo que nos permite hacer un proceso de limpiar los datos y tener un calidad de ellos, además de transformarlos. Para finalmente obtener información de estos, que es la parte que interesa para la toma decisiones. Si no integramos estos datos en un DWH tendríamos mala calidad de datos, las fuentes serían heterogéneas lo cual tendría malas repercusiones para obtener la información ya que hay dispersión por las diferentes fuentes, los datos serían volátiles.

Esto nos lleva a tener un alto rendimiento para los propósitos que tenemos, los cuales son: consultas complejas, vistas multidimensionales y consolidación.

Principales tipos de meta datos que se encuentran en un DWH.

  1. Operacionales: se refieren a los metadatos generados y capturados cuando se ejecuta un proceso. Permite que los administradores gestionen su sistema y aseguran que las cosas funcionen sin problemas. Si hay un problema con algún proceso, los metadatos operacionales también ayudan a los administradores a identificar y localizar los problemas.
    Ejemplos: información acerca de la ejecución de las aplicaciones, incluyendo la frecuencia, conteos de registro, un análisis de componente por componente y otras estadísticas con fines de auditoría.
  2. Extracción y transformación: describen la despensa o el almacén de datos de destino.
  3. Para el usuario final: ayudan al usuario a acceder al almacén de datos con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.

¿Qué es la arquitectura de un DWH y cómo funciona?

Son los diferentes entornos por lo que pasan los datos desde las fuentes hasta un almacén de datos, estos son:

  1. Fuentes de datos: es el origen de los datos, estos pueden ser sistemas OLTP(sistemas que son diseñados para trabajar de forma independiente), archivos de texto, sistemas heredados, hojas de cálculo, archivo en papel, etc.
  2. Preparación de datos: es el área intermedia donde se realizan la transformación, integración y limpieza de los datos. Estos procesos se llevan a cabo entre las fuentes y el almacén de datos. Esto es con el fin de mejorar y asegurar la calidad de los datos. Además aquí se encuentra el monitor, se almacena los datos y tiene la capacidad de re-cargar los datos que llegaron a esta etapa. Dentro de esta etapa se encuentra los siguientes pasos:
    1. Monitor: determina cambios en los datos. Captura los cambios en el contenido de los datos de los sistemas de origen(no suele hacer hacerse en la carga inicial pero si posteriormente). En otras palabras, su objetivo es descubrir cambios en las fuentes de datos de forma incremental.
    2. Extracción: Se identifica las fuentes de datos a las cuales se les realizara los procesos ETL para después ser procesados.
    3. Transformación: convierte los datos en algo que sea representable y con valor para el negocio, esto involucra el análisis de: Limpieza de Datos, Datos no existentes, Datos extremos e Integración de esquemas.
    4. Carga: almacena los datos de forma rápida en el DWH. Ya sea actualización ó carga masiva.

Diseño de almacén de datos: esquema estrella, copo de nieve y constelación.

  1. Esquema estrella: es una estructura que consta de una tabla central de hechos y varias dimensiones, estas están relacionadas a la tabla de hechos. Lo característico de esta arquitectura es que sólo existe una tabla de dimensiones para cada dimensión. En otras palabras, la única tabla que tiene relación con otra es la de hechos, lo que significa que toda la información relacionada con una dimensión debe estar en una sola tabla.
  2. Copo de nieve: es una variación o derivación del modelo estrella, en esta estructura la tabla de hechos deja de ser la única relaciona con otras tablas ya que existen otras tablas que se relacionan con las dimensiones y que no tienen relación directa con la tabla de hechos. Este modelo hace que la extracción de datos sea más difícil así como vuelve compleja la tarea de mantener el modelo.
  3. Constelación: es una combinación de un esquema de estrella y un esquema de copo de nieve. Esta estructura son esquemas de copo de nieve en los que sólo algunas de las tablas de dimensiones se han desnormalizado. Las jerarquías de los esquemas de estrella están desnormalizadas, mientras que las jerarquías de los esquemas de copo de nieve están normalizadas. Para normalizar el esquema, las jerarquías dimensionales compartidas se colocan en outriggers(entidad unida a otras tablas de dimensiones).

Un DWH es orientado a un tema. ¿Cuales podrán ser los aspectos críticos en las siguientes organizaciones?

  1. una compañía manufacturera internacional. Las ventas(hecho), producto, locación de manufacturación, tiempo, comprador, vendedor.Estas últimas como dimensiones.
  2. un banco de una comunidad local. Cuentahabiente(hecho), saldo, tiempo, transacción, etc. Estas últimas como dimensiones.
  3. una cadena hotelera nacional. Ventas(hecho), tiempo, hotel, perfil del huésped, etc. Estos últimos como dimensiones. Cabe aclarar, que el hecho es el enfoque del análisis mientras las dimensiones son los factores por lo que se analiza un determinado área del negocio. Y esto viene dado de lo que se quiere analizar.

Comentarios