¿Qué es el almacén de datos? Tipos, definición y ejemplo

¿Qué es el almacenamiento de datos?

A Almacenamiento de datos (DW) es un proceso para recopilar y gestionar datos de diversas fuentes para proporcionar información empresarial significativa. Un almacén de datos se utiliza normalmente para conectar y analizar datos empresariales de fuentes heterogéneas. El almacén de datos es el núcleo del sistema de BI, que está diseñado para el análisis y la elaboración de informes de datos.

Es una combinación de tecnologías y componentes que facilita el uso estratégico de los datos. Es el almacenamiento electrónico de una gran cantidad de información por parte de una empresa, diseñado para consultas y análisis en lugar de procesamiento de transacciones. Es un proceso de transformación de datos en información y de puesta a disposición de los usuarios de manera oportuna para marcar la diferencia.

La base de datos de apoyo a la toma de decisiones (almacén de datos) se mantiene por separado de la base de datos operativa de la organización. Sin embargo, el almacén de datos no es un producto sino un entorno. Es una construcción arquitectónica de un sistema de información que proporciona a los usuarios información de apoyo a la toma de decisiones actual e histórica a la que es difícil acceder o presentar en el almacén de datos operativo tradicional.

Como muchos saben, una base de datos diseñada por 3NF para un sistema de inventario tiene muchas tablas relacionadas entre sí. Por ejemplo, un informe sobre información de inventario actual puede incluir más de 12 condiciones combinadas. Esto puede ralentizar rápidamente el tiempo de respuesta de la consulta y el informe. Un almacén de datos proporciona un nuevo diseño que puede ayudar a reducir el tiempo de respuesta y ayuda a mejorar el rendimiento de las consultas de informes y análisis.

El sistema de almacenamiento de datos también se conoce con el siguiente nombre:

  • Sistema de soporte de decisiones (DSS)
  • Sistema de información ejecutiva
  • Sistema de Información de gestión
  • Solución de inteligencia empresarial
  • Aplicación analítica
  • Almacenamiento de Datos

Almacenamiento de datos

Historia del almacén de datos

El almacenamiento de datos beneficia a los usuarios para comprender y mejorar el rendimiento de su organización. La necesidad de almacenar datos evolucionó a medida que los sistemas informáticos se volvieron más complejos y necesitaban manejar cantidades cada vez mayores de información. Sin embargo, el almacenamiento de datos no es algo nuevo.

A continuación se muestran algunos eventos clave en la evolución del almacén de datos:

  • 1960- Dartmouth y General Mills en un proyecto de investigación conjunto, desarrollan los términos dimensiones y hechos.
  • 1970- Nielsen e IRI introducen los mercados de datos dimensionales para las ventas minoristas.
  • 1983: Tera Data Corporation presenta un sistema de gestión de bases de datos diseñado específicamente para apoyar la toma de decisiones.
  • El almacenamiento de datos comenzó a finales de los años 1980, cuando IBM El trabajador Paul Murphy y Barry Devlin desarrollaron Business Data Warehouse.
  • Sin embargo, el concepto real lo dio Inmon. Bill. Fue considerado el padre del almacén de datos. Había escrito sobre una variedad de temas para la construcción, uso y mantenimiento del almacén y la Fábrica de Información Corporativa.

¿Cómo funciona el almacén de datos?

Un Data Warehouse funciona como un repositorio central donde llega la información de una o más fuentes de datos. Los datos fluyen hacia un almacén de datos desde el sistema transaccional y otras bases de datos relacionales.

Los datos pueden ser:

  1. Estructurado
  2. semiestructurado
  3. Datos no estructurados

Los datos se procesan, transforman e ingieren para que los usuarios puedan acceder a los datos procesados ​​en el Data Warehouse a través de herramientas de Business Intelligence, clientes SQL y hojas de cálculo. Un almacén de datos combina información procedente de diferentes fuentes en una base de datos completa.

Al fusionar toda esta información en un solo lugar, una organización puede analizar a sus clientes de manera más integral. Esto ayuda a garantizar que ha considerado toda la información disponible. El almacenamiento de datos hace posible la extracción de datos. La minería de datos busca patrones en los datos que puedan generar mayores ventas y ganancias.

Tipos de almacén de datos

Tres tipos principales de almacenes de datos (DWH) son:

1. Almacén de datos empresariales (EDW):

Enterprise Data Warehouse (EDW) es un almacén centralizado. Proporciona un servicio de soporte a la toma de decisiones en toda la empresa. Ofrece un enfoque unificado para organizar y representar datos. También brinda la posibilidad de clasificar datos según el tema y dar acceso según esas divisiones.

2. OperaAlmacén de datos opcional:

OperaEl almacén de datos nacional, también llamado ODS, no es más que un almacén de datos necesario cuando ni el almacén de datos ni los sistemas OLTP respaldan las necesidades de informes de las organizaciones. En ODS, el almacén de datos se actualiza en tiempo real. Por lo tanto, es ampliamente preferido para actividades rutinarias como almacenar registros de los empleados.

3. Centro de datos:

A data mart es un subconjunto del almacén de datos. Está especialmente diseñado para una línea de negocio particular, como ventas, finanzas, ventas o finanzas. En un mercado de datos independiente, los datos se pueden recopilar directamente de las fuentes.

Etapas generales del Data Warehouse

Anteriormente, las organizaciones comenzaron a utilizar el almacenamiento de datos de forma relativamente sencilla. Sin embargo, con el tiempo, comenzó un uso más sofisticado del almacenamiento de datos.

A continuación se presentan las etapas generales de utilización del almacén de datos (DWH):

Sin publicar OperaBase de datos nacional:

En esta etapa, los datos simplemente se copian de un sistema operativo a otro servidor. De esta manera, la carga, el procesamiento y la generación de informes de los datos copiados no afectan el rendimiento del sistema operativo.

Almacén de datos fuera de línea:

Los datos del Datawarehouse se actualizan periódicamente desde el OperaBase de datos nacional. Los datos en Datawarehouse se mapean y transforman para cumplir con los objetivos de Datawarehouse.

Almacén de datos en tiempo real:

En esta etapa, los almacenes de datos se actualizan cada vez que se produce una transacción en la base de datos operativa. Por ejemplo, un sistema de reservas de líneas aéreas o de trenes.

Almacén de datos integrado:

En esta etapa, los almacenes de datos se actualizan continuamente cuando el sistema operativo realiza una transacción. El almacén de datos genera transacciones que se devuelven al sistema operativo.

Componentes del almacén de datos

Cuatro componentes de los almacenes de datos son:

Administrador de carga: El gestor de carga también se denomina componente frontal. Se encarga de todas las operaciones asociadas con la extracción y carga de datos en el almacén. Estas operaciones incluyen transformaciones para preparar los datos para su ingreso al almacén de datos.

Jefe de almacén: El administrador del almacén realiza operaciones asociadas con la gestión de los datos del almacén. Realiza operaciones como el análisis de datos para garantizar la coherencia, la creación de índices y vistas, la generación de desnormalizaciones y agregaciones, la transformación y fusión de datos de origen y el archivado y almacenamiento de datos.

Administrador de consultas: El administrador de consultas también se conoce como componente backend. Realiza todas las operaciones relacionadas con la gestión de consultas de los usuarios. Las operaciones de este componente del almacén de datos son consultas directas a las tablas adecuadas para programar la ejecución de las consultas.

Herramientas de acceso de usuarios finales:

Esto se clasifica en cinco grupos diferentes, como 1. Informes de datos 2. Herramientas de consulta 3. Herramientas de desarrollo de aplicaciones 4. Herramientas EIS, 5. Herramientas OLAP y herramientas de minería de datos.

¿Quién necesita el almacén de datos?

DWH (almacén de datos) es necesario para todo tipo de usuarios como:

  • Tomadores de decisiones que dependen de una gran cantidad de datos
  • Usuarios que utilizan procesos complejos y personalizados para obtener información de múltiples fuentes de datos.
  • También lo utilizan personas que desean tecnología simple para acceder a los datos.
  • También es esencial para aquellas personas que desean un enfoque sistemático para la toma de decisiones.
  • Si el usuario desea un rendimiento rápido con una gran cantidad de datos, lo cual es necesario para informes, cuadrículas o gráficos, entonces el almacén de datos resulta útil.
  • El almacén de datos es un primer paso si desea descubrir "patrones ocultos" de flujos y agrupaciones de datos.

¿Para qué se utiliza un almacén de datos?

A continuación se detallan los sectores más comunes donde se utiliza el almacenamiento de datos:

Aerolínea:

En el sistema de aerolíneas, se utiliza para fines operativos como asignación de tripulación, análisis de rentabilidad de rutas, promociones de programas de viajero frecuente, etc.

Bancario:

Se utiliza ampliamente en el sector bancario para gestionar eficazmente los recursos disponibles en el mostrador. Algunos bancos también lo utilizan para la investigación de mercado, el análisis del rendimiento de los productos y las operaciones.

Cuidado de la salud:

El sector de la salud también utilizó el almacén de datos para elaborar estrategias y predecir resultados, generar informes de tratamiento de pacientes, compartir datos con compañías de seguros vinculadas, servicios de asistencia médica, etc.

Sector público:

En el sector público, el almacén de datos se utiliza para recopilar inteligencia. Ayuda a las agencias gubernamentales a mantener y analizar registros de impuestos y registros de políticas de salud de cada individuo.

Sector de Inversiones y Seguros:

En este sector, los almacenes se utilizan principalmente para analizar patrones de datos, tendencias de clientes y para rastrear los movimientos del mercado.

Retener cadena:

En las cadenas minoristas, el almacenamiento de datos se utiliza ampliamente para la distribución y el marketing. También ayuda a realizar un seguimiento de los artículos, los patrones de compra de los clientes y las promociones, y también se utiliza para determinar la política de precios.

Telecomunicación:

En este sector se utiliza un almacén de datos para promociones de productos, decisiones de ventas y para tomar decisiones de distribución.

Industria de la hospitalidad:

Esta industria utiliza servicios de almacén para diseñar y estimar sus campañas de publicidad y promoción donde desean llegar a los clientes en función de sus comentarios y patrones de viaje.

Pasos para implementar el almacén de datos

La mejor manera de abordar el riesgo comercial asociado con la implementación de un Datawarehouse es emplear una estrategia de tres puntas como se muestra a continuación.

  1. estrategia empresarial:Aquí identificamos aspectos técnicos, como la arquitectura y las herramientas actuales. También identificamos hechos, dimensiones y atributos. También se pasa al mapeo y transformación de datos.
  2. Entrega por fases:La implementación del almacén de datos debe realizarse en fases según las áreas temáticas. Las entidades comerciales relacionadas, como las de reserva y facturación, deben implementarse primero y luego integrarse entre sí.
  3. Creación de prototipos iterativos: En lugar de un enfoque de implementación a lo grande, el Datawarehouse debe desarrollarse y probarse de forma iterativa.

A continuación se detallan los pasos clave en la implementación de Datawarehouse junto con sus resultados.

Paso tareas Lo que recibe el cliente
1 Necesidad de definir el alcance del proyecto. Definicion del alcance
2 Necesidad de determinar las necesidades del negocio. Modelo de datos lógicos
3 Definición Operarequisitos adicionales del almacén de datos OperaModelo de almacén de datos nacional
4 Adquirir o desarrollar herramientas de extracción. Extraer herramientas y software
5 Definir los requisitos de datos del almacén de datos Modelo de datos de transición
6 Documento datos faltantes Lista de proyectos por hacer
7 Mapas OperaAlmacén de datos opcional a almacén de datos Mapa de integración de datos D/W
8 Desarrollar el diseño de la base de datos del almacén de datos. Diseño de base de datos D/W
9 Extraer datos de OperaAlmacén de datos opcional Extractos de datos D/W integrados
10 Cargar almacén de datos Carga de datos inicial
11 Mantener el almacén de datos Acceso continuo a datos y cargas posteriores

Mejores prácticas para implementar un Data Warehouse

  • Decida un plan para probar la coherencia, precisión e integridad de los datos.
  • El almacén de datos debe estar bien integrado, bien definido y con marca de tiempo.
  • Al diseñar Datawarehouse, asegúrese de utilizar la herramienta adecuada, atenerse al ciclo de vida, tener cuidado con los conflictos de datos y estar preparado para aprender cuáles son sus errores.
  • Nunca reemplace los sistemas operativos y los informes
  • No dedique demasiado tiempo a extraer, limpiar y cargar datos.
  • Asegúrese de involucrar a todas las partes interesadas, incluido el personal comercial, en el proceso de implementación del Datawarehouse. Establecer que el almacenamiento de datos es un proyecto conjunto o en equipo. No desea crear un almacén de datos que no sea útil para los usuarios finales.
  • Elaborar un plan de capacitación para los usuarios finales.

¿Por qué necesitamos un almacén de datos? Ventajas desventajas

Ventajas del almacén de datos (DWH):

  • El almacén de datos permite a los usuarios empresariales acceder rápidamente a datos críticos de algunas fuentes, todo en un solo lugar.
  • El almacén de datos proporciona información consistente sobre diversas actividades multifuncionales. También admite consultas y informes ad hoc.
  • Data Warehouse ayuda a integrar muchas fuentes de datos para reducir el estrés en el sistema de producción.
  • El almacén de datos ayuda a reducir el tiempo total de respuesta para análisis e informes.
  • La reestructuración y la integración facilitan al usuario su uso para informes y análisis.
  • El almacén de datos permite a los usuarios acceder a datos críticos de varias fuentes en un solo lugar. Por lo tanto, le ahorra tiempo al usuario al recuperar datos de múltiples fuentes.
  • El almacén de datos almacena una gran cantidad de datos históricos. Esto ayuda a los usuarios a analizar diferentes períodos de tiempo y tendencias para hacer predicciones futuras.

Desventajas del almacén de datos:

  • No es una opción ideal para datos no estructurados.
  • La creación e implementación de un almacén de datos seguramente es un asunto que confunde el tiempo.
  • El almacén de datos puede quedar obsoleto con relativa rapidez
  • Es difícil realizar cambios en tipos y rangos de datos, esquema de fuente de datos, índices y consultas.
  • El almacén de datos puede parecer fácil, pero en realidad es demasiado complejo para el usuario promedio.
  • A pesar de los mejores esfuerzos en la gestión de proyectos, el alcance del proyecto de almacenamiento de datos siempre aumentará.
  • En algún momento, los usuarios del almacén desarrollarán diferentes reglas comerciales.
  • Las organizaciones necesitan gastar muchos de sus recursos para fines de capacitación e implementación.

El futuro del almacenamiento de datos

  • Cambiar en Restricciones regulatorias puede limitar la capacidad de combinar fuentes de datos dispares. Estas fuentes dispares pueden incluir datos no estructurados que son difíciles de almacenar.
  • A este tenor, tamaño A medida que el número de bases de datos aumenta, las estimaciones de lo que constituye una base de datos muy grande continúan creciendo. Es complejo construir y ejecutar sistemas de almacenamiento de datos que siempre aumentan de tamaño. Los recursos de hardware y software disponibles hoy en día no permiten mantener una gran cantidad de datos en línea.
  • datos multimedia no pueden manipularse fácilmente como datos de texto, mientras que la información textual puede recuperarse mediante el software relacional disponible en la actualidad. Este podría ser un tema de investigación.

Herramientas de almacenamiento de datos

Hay muchas herramientas de almacenamiento de datos disponibles en el mercado. Éstos son algunos de los más destacados:

1. MarkLogic:

MarkLogic es una solución de almacenamiento de datos útil que facilita y acelera la integración de datos mediante una variedad de funciones empresariales. Esta herramienta ayuda a realizar operaciones de búsqueda muy complejas. Puede consultar distintos tipos de datos, como documentos, relaciones y metadatos.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle es la base de datos líder en la industria. Ofrece una amplia gama de opciones de soluciones de almacenamiento de datos tanto locales como en la nube. Ayuda a optimizar las experiencias de los clientes aumentando la eficiencia operativa.

https://www.oracle.com/index.html

3. Amazon RojoShift:

Amazon Redshift es una herramienta de almacenamiento de datos. Es una herramienta sencilla y rentable para analizar todo tipo de datos utilizando bases de datos estándar. SQL y herramientas de BI existentes. También permite ejecutar consultas complejas sobre petabytes de datos estructurados, utilizando la técnica de optimización de consultas.

https://aws.amazon.com/redshift/?nc2=h_m1

Aquí hay una lista completa de útiles Herramientas de almacén de datos.

APRENDIZAJE CLAVE

  • El almacén de datos (DWH), también se conoce como almacén de datos empresarial (EDW).
  • Un Data Warehouse se define como un depósito central donde la información proviene de una o más fuentes de datos.
  • Tres tipos principales de almacenes de datos son Enterprise Data Warehouse (EDW), OperaAlmacén de datos nacional y Data Mart.
  • El estado general de un almacén de datos es Desconectado OperaBase de datos nacional, almacén de datos fuera de línea, almacén de datos en tiempo real y almacén de datos integrado.
  • Cuatro componentes principales de Datawarehouse son el administrador de carga, el administrador de almacén, el administrador de consultas y las herramientas de acceso del usuario final.
  • El almacén de datos se utiliza en diversas industrias como aerolíneas, banca, atención médica, seguros, comercio minorista, etc.
  • La implementación de un almacén de datos es una estrategia de tres pasos: estrategia empresarial, entrega por fases y creación de prototipos iterativos.
  • El almacén de datos permite a los usuarios empresariales acceder rápidamente a datos críticos de algunas fuentes, todo en un solo lugar.