¿Qué es el Almacenamiento de Datos?
Un Data Warehousing (DW) es un proceso para recopilar y administrar datos de diversas fuentes para proporcionar información empresarial significativa. Un almacén de datos se utiliza normalmente para conectar y analizar datos empresariales de fuentes heterogéneas. El almacén de datos es el núcleo del sistema de BI que se construye para el análisis de datos y la presentación de informes.
es una mezcla de tecnologías y componentes que ayuda al uso estratégico de los datos., Es el almacenamiento electrónico de una gran cantidad de información por un negocio que está diseñado para consultas y análisis en lugar de procesamiento de transacciones. Es un proceso de transformación de datos en información y ponerlos a disposición de los usuarios de manera oportuna para marcar la diferencia.
en este tutorial de Data Warehouse (DWH), aprenderá más sobre-
- Historia de Datawarehouse
- ¿Cómo funciona Datawarehouse?
- Tipos de Data Warehouse (DWH)
- etapas Generales de Almacén de Datos
- Componentes de almacén de Datos
- Que las necesidades de almacén de Datos?,
- ¿Para qué se utiliza un almacén de datos?
- pasos para implementar Data Warehouse
- mejores prácticas para implementar un Data Warehouse
- ¿Por qué necesitamos Data Warehouse? Ventajas & desventajas
- El futuro del almacenamiento de datos
- Herramientas de almacenamiento de datos
La base de datos de soporte de decisiones (Data Warehouse) se mantiene por separado de la base de datos operativa de la organización. Sin embargo, el almacén de datos no es un producto sino un entorno., Es una construcción arquitectónica de un sistema de información que proporciona a los usuarios información actual e histórica de apoyo a la decisión que es difícil de acceder o presente en el almacén de datos operativos tradicional.
muchos saben que una base de datos diseñada por 3NF para un sistema de inventario muchos tienen tablas relacionadas entre sí. Por ejemplo, un informe sobre la información actual del inventario puede incluir más de 12 condiciones Unidas. Esto puede ralentizar rápidamente el tiempo de respuesta de la consulta y el informe., Un almacén de datos proporciona un nuevo diseño que puede ayudar a reducir el tiempo de respuesta y ayuda a mejorar el rendimiento de las consultas para informes y análisis.,
el sistema de almacén de datos también se conoce con el siguiente nombre:
- Sistema de apoyo a la decisión (DSS)
- Sistema de información Ejecutiva
- Sistema de información de gestión
- Solución de Inteligencia empresarial
- Aplicación Analítica
- almacén de datos
historia de Datawarehouse
Datawarehouse beneficia a los usuarios para comprender y mejorar el rendimiento de su organización., La necesidad de almacenar datos evolucionó a medida que los sistemas informáticos se hicieron más complejos y necesitaron manejar cantidades cada vez mayores de información. Sin embargo, el almacenamiento de datos no es algo nuevo.
Aquí hay algunos eventos clave en la evolución de Data Warehouse-
- 1960-Dartmouth y General Mills en un proyecto de investigación conjunto, desarrollan los Términos dimensiones y hechos.
- 1970-a Nielsen e IRI presentan dimensional data marts para ventas minoristas.,
- 1983 – TERA Data Corporation presenta un sistema de gestión de bases de datos que está específicamente diseñado para el soporte de decisiones
- El almacenamiento de datos comenzó a finales de la década de 1980 cuando el trabajador de IBM Paul Murphy y Barry Devlin desarrollaron el almacén de datos empresariales.
- Sin embargo, el concepto real fue dado por Inmon Bill. Fue considerado como padre de data warehouse. Había escrito sobre una variedad de temas para la construcción, uso y mantenimiento del almacén & la fábrica de Información Corporativa.
¿cómo funciona Datawarehouse?,
un almacén de datos funciona como un repositorio central donde la información llega de una o más fuentes de datos. Los datos fluyen hacia un almacén de datos desde el sistema transaccional y otras bases de datos relacionales.
Los datos pueden ser:
- estructurados
- semiestructurados
- datos no estructurados
los datos se procesan, transforman e ingieren para que los usuarios puedan acceder a los datos procesados en el almacén de datos a través de herramientas de Inteligencia Empresarial, Clientes SQL y hojas de cálculo., Un almacén de datos fusiona información procedente de diferentes fuentes en una base de datos completa.
al combinar toda esta información en un solo lugar, una organización puede analizar a sus clientes de manera más integral. Esto ayuda a garantizar que ha considerado toda la información disponible. El almacenamiento de datos hace posible la minería de datos. La minería de datos está buscando patrones en los datos que pueden conducir a mayores ventas y ganancias.
tipos de almacenes de datos
tres tipos principales de almacenes de datos (DWH) son:
1., Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) es un almacén centralizado. Proporciona servicio de soporte de decisiones en toda la empresa. Ofrece un enfoque unificado para organizar y representar datos. También proporciona la capacidad de clasificar los datos de acuerdo con el tema y dar acceso de acuerdo con esas divisiones.
2. Almacén de datos operacionales:
El Almacén de datos operacionales, que también se llama ODS, no es más que un almacén de datos requerido cuando ni el almacén de datos ni los sistemas OLTP apoyan las necesidades de presentación de informes de las organizaciones., En ODS, el almacén de datos se actualiza en tiempo real. Por lo tanto, es ampliamente preferido para actividades rutinarias como almacenar registros de los empleados.
3. Data Mart:
Un Data mart es un subconjunto del almacén de datos. Está especialmente diseñado para una línea de negocio en particular, como ventas, finanzas, ventas o finanzas. En un data mart independiente, los datos pueden recopilarse directamente de las fuentes.
etapas generales del almacén de datos
anteriormente, las organizaciones comenzaron a utilizar de forma relativamente sencilla el almacenamiento de datos. Sin embargo, con el tiempo, comenzó un uso más sofisticado del almacenamiento de datos.,
las siguientes son las etapas generales de uso del almacén de datos (DWH):
base de datos operativa fuera de línea:
en esta etapa, los datos se copian de un sistema operativo a otro servidor. De esta manera, la carga, el procesamiento y la presentación de informes de los datos copiados no afectan el rendimiento del sistema operativo.
almacén de datos fuera de línea:
los datos en el Datawarehouse se actualizan regularmente desde la base de datos operativa. Los datos en Datawarehouse se mapean y transforman para cumplir con los objetivos de Datawarehouse.,
almacén de datos en tiempo Real:
en esta etapa, los almacenes de datos se actualizan cada vez que se realiza cualquier transacción en la base de datos operativa. Por ejemplo, el sistema de reservas de líneas aéreas o ferroviarias.
almacén de datos integrado:
en esta etapa, los almacenes de datos se actualizan continuamente cuando el sistema operativo realiza una transacción. A continuación, el Datawarehouse genera transacciones que se devuelven al sistema operativo.
componentes del almacén de datos
cuatro componentes de los almacenes de datos son:
gestor de carga: el Gestor de carga también se denomina componente frontal., Realiza con todas las operaciones asociadas a la extracción y carga de datos en el almacén. Estas operaciones incluyen transformaciones para preparar los datos para entrar en el almacén de datos.
Warehouse Manager: Warehouse manager realiza operaciones asociadas a la gestión de los datos en el almacén. Realiza operaciones como el análisis de datos para garantizar la coherencia, la creación de índices y vistas, la generación de desnormalización y agregaciones, la transformación y fusión de datos de origen y el archivo y la cocción de datos.,
Query Manager: el Administrador de consultas también se conoce como componente backend. Realiza todas las operaciones de operación relacionadas con la gestión de las consultas de los usuarios. Las operaciones de los componentes de este almacén de datos son consultas directas a las tablas apropiadas para programar la ejecución de consultas.
el usuario Final el acceso a herramientas:
Este se clasifica en cinco grupos diferentes como 1. Presentación De Datos 2. Herramientas De Consulta 3. Herramientas de desarrollo de aplicaciones 4. Herramientas EIS, 5. Herramientas OLAP y herramientas de minería de datos.
¿Quién necesita Data warehouse?,
DWH (Data warehouse) es necesario para todo tipo de usuarios como:
- tomadores de decisiones que dependen de una cantidad masiva de datos
- Usuarios que utilizan procesos complejos y personalizados para obtener información de múltiples fuentes de datos.
- también es utilizado por las personas que quieren tecnología simple para acceder a los datos
- También es esencial para aquellas personas que quieren un enfoque sistemático para la toma de decisiones.
- si el usuario quiere un rendimiento rápido en una gran cantidad de datos que es una necesidad para informes, cuadrículas o gráficos, entonces Data warehouse resulta útil.,
- Data warehouse es un primer paso si desea descubrir ‘patrones ocultos’ de flujos de datos y agrupaciones.
¿para qué se utiliza un almacén de datos?
Aquí, son los sectores más comunes donde se utiliza el almacén de datos:
aerolínea:
en el sistema de Aerolíneas, se utiliza para fines de operación como asignación de tripulación, análisis de rentabilidad de la ruta, promociones del programa de viajero frecuente, etc.
Banca:
Es ampliamente utilizado en el sector bancario para administrar los recursos disponibles en el escritorio de manera efectiva., Pocos bancos también utilizan para la investigación de mercado, análisis de rendimiento del producto y las operaciones.
Healthcare:
Healthcare sector también utilizó Data warehouse para crear estrategias y predecir resultados, generar informes de tratamiento de pacientes, compartir datos con compañías de seguros vinculadas, servicios de Asistencia médica, etc.
Sector Público:
en el sector público, el almacén de datos se utiliza para la recopilación de inteligencia. Ayuda a las agencias gubernamentales a mantener y analizar registros de impuestos, registros de políticas de salud, para cada individuo.,
sector de inversiones y seguros:
en este sector, los almacenes se utilizan principalmente para analizar patrones de datos, tendencias de clientes y para rastrear los movimientos del mercado.
Retain chain:
en las cadenas minoristas, el almacén de datos es ampliamente utilizado para la distribución y el marketing. También ayuda a rastrear artículos, patrón de compra de clientes, promociones y también se utiliza para determinar la política de precios.
Telecomunicación:
un almacén de datos se utiliza en este sector para la promoción de productos, decisiones de ventas y para tomar decisiones de distribución.,
Industria Hotelera:
esta industria utiliza servicios de almacén para diseñar y estimar sus campañas de publicidad y promoción donde quieren dirigirse a los clientes en función de sus comentarios y patrones de viaje.
pasos para implementar Data Warehouse
la mejor manera de abordar el riesgo comercial asociado con una implementación de Datawarehouse es emplear una estrategia de tres frentes como se muestra a continuación
- Estrategia empresarial: aquí identificamos la arquitectura y las herramientas técnicas, incluidas las actuales. También identificamos hechos, dimensiones y atributos., También se pasa el mapeo y la transformación de datos.
- entrega por etapas: la implementación de Datawarehouse debe ser gradual basada en áreas temáticas. Las entidades comerciales relacionadas, como la reserva y la facturación, deben implementarse primero y luego integrarse entre sí.
- Prototipado iterativo: en lugar de un enfoque big bang para la implementación, el Datawarehouse debe desarrollarse y probarse iterativamente.
Aquí, están los pasos clave en la implementación de Datawarehouse junto con sus entregables.,Mapa de integración
mejores prácticas para implementar un Data Warehouse
- decida un plan para probar la consistencia, precisión e integridad de los datos.,
- El Almacén de datos debe estar bien integrado, bien definido y con sello de tiempo.
- Al diseñar Datawarehouse, asegúrese de usar la herramienta correcta, atenerse al ciclo de vida, tener cuidado con los conflictos de datos y estar listo para aprender que usted es sus errores.
- nunca reemplace los sistemas operativos y los informes
- no invierta demasiado tiempo en extraer, limpiar y cargar datos.
- asegúrese de involucrar a todas las partes interesadas, incluido el personal empresarial, en el proceso de implementación de Datawarehouse. Establecer que el almacenamiento de datos es un proyecto conjunto/ en equipo., No desea crear un almacén de datos que no sea útil para los usuarios finales.
- preparar un plan de formación para los usuarios finales.
¿por qué necesitamos Data Warehouse? Ventajas & desventajas
ventajas del almacén de datos (DWH):
- El Almacén de datos permite a los usuarios empresariales acceder rápidamente a datos críticos desde algunas fuentes, todo en un solo lugar.
- El Almacén de datos proporciona información coherente sobre diversas actividades multifuncionales. También es compatible con la presentación de informes y consultas ad hoc.,
- Data Warehouse ayuda a integrar muchas fuentes de datos para reducir el estrés en el sistema de producción.
- Data warehouse ayuda a reducir el tiempo total de respuesta para el análisis y la generación de informes.
- La reestructuración y la integración hacen que sea más fácil para el usuario utilizar para informes y análisis.
- Data warehouse permite a los Usuarios acceder a datos críticos desde el número de fuentes en un solo lugar. Por lo tanto, ahorra el tiempo del usuario de recuperar datos de múltiples fuentes.
- El Almacén de datos almacena una gran cantidad de datos históricos., Esto ayuda a los usuarios a analizar diferentes períodos de tiempo y tendencias para hacer predicciones futuras.
desventajas del almacén de Datos:
- No es una opción ideal para datos no estructurados.
- La Creación e implementación de Data Warehouse es seguramente un asunto confuso.
- El Almacén de datos puede quedar obsoleto con relativa rapidez
- difícil de realizar cambios en los tipos y rangos de datos, el esquema de origen de datos, los índices y las consultas.
- El Almacén de datos puede parecer fácil, pero en realidad, es demasiado complejo para los usuarios promedio.,
- a pesar de los mejores esfuerzos en la gestión de proyectos, el alcance del proyecto de almacenamiento de datos siempre aumentará.
- En algún momento los usuarios del almacén desarrollarán diferentes reglas de negocio.
- Las organizaciones necesitan gastar muchos de sus recursos para fines de capacitación e implementación.
el futuro del almacenamiento de datos
- El Cambio en las restricciones reglamentarias puede limitar la capacidad de combinar fuentes de datos dispares. Estas fuentes dispares pueden incluir datos no estructurados que son difíciles de almacenar.,
- a medida que crece el tamaño de las bases de datos, las estimaciones de lo que constituye una base de datos muy grande continúan creciendo. Es complejo construir y ejecutar sistemas de almacenamiento de datos que siempre están aumentando de tamaño. Los recursos de hardware y software disponibles hoy en día no permiten mantener una gran cantidad de datos en línea.
- Los datos Multimedia no pueden ser fácilmente manipulados como datos de texto, mientras que la información textual puede ser recuperada por el software relacional disponible hoy en día. Esto podría ser un tema de investigación.,
herramientas de almacenamiento de datos
Hay muchas herramientas de almacenamiento de datos disponibles en el mercado. Aquí están algunos de los más destacados:
1. MarkLogic:
MarkLogic es una útil solución de almacenamiento de datos que hace que la integración de datos sea más fácil y rápida utilizando una variedad de características empresariales. Esta herramienta ayuda a realizar operaciones de búsqueda muy complejas. Puede consultar diferentes tipos de datos, como documentos, relaciones y metadatos.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle es la base de datos líder en la industria., Ofrece una amplia gama de opciones de soluciones de almacenamiento de datos tanto en las instalaciones como en la nube. Ayuda a optimizar las experiencias de los clientes al aumentar la eficiencia operativa.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift es una herramienta de almacenamiento de datos. Es una herramienta simple y rentable para analizar todo tipo de datos utilizando SQL estándar y herramientas de BI existentes. También permite ejecutar consultas complejas contra petabytes de datos estructurados, utilizando la técnica de optimización de consultas.,
https://aws.amazon.com/redshift/?nc2=h_m1
Aquí está una lista completa de útiles Herramientas de Datawarehouse.
aprendizaje clave
- Data Warehouse (DWH), también se conoce como Enterprise Data Warehouse (EDW).
- Un almacén de datos se define como un repositorio central donde la información proviene de una o más fuentes de datos.
- Tres tipos principales de almacenes de datos son Enterprise Data Warehouse (EDW), Operational Data Store y Data Mart.,
- El estado General de un datawarehouse es una base de datos operativa fuera de línea, un almacén de datos fuera de línea, un almacén de datos en tiempo Real y un almacén de datos integrado.
- Los cuatro componentes principales de Datawarehouse son gestor de carga, gestor de almacén, gestor de consultas, herramientas de acceso al usuario final
- Datawarehouse se utiliza en diversas industrias como Aerolíneas, bancos, atención médica, seguros, minoristas, etc.
- implementar Datawarehosue es una estrategia de 3 puntas. Estrategia empresarial, entrega por fases y prototipado iterativo.,
- Data warehouse permite a los usuarios empresariales acceder rápidamente a datos críticos de algunas fuentes, todo en un solo lugar.