Tutorial de pruebas ETL
¿Qué son las pruebas ETL?
Las pruebas ETL se realizan para garantizar que los datos que se cargaron desde un origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino. ETL significa Extraer-Transformar-Cargar.
Pruebas de almacenamiento de datos
Pruebas de almacenamiento de datos es un método de prueba en el que se prueba la integridad, confiabilidad, precisión y coherencia de los datos dentro de un almacén de datos para cumplir con el marco de datos de la empresa. El objetivo principal de las pruebas del almacén de datos es garantizar que los datos integrados dentro del almacén de datos sean lo suficientemente confiables para que una empresa pueda tomar decisiones.
¿Qué es ETL?
ETL significa Extraer-Transformar-Cargar y es un proceso de cómo se cargan los datos desde el sistema de origen al almacén de datos. Los datos se extraen de una base de datos OLTP, se transforman para que coincidan con el esquema del almacén de datos y se cargan en la base de datos del almacén de datos. Muchos almacenes de datos también incorporan datos de sistemas que no son OLTP, como archivos de texto, sistemas heredados y hojas de cálculo.
Veamos como funciona
Por ejemplo, hay una tienda minorista que tiene diferentes departamentos, como ventas, marketing, logística, etc. Cada uno de ellos maneja la información del cliente de forma independiente y la forma en que almacenan esos datos es bastante diferente. El departamento de ventas lo almacenó por nombre del cliente, mientras que el departamento de marketing lo almacenó por identificación del cliente.
Ahora bien, si quieren verificar el historial del cliente y quieren saber cuáles son los diferentes productos que compró debido a diferentes campañas de marketing, sería muy tedioso.
La solución es utilizar un datawarehouse almacenar información de diferentes fuentes en una estructura uniforme utilizando ETL. ETL puede transformar conjuntos de datos diferentes en una estructura unificada.Later Utilice herramientas de BI para obtener información valiosa e informes a partir de estos datos.
El siguiente diagrama en este tutorial de pruebas ETL le brinda la HOJA DE RUTA del flujo del proceso de pruebas ETL y varios conceptos de pruebas ETL:
- Extraer
- Extraer datos relevantes
- Transformar
- Transformar datos al formato DW (Data Warehouse)
- Claves de compilación: una clave es uno o más atributos de datos que identifican de forma única una entidad. Varios tipos de llaves son clave primaria, clave alternativa, clave externa, clave compuesta, clave sustituta. El almacén de datos es propietario de estas claves y nunca permite que ninguna otra entidad las asigne.
- Limpieza de datos: Una vez extraídos los datos, pasarán a la siguiente fase, de limpieza y conformidad de datos. La limpieza hace la omisión en los datos además de identificar y corregir los errores. Conforme significa resolver los conflictos entre aquellos datos que son incompatibles, para que puedan usarse en un almacén de datos empresarial. Además de estos, este sistema crea metadatos que se utilizan para diagnosticar problemas del sistema fuente y mejorar la calidad de los datos.
- Carga
- Cargar datos en DW (Data Warehouse)
- Crear agregados: crear un agregado consiste en resumir y almacenar datos que están disponibles en tabla de hechos para mejorar el rendimiento de las consultas de los usuarios finales.
Proceso de prueba ETL
Al igual que otros procesos de prueba, ETL también pasa por diferentes fases. Las diferentes fases del proceso de prueba ETL son las siguientes
Las pruebas ETL se realizan en cinco etapas.
- Identificación de fuentes y requisitos de datos
- De adquisición de datos
- Implementar lógicas de negocio y Modelado dimensional.
- Crear y completar datos
- Crear informes
Tipos de pruebas ETL
Tipos de pruebas | Proceso de Prueba |
---|---|
Pruebas de validación de producción | "Equilibrio de tablas" o "conciliación de producción", este tipo de prueba ETL se realiza en los datos a medida que se trasladan a los sistemas de producción. Para respaldar su decisión comercial, los datos de sus sistemas de producción deben estar en el orden correcto. informática La opción de validación de datos proporciona capacidades de gestión y automatización de pruebas ETL para garantizar que los sistemas de producción no se vean comprometidos por los datos. |
Fuente a Target Pruebas (pruebas de validación) | Este tipo de prueba se lleva a cabo para validar si los valores de datos transformados son los valores de datos esperados. |
Solicitud Upgrades | Este tipo de pruebas ETL se pueden generar automáticamente, lo que ahorra un tiempo sustancial de desarrollo de pruebas. Este tipo de prueba comprueba si los datos extraídos de una aplicación o repositorio anterior son exactamente los mismos que los datos de un repositorio o aplicación nueva. |
Pruebas de metadatos | Las pruebas de metadatos incluyen pruebas de verificación del tipo de datos, verificación de la longitud de los datos y verificación de índice/restricción. |
Pruebas de integridad de datos | Para verificar que todos los datos esperados estén cargados en el destino desde la fuente, se realizan pruebas de integridad de los datos. Algunas de las pruebas que se pueden ejecutar son comparar y validar recuentos, agregados y datos reales entre el origen y el destino para columnas con transformación simple o sin transformación. |
Pruebas de precisión de datos | Esta prueba se realiza para garantizar que los datos se carguen y transformen con precisión como se esperaba. |
Pruebas de transformación de datos | Se realizan pruebas de transformación de datos, ya que en muchos casos no se puede lograr escribiendo una fuente. SQL consultar y comparar la salida con el objetivo. Es posible que sea necesario ejecutar varias consultas SQL para cada fila para verificar las reglas de transformación. |
Pruebas de calidad de datos | Las pruebas de calidad de datos incluyen pruebas de sintaxis y referencia. Para evitar cualquier error debido a la fecha o el número de pedido durante el proceso comercial, se realizan pruebas de calidad de datos.
Pruebas de sintaxis: informará datos sucios, basados en caracteres no válidos, patrones de caracteres, orden incorrecto de mayúsculas o minúsculas, etc. Pruebas de referencia: Verificará los datos según el modelo de datos. Por ejemplo: ID de cliente Las pruebas de calidad de los datos incluyen verificación de números, verificación de fechas, verificación de precisión, verificación de datos, verificación de nulos, etc. |
Pruebas ETL incrementales | Esta prueba se realiza para verificar la integridad de los datos antiguos y nuevos con la adición de datos nuevos. Las pruebas incrementales verifican que las inserciones y actualizaciones se procesen según lo esperado durante el proceso ETL incremental. |
Pruebas de GUI/Navegación | Esta prueba se realiza para comprobar los aspectos de navegación o GUI de los informes de front-end. |
Cómo crear un caso de prueba ETL
Las pruebas ETL son un concepto que se puede aplicar a diferentes herramientas y bases de datos en la industria de gestión de la información. El objetivo de las pruebas ETL es garantizar que los datos que se han cargado desde el origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino.
Al realizar pruebas ETL, dos documentos que siempre utilizará un evaluador de ETL son
- Hojas de mapeo ETL:Las hojas de mapeo ETL contienen toda la información de las tablas de origen y destino, incluidas todas y cada una de las columnas y su búsqueda en tablas de referencia. Los evaluadores de ETL deben sentirse cómodos con las consultas SQL, ya que las pruebas de ETL pueden implicar escribir consultas grandes con múltiples uniones para validar datos en cualquier etapa de ETL. Las hojas de mapeo ETL brindan una gran ayuda al escribir consultas para la verificación de datos.
- Esquema DB de origen, Target: Debe tenerse a mano para verificar cualquier detalle en las hojas de mapeo.
Escenarios de prueba y casos de prueba de ETL
Escenario de prueba | Casos de prueba |
---|---|
Validación de documentos de mapeo | Verifique el documento de mapeo si se proporciona o no la información ETL correspondiente. El registro de cambios debe mantenerse en cada documento de mapeo. |
Validación |
|
Validación de restricciones | Asegúrese de que las restricciones estén definidas para una tabla específica como se esperaba |
Problemas de coherencia de datos |
|
Problemas de integridad |
|
Problemas de corrección |
|
Calidad de los Datos |
|
Validar nulo | Verifique los valores nulos, donde se especifica "No nulo" para una columna específica. |
Cheque duplicado |
|
Validación de fecha | Los valores de fecha se utilizan en muchas áreas del desarrollo de ETL para
|
Validación completa de datos |
|
Limpieza de datos | Las columnas innecesarias deben eliminarse antes de cargarlas en el área de preparación. |
Tipos de errores ETL
Tipo de errores | Descripción |
---|---|
Errores de interfaz de usuario/errores cosméticos |
|
Error relacionado con el análisis de valor límite (BVA) |
|
Error relacionado con la partición de clases de equivalencia (ECP) |
|
Errores de entrada/salida |
|
Errores de cálculo |
|
Errores de condición de carga |
|
Errores de condición de carrera |
|
Errores de control de versiones |
|
Errores de hardware |
|
Errores de fuente de ayuda |
|
Diferencia entre pruebas de bases de datos y pruebas ETL
Prueba ETL | Pruebas de bases de datos |
---|---|
Verifica si los datos se mueven como se esperaba | El objetivo principal es verificar si los datos siguen las reglas/estándares definidos en el modelo de datos. |
Verifica si los recuentos en el origen y el destino coinciden
Verifica si los datos transformados son según las expectativas. |
Verifique que no haya registros huérfanos y que se mantengan las relaciones de clave primaria externa |
Verifica que las relaciones de clave primaria externa se conserven durante la ETL | Verifica que no haya tablas redundantes y que la base de datos esté normalizada de manera óptima. |
Verifica la duplicación en los datos cargados | Verifique si faltan datos en las columnas donde sea necesario |
Responsabilidades de un probador ETL
Las responsabilidades clave de un probador ETL se dividen en tres categorías
- Mesa de escenario/ SFS o MFS
- Lógica de transformación empresarial aplicada
- Target carga de tabla desde un archivo de etapa o tabla después de aplicar una transformación.
Algunas de las responsabilidades de un probador ETL son
- Pruebe el software ETL
- Componentes de prueba del almacén de datos ETL
- Ejecutar prueba basada en datos de backend
- Crear, diseñar y ejecutar Casos de prueba, planes de prueba y arnés de prueba.
- Identificar el problema y proporcionar soluciones para problemas potenciales.
- Aprobar requisitos y especificaciones de diseño.
- Transferencias de datos y archivo plano de prueba.
- Escribir consultas SQL3 para varios escenarios como prueba de recuento
Pruebas de rendimiento en ETL
Pruebas de rendimiento en ETL es una técnica de prueba para garantizar que un sistema ETL pueda manejar la carga de múltiples usuarios y transacciones. El objetivo principal de ETL Test de rendimiento es optimizar y mejorar el rendimiento de la sesión mediante la identificación y eliminación de cuellos de botella en el rendimiento. Las bases de datos de origen y de destino, las asignaciones, las sesiones y el sistema posiblemente tengan cuellos de botella en el rendimiento.
Una de las mejores herramientas utilizadas para las pruebas/ajustes de rendimiento es Informatica.
Automatización de pruebas ETL
La metodología general de las pruebas ETL es utilizar secuencias de comandos SQL o "observar" los datos. Estos enfoques para las pruebas ETL consumen mucho tiempo, son propensos a errores y rara vez proporcionan información completa. prueba de cobertura. Acelerar, mejorar cobertura, reducir costos, mejorar Defecto ración de detección de pruebas ETL en entornos de producción y desarrollo, la automatización es la necesidad del momento. Una de esas herramientas es Informatica.
Mejores prácticas para pruebas ETL
- Asegúrese de que los datos se transformen correctamente
- Sin pérdida ni truncamiento de datos, los datos proyectados deben cargarse en el almacén de datos.
- Asegúrese de que la aplicación ETL rechace y reemplace adecuadamente con valores predeterminados e informe datos no válidos.
- Necesidad de garantizar que los datos se carguen en el almacén de datos dentro de los plazos prescritos y esperados para confirmar la escalabilidad y el rendimiento.
- Todos los métodos deben tener pruebas unitarias apropiadas independientemente de la visibilidad.
- Para medir su efectividad, todas las pruebas unitarias deben utilizar técnicas de cobertura adecuadas.
- Esfuércese por lograr una afirmación por caso de prueba
- Crear pruebas unitarias que apuntan a excepciones
Revisa - Preguntas y respuestas de la entrevista de prueba ETL