Tutorial de pruebas ETL

¿Qué son las pruebas ETL?

Las pruebas ETL se realizan para garantizar que los datos que se cargaron desde un origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino. ETL significa Extraer-Transformar-Cargar.

Prueba ETL

Pruebas de almacenamiento de datos

Pruebas de almacenamiento de datos es un método de prueba en el que se prueba la integridad, confiabilidad, precisión y coherencia de los datos dentro de un almacén de datos para cumplir con el marco de datos de la empresa. El objetivo principal de las pruebas del almacén de datos es garantizar que los datos integrados dentro del almacén de datos sean lo suficientemente confiables para que una empresa pueda tomar decisiones.

¿Qué es ETL?

ETL significa Extraer-Transformar-Cargar y es un proceso de cómo se cargan los datos desde el sistema de origen al almacén de datos. Los datos se extraen de una base de datos OLTP, se transforman para que coincidan con el esquema del almacén de datos y se cargan en la base de datos del almacén de datos. Muchos almacenes de datos también incorporan datos de sistemas que no son OLTP, como archivos de texto, sistemas heredados y hojas de cálculo.

Veamos como funciona

Por ejemplo, hay una tienda minorista que tiene diferentes departamentos, como ventas, marketing, logística, etc. Cada uno de ellos maneja la información del cliente de forma independiente y la forma en que almacenan esos datos es bastante diferente. El departamento de ventas lo almacenó por nombre del cliente, mientras que el departamento de marketing lo almacenó por identificación del cliente.

Ahora bien, si quieren consultar el historial del cliente y quieren saber cuáles son los diferentes productos que compró.wing a diferentes campañas de marketing; sería muy tedioso.

La solución es utilizar un datawarehouse almacenar información de diferentes fuentes en una estructura uniforme utilizando ETL. ETL puede transformar conjuntos de datos diferentes en una estructura unificada.Later Utilice herramientas de BI para obtener información valiosa e informes a partir de estos datos.

El following El diagrama de este tutorial de pruebas ETL le brinda el MAPA DE RUTA del flujo del proceso de pruebas ETL y varios conceptos de pruebas ETL:

Extraer-Transformar-Cargar

  1. Extraer
  • Extraer datos relevantes
  1. Transformar
  • Transformar datos al formato DW (Data Warehouse)
  • Claves de compilación: una clave es uno o más atributos de datos que identifican de forma única una entidad. Varios tipos de llaves son clave primaria, clave alternativa, clave externa, clave compuesta, clave sustituta. El almacén de datos es propietario de estas claves y nunca permite que ninguna otra entidad las asigne.
  • Limpieza de datos: Una vez extraídos los datos, pasarán a la siguiente fase, de limpieza y conformidad de datos. La limpieza hace la omisión en los datos además de identificar y corregir los errores. Conforme significa resolver los conflictos entre aquellos datos que son incompatibles, para que puedan usarse en un almacén de datos empresarial. Además de estos, este sistema crea metadatos que se utilizan para diagnosticar problemas del sistema fuente y mejorar la calidad de los datos.
  1. Carga
  • Cargar datos en DW (Data Warehouse)
  • Crear agregados: crear un agregado consiste en resumir y almacenar datos que están disponibles en tabla de hechos para mejorar el rendimiento de las consultas de los usuarios finales.

Proceso de prueba ETL

Al igual que otros procesos de prueba, ETL también pasa por diferentes fases. Las diferentes fases del proceso de prueba ETL son las siguientes

Proceso de prueba ETL

Las pruebas ETL se realizan en cinco etapas.

  1. Identificación de fuentes y requisitos de datos
  2. De adquisición de datos
  3. Implementar lógicas de negocio y Modelado dimensional.
  4. Crear y completar datos
  5. Crear informes

Proceso de prueba ETL

Tipos de pruebas ETL

Tipos de pruebas Proceso de Prueba
Pruebas de validación de producción "Equilibrio de tablas" o "conciliación de producción", este tipo de prueba ETL se realiza en los datos a medida que se trasladan a los sistemas de producción. Para respaldar su decisión comercial, los datos de sus sistemas de producción deben estar en el orden correcto. informática La opción de validación de datos proporciona capacidades de gestión y automatización de pruebas ETL para garantizar que los sistemas de producción no se vean comprometidos por los datos.
Pruebas de origen a objetivo (pruebas de validación) Este tipo de prueba se lleva a cabo para validar si los valores de datos transformados son los valores de datos esperados.
Actualizaciones de aplicaciones Este tipo de pruebas ETL se pueden generar automáticamente, lo que ahorra un tiempo sustancial de desarrollo de pruebas. Este tipo de prueba comprueba si los datos extraídos de una aplicación o repositorio anterior son exactamente los mismos que los datos de un repositorio o aplicación nueva.
Pruebas de metadatos Las pruebas de metadatos incluyen pruebas de verificación del tipo de datos, verificación de la longitud de los datos y verificación de índice/restricción.
Pruebas de integridad de datos Para verificar que todos los datos esperados estén cargados en el destino desde la fuente, se realizan pruebas de integridad de los datos. Algunas de las pruebas que se pueden ejecutar son comparar y validar recuentos, agregados y datos reales entre el origen y el destino para columnas con transformación simple o sin transformación.
Pruebas de precisión de datos Esta prueba se realiza para garantizar que los datos se carguen y transformen con precisión como se esperaba.
Pruebas de transformación de datos Se realizan pruebas de transformación de datos, ya que en muchos casos no se puede lograr escribiendo una fuente. SQL consultar y comparar la salida con el objetivo. Es posible que sea necesario ejecutar varias consultas SQL para cada fila para verificar las reglas de transformación.
Pruebas de calidad de datos Las pruebas de calidad de datos incluyen pruebas de sintaxis y referencia. Para evitar cualquier error debido a la fecha o el número de pedido durante el proceso comercial, se realizan pruebas de calidad de datos.

Pruebas de sintaxis: informará datos sucios, basados ​​en caracteres no válidos, patrones de caracteres, orden incorrecto de mayúsculas o minúsculas, etc.

Pruebas de referencia: Verificará los datos según el modelo de datos. Por ejemplo: ID de cliente

Las pruebas de calidad de los datos incluyen verificación de números, verificación de fechas, verificación de precisión, verificación de datos, verificación de nulos, etc.

Pruebas ETL incrementales Esta prueba se realiza para verificar la integridad de los datos antiguos y nuevos con la adición de datos nuevos. Las pruebas incrementales verifican que las inserciones y actualizaciones se procesen según lo esperado durante el proceso ETL incremental.
Pruebas de GUI/Navegación Esta prueba se realiza para comprobar los aspectos de navegación o GUI de los informes de front-end.

Cómo crear un caso de prueba ETL

Las pruebas ETL son un concepto que se puede aplicar a diferentes herramientas y bases de datos en la industria de gestión de la información. El objetivo de las pruebas ETL es garantizar que los datos que se han cargado desde el origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino.

Al realizar pruebas ETL, dos documentos que siempre utilizará un evaluador de ETL son

  1. Hojas de mapeo ETL:Las hojas de mapeo ETL contienen toda la información de las tablas de origen y destino, incluidas todas y cada una de las columnas y su búsqueda en tablas de referencia. Los evaluadores de ETL deben sentirse cómodos con las consultas SQL, ya que las pruebas de ETL pueden implicar escribir consultas grandes con múltiples uniones para validar datos en cualquier etapa de ETL. Las hojas de mapeo ETL brindan una gran ayuda al escribir consultas para la verificación de datos.
  2. Esquema de base de datos de origen, destino: Debe tenerse a mano para verificar cualquier detalle en las hojas de mapeo.

Escenarios de prueba y casos de prueba de ETL

Escenario de prueba Casos de prueba
Validación de documentos de mapeo Verifique el documento de mapeo si se proporciona o no la información ETL correspondiente. El registro de cambios debe mantenerse en cada documento de mapeo.
Validación
  1. Valide la estructura de la tabla de origen y de destino con el documento de mapeo correspondiente.
  2. El tipo de datos de origen y el tipo de datos de destino deben ser los mismos
  3. La longitud de los tipos de datos tanto en el origen como en el destino debe ser igual
  4. Verificar que se especifiquen los tipos y formatos de campos de datos
  5. La longitud del tipo de datos de origen no debe ser menor que la longitud del tipo de datos de destino.
  6. Valide el nombre de las columnas de la tabla con el documento de asignación.
Validación de restricciones Asegúrese de que las restricciones estén definidas para una tabla específica como se esperaba
Problemas de coherencia de datos
  1. El tipo de datos y la longitud de un atributo particular pueden variar en archivos o tablas, aunque la definición semántica es la misma.
  2. Uso indebido de las restricciones de integridad
Problemas de integridad
  1. Asegúrese de que todos los datos esperados estén cargados en la tabla de destino.
  2. Compare los recuentos de registros entre el origen y el destino.
  3. Verifique si hay registros rechazados
  4. Los datos de verificación no deben truncarse en la columna de las tablas de destino
  5. Verificar el análisis del valor límite
  6. Compares valores únicos de campos clave entre los datos cargados en WH y los datos de origen
Problemas de corrección
  1. Datos mal escritos o registrados de forma inexacta
  2. Datos nulos, no únicos o fuera de rango
Calidad de los Datos
  1. Verificación de número: es necesario verificar el número y validarlo
  2. Verificación de fecha: deben seguir el formato de fecha y debe ser el mismo en todos los registros.
  3. Comprobación de precisión
  4. Comprobación de datos
  5. cheque nulo
Validar nulo Verifique los valores nulos, donde se especifica "No nulo" para una columna específica.
Cheque duplicado
  1. Las necesidades de validar la clave única, la clave principal y cualquier otra columna deben ser únicas según los requisitos comerciales si tienen filas duplicadas.
  2. Compruebe si existen valores duplicados en alguna columna que se extrae de varias columnas en la fuente y se combina en una sola columna.
  3. Según los requisitos del cliente, es necesario garantizar que no haya duplicados en combinación de varias columnas dentro del objetivo únicamente.
Validación de fecha Los valores de fecha se utilizan en muchas áreas del desarrollo de ETL para

  1. Para saber la fecha de creación de la fila
  2. Identificar registros activos según la perspectiva de desarrollo ETL
  3. Identificar registros activos según la perspectiva de los requisitos comerciales.
  4. A veces, según los valores de fecha, se generan las actualizaciones e inserciones.
Validación completa de datos
  1. Para validar el conjunto de datos completo en la tabla de origen y de destino menos una consulta en la mejor solución
  2. Necesitamos fuente menos objetivo y objetivo menos fuente
  3. Si la consulta negativa devuelve algún valor, deben considerarse filas que no coinciden
  4. Necesita hacer coincidir filas entre el origen y el destino mediante la declaración de intersección
  5. El recuento devuelto por intersect debe coincidir con los recuentos individuales de las tablas de origen y de destino.
  6. Si el resultado negativo de las filas y el recuento de la intersección es menor que el recuento de origen o la tabla de destino, entonces podemos considerar que existen filas duplicadas.
Limpieza de datos Las columnas innecesarias deben eliminarse antes de cargarlas en el área de preparación.

Tipos de errores ETL

Tipos de errores ETL

Tipo de errores Descripción
Errores de interfaz de usuario/errores cosméticos
  • Relacionado con la GUI de la aplicación
  • Estilo de fuente, tamaño de fuente, colores, alineación, errores ortográficos, navegación, etc.
Error relacionado con el análisis de valor límite (BVA)
  • Valores mínimos y máximos
Error relacionado con la partición de clases de equivalencia (ECP)
  • Tipo válido e inválido
Errores de entrada/salida
  • Valores válidos no aceptados
  • Se aceptan valores no válidos
Errores de cálculo
  • Errores matemáticos
  • El resultado final es incorrecto
Errores de condición de carga
  • No permite múltiples usuarios
  • No permite la carga esperada por el cliente.
Errores de condición de carrera
  • El sistema falla y se bloquea
  • El sistema no puede ejecutar plataformas cliente
Errores de control de versiones
  • Ningún logotipo coincide
  • No hay información de versión disponible
  • Esto ocurre generalmente en Pruebas de regresión
Errores de hardware
  • El dispositivo no responde a la aplicación
Errores de fuente de ayuda
  • Errores en los documentos de ayuda.

Diferencia entre pruebas de bases de datos y pruebas ETL

Prueba ETL Pruebas de bases de datos
Verifica si los datos se mueven como se esperaba El objetivo principal es comprobar si los datos son siguientes.wing las reglas/estándares definidos en el modelo de datos
Verifica si los recuentos en el origen y el destino coinciden

Verifica si los datos transformados son según las expectativas.

Verifique que no haya registros huérfanos y que se mantengan las relaciones de clave primaria externa
Verifica que las relaciones de clave primaria externa se conserven durante la ETL Verifica que no haya tablas redundantes y que la base de datos esté normalizada de manera óptima.
Verifica la duplicación en los datos cargados Verifique si faltan datos en las columnas donde sea necesario

Responsabilidades de un probador ETL

Las responsabilidades clave de un probador ETL se dividen en tres categorías

  • Mesa de escenario/ SFS o MFS
  • Lógica de transformación empresarial aplicada
  • Carga de la tabla de destino desde un archivo o tabla provisional después de aplicar una transformación.

Algunas de las responsabilidades de un probador ETL son

  • Pruebe el software ETL
  • Componentes de prueba del almacén de datos ETL
  • Ejecutar prueba basada en datos de backend
  • Crear, diseñar y ejecutar Casos de prueba, planes de prueba y arnés de prueba.
  • Identificar el problema y proporcionar soluciones para problemas potenciales.
  • Aprobar requisitos y especificaciones de diseño.
  • Transferencias de datos y archivo plano de prueba.
  • Escribir consultas SQL3 para varios escenarios como prueba de recuento

Pruebas de rendimiento en ETL

Pruebas de rendimiento en ETL es una técnica de prueba para garantizar que un sistema ETL pueda manejar la carga de múltiples usuarios y transacciones. El objetivo principal de ETL Test de rendimiento es optimizar y mejorar el rendimiento de la sesión mediante la identificación y eliminación de cuellos de botella en el rendimiento. Las bases de datos de origen y de destino, las asignaciones, las sesiones y el sistema posiblemente tengan cuellos de botella en el rendimiento.

Una de las mejores herramientas utilizadas para las pruebas/ajustes de rendimiento es Informatica.

Automatización de pruebas ETL

La metodología general de las pruebas ETL es utilizar secuencias de comandos SQL o "observar" los datos. Estos enfoques para las pruebas ETL consumen mucho tiempo, son propensos a errores y rara vez proporcionan información completa. prueba de cobertura. Acelerar, mejorar cobertura, reducir costos, mejorar Defecto ración de detección de pruebas ETL en entornos de producción y desarrollo, la automatización es la necesidad del momento. Una de esas herramientas es Informatica.

Mejores prácticas para pruebas ETL

  1. Asegúrese de que los datos se transformen correctamente
  2. Sin pérdida ni truncamiento de datos, los datos proyectados deben cargarse en el almacén de datos.
  3. Asegúrese de que la aplicación ETL rechace y reemplace adecuadamente con valores predeterminados e informe datos no válidos.
  4. Necesidad de garantizar que los datos se carguen en el almacén de datos dentro de los plazos prescritos y esperados para confirmar la escalabilidad y el rendimiento.
  5. Todos los métodos deben tener pruebas unitarias apropiadas independientemente de la visibilidad.
  6. Para medir su efectividad, todas las pruebas unitarias deben utilizar técnicas de cobertura adecuadas.
  7. Esfuércese por lograr una afirmación por caso de prueba
  8. Crear pruebas unitarias que apuntan a excepciones

Revisa - Preguntas y respuestas de la entrevista de prueba ETL