Tutorial de pruebas ETL

¿Qué son las pruebas ETL?

Las pruebas ETL se realizan para garantizar que los datos que se cargaron desde un origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino. ETL significa Extraer-Transformar-Cargar.

Prueba ETL

Pruebas de almacenamiento de datos

Pruebas de almacenamiento de datos es un método de prueba en el que se prueba la integridad, confiabilidad, precisión y coherencia de los datos dentro de un almacén de datos para cumplir con el marco de datos de la empresa. El objetivo principal de las pruebas del almacén de datos es garantizar que los datos integrados dentro del almacén de datos sean lo suficientemente confiables para que una empresa pueda tomar decisiones.

¿Qué es ETL?

ETL significa Extraer-Transformar-Cargar y es un proceso de cómo se cargan los datos desde el sistema de origen al almacén de datos. Los datos se extraen de una base de datos OLTP, se transforman para que coincidan con el esquema del almacén de datos y se cargan en la base de datos del almacén de datos. Muchos almacenes de datos también incorporan datos de sistemas que no son OLTP, como archivos de texto, sistemas heredados y hojas de cálculo.

Veamos como funciona

Por ejemplo, hay una tienda minorista que tiene diferentes departamentos, como ventas, marketing, logística, etc. Cada uno de ellos maneja la información del cliente de forma independiente y la forma en que almacenan esos datos es bastante diferente. El departamento de ventas lo almacenó por nombre del cliente, mientras que el departamento de marketing lo almacenó por identificación del cliente.

Ahora bien, si quieren verificar el historial del cliente y quieren saber cuáles son los diferentes productos que compró debido a diferentes campañas de marketing, sería muy tedioso.

La solución es utilizar un datawarehouse almacenar información de diferentes fuentes en una estructura uniforme utilizando ETL. ETL puede transformar conjuntos de datos diferentes en una estructura unificada.Later Utilice herramientas de BI para obtener información valiosa e informes a partir de estos datos.

El siguiente diagrama en este tutorial de pruebas ETL le brinda la HOJA DE RUTA del flujo del proceso de pruebas ETL y varios conceptos de pruebas ETL:

Extraer-Transformar-Cargar

1) Extracto

  • Extraer datos relevantes

2) Transformar

  • Transformar datos al formato DW (Data Warehouse)
  • Claves de compilación: una clave es uno o más atributos de datos que identifican de forma única una entidad. Varios tipos de llaves son clave primaria, clave alternativa, clave externa, clave compuesta, clave sustituta. El almacén de datos es propietario de estas claves y nunca permite que ninguna otra entidad las asigne.
  • Limpieza de datos: Una vez extraídos los datos, pasarán a la siguiente fase, de limpieza y conformidad de datos. La limpieza hace la omisión en los datos además de identificar y corregir los errores. Conforme significa resolver los conflictos entre aquellos datos que son incompatibles, para que puedan usarse en un almacén de datos empresarial. Además de estos, este sistema crea metadatos que se utilizan para diagnosticar problemas del sistema fuente y mejorar la calidad de los datos.

3) Carga

  • Cargar datos en DW (Data Warehouse)
  • Crear agregados: crear un agregado consiste en resumir y almacenar datos que están disponibles en tabla de hechos para mejorar el rendimiento de las consultas de los usuarios finales.

Proceso de prueba ETL

Al igual que otros procesos de prueba, ETL también pasa por diferentes fases. Las diferentes fases del proceso de prueba ETL son las siguientes

Proceso de prueba ETL

Las pruebas ETL se realizan en cinco etapas.

  1. Identificación de fuentes y requisitos de datos
  2. De adquisición de datos
  3. Implementar lógicas de negocio y Modelado dimensional.
  4. Crear y completar datos
  5. Crear informes

Proceso de prueba ETL

Tipos de pruebas ETL

  1. Pruebas de validación de producción
    Proceso de prueba: "Equilibrio de tablas" o "conciliación de producción", este tipo de prueba ETL se realiza en los datos a medida que se trasladan a los sistemas de producción. Para respaldar su decisión comercial, los datos de sus sistemas de producción deben estar en el orden correcto. informática La opción de validación de datos proporciona capacidades de gestión y automatización de pruebas ETL para garantizar que los sistemas de producción no se vean comprometidos por los datos.
  2. Fuente a Target Pruebas (pruebas de validación)
    Proceso de prueba: Este tipo de prueba se lleva a cabo para validar si los valores de datos transformados son los valores de datos esperados.
  3. Solicitud Upgrades
    Proceso de prueba: Este tipo de pruebas ETL se pueden generar automáticamente, lo que ahorra un tiempo sustancial de desarrollo de pruebas. Este tipo de prueba comprueba si los datos extraídos de una aplicación o repositorio anterior son exactamente los mismos que los datos de un repositorio o aplicación nueva.
  4. Pruebas de metadatos
    Proceso de prueba: Las pruebas de metadatos incluyen pruebas de verificación del tipo de datos, verificación de la longitud de los datos y verificación de índice/restricción.
  5. Pruebas de integridad de datos
    Proceso de prueba: Para verificar que todos los datos esperados estén cargados en el destino desde la fuente, se realizan pruebas de integridad de los datos. Algunas de las pruebas que se pueden ejecutar son comparar y validar recuentos, agregados y datos reales entre el origen y el destino para columnas con transformación simple o sin transformación.
  6. Pruebas de precisión de datos
    Proceso de prueba: Esta prueba se realiza para garantizar que los datos se carguen y transformen con precisión como se esperaba.
  7. Pruebas de transformación de datos
    Proceso de prueba: Se realizan pruebas de transformación de datos, ya que en muchos casos no se puede lograr escribiendo una fuente. SQL consultar y comparar la salida con el objetivo. Es posible que sea necesario ejecutar varias consultas SQL para cada fila para verificar las reglas de transformación.
  8. Pruebas de calidad de datos
    Proceso de prueba:

    Las pruebas de calidad de datos incluyen pruebas de sintaxis y referencia. Para evitar cualquier error debido a la fecha o el número de pedido durante el proceso comercial, se realizan pruebas de calidad de datos.

    Pruebas de sintaxis: informará datos sucios, basados ​​en caracteres no válidos, patrones de caracteres, orden incorrecto de mayúsculas o minúsculas, etc.

    Pruebas de referencia: Verificará los datos según el modelo de datos. Por ejemplo: ID de cliente

    Las pruebas de calidad de los datos incluyen verificación de números, verificación de fechas, verificación de precisión, verificación de datos, verificación de nulos, etc.

  9. Pruebas ETL incrementales
    Proceso de prueba: Esta prueba se realiza para verificar la integridad de los datos antiguos y nuevos con la adición de datos nuevos. Las pruebas incrementales verifican que las inserciones y actualizaciones se procesen según lo esperado durante el proceso ETL incremental.
  10. Pruebas de GUI/Navegación
    Proceso de prueba: Esta prueba se realiza para comprobar los aspectos de navegación o GUI de los informes de front-end.

Cómo crear un caso de prueba ETL

Las pruebas ETL son un concepto que se puede aplicar a diferentes herramientas y bases de datos en la industria de gestión de la información. El objetivo de las pruebas ETL es garantizar que los datos que se han cargado desde el origen hasta el destino después de la transformación empresarial sean precisos. También implica la verificación de datos en varias etapas intermedias que se utilizan entre el origen y el destino.

Al realizar pruebas ETL, dos documentos que siempre utilizará un evaluador de ETL son

  1. Hojas de mapeo ETL:Las hojas de mapeo ETL contienen toda la información de las tablas de origen y destino, incluidas todas y cada una de las columnas y su búsqueda en tablas de referencia. Los evaluadores de ETL deben sentirse cómodos con las consultas SQL, ya que las pruebas de ETL pueden implicar escribir consultas grandes con múltiples uniones para validar datos en cualquier etapa de ETL. Las hojas de mapeo ETL brindan una gran ayuda al escribir consultas para la verificación de datos.
  2. Esquema DB de origen, Target: Debe tenerse a mano para verificar cualquier detalle en las hojas de mapeo.

Escenarios de prueba y casos de prueba de ETL

  1. Validación de documentos de mapeo
    Casos de prueba: Verifique el documento de mapeo si se proporciona o no la información ETL correspondiente. El registro de cambios debe mantenerse en cada documento de mapeo.
  2. Validación
    Casos de prueba:

    1) Valide la estructura de la tabla de origen y de destino contra el documento de mapeo correspondiente.
    2) El tipo de datos de origen y el tipo de datos de destino deben ser los mismos
    3) La longitud de los tipos de datos tanto en el origen como en el destino debe ser igual
    4) Verifique que se especifiquen los tipos y formatos de los campos de datos
    5) La longitud del tipo de datos de origen no debe ser menor que la longitud del tipo de datos de destino
    6) Valide el nombre de las columnas en la tabla contra el documento de mapeo.

  3. Validación de restricciones
    Casos de prueba: Asegúrese de que las restricciones estén definidas para una tabla específica como se esperaba
  4. Problemas de coherencia de datos
    Casos de prueba:

    1) El tipo de datos y la longitud de un atributo particular pueden variar en archivos o tablas, aunque la definición semántica sea la misma.
    2) Mal uso de las restricciones de integridad

  5. Problemas de integridad
    Casos de prueba:

    1) Asegúrese de que todos los datos esperados estén cargados en la tabla de destino.
    2) Comparar los recuentos de registros entre el origen y el destino.
    3) Verifique si hay registros rechazados
    4) Compruebe que los datos no se trunquen en la columna de las tablas de destino
    5) Verificar el análisis del valor límite
    6) Compara valores únicos de campos clave entre los datos cargados en WH y los datos de origen

  6. Problemas de corrección
    Casos de prueba:

    1) Datos mal escritos o registrados de forma incorrecta
    2) Datos nulos, no únicos o fuera de rango


  7. Casos de prueba:
  8. Calidad de los Datos
    Casos de prueba:

    1) Verificación de número: Es necesario verificar el número y validarlo.
    2) Verificación de fecha: Deben seguir el formato de fecha y debe ser el mismo en todos los registros.
    3) Comprobación de precisión
    4) Verificación de datos
    5) Comprobación de nulos

  9. Validar nulo
    Casos de prueba: Verifique los valores nulos, donde se especifica "No nulo" para una columna específica.
  10. Cheque duplicado
    Casos de prueba:

    1) Es necesario validar la clave única, la clave principal y cualquier otra columna debe ser única según los requisitos comerciales si no hay filas duplicadas.
    2) Verifique si existen valores duplicados en alguna columna que se extrae de varias columnas en la fuente y se combina en una sola columna
    3) Según los requisitos del cliente, es necesario garantizar que no haya duplicados en la combinación de varias columnas solo dentro del objetivo.

  11. Validación de fecha
    Casos de prueba: Los valores de fecha se utilizan en muchas áreas del desarrollo de ETL para

    1) Para conocer la fecha de creación de la fila
    2) Identificar registros activos según la perspectiva de desarrollo ETL
    3) Identificar los registros activos según la perspectiva de los requisitos del negocio
    4) A veces, en función de los valores de fecha se generan las actualizaciones e inserciones.

  12. Validación completa de datos
    Casos de prueba:

    1) Validar el conjunto de datos completo en la tabla de origen y destino menos una consulta en una mejor solución
    2) Necesitamos fuente menos objetivo y objetivo menos fuente
    3) Si la consulta negativa devuelve algún valor, estas filas deben considerarse no coincidentes.
    4) Es necesario hacer coincidir las filas entre el origen y el destino mediante la declaración de intersección
    5) El recuento devuelto por intersect debe coincidir con los recuentos individuales de las tablas de origen y destino
    6) Si la consulta negativa devuelve filas y el recuento de intersección es menor que el recuento de origen o la tabla de destino, entonces podemos considerar que existen filas duplicadas.

  13. Limpieza de datos
    Casos de prueba: Las columnas innecesarias deben eliminarse antes de cargarlas en el área de preparación.

Tipos de errores ETL

Tipos de errores ETL

Tipo de errores Descripciones
Errores de interfaz de usuario/errores cosméticos • Relacionado con la GUI de la aplicación
• Estilo de fuente, tamaño de fuente, colores, alineación, errores ortográficos, navegación, etc.
Error relacionado con el análisis de valor límite (BVA) • Valores mínimos y máximos
Error relacionado con la partición de clases de equivalencia (ECP) • Tipo válido y no válido
Errores de entrada/salida • No se aceptan valores válidos
• Se aceptan valores no válidos
Errores de cálculo • Errores matemáticos
• El resultado final es incorrecto
Errores de condición de carga • No permite múltiples usuarios
• No permite la carga esperada por el cliente
Errores de condición de carrera • El sistema se bloquea y se bloquea
• El sistema no puede ejecutar plataformas cliente
Errores de control de versiones • No hay coincidencia de logotipo
• No hay información de versión disponible
• Esto ocurre generalmente en Pruebas de regresión
Errores de hardware • El dispositivo no responde a la aplicación
Errores de fuente de ayuda • Errores en los documentos de ayuda

Diferencia entre pruebas de bases de datos y pruebas ETL

Prueba ETL Pruebas de bases de datos
Verifica si los datos se mueven como se esperaba El objetivo principal es verificar si los datos siguen las reglas/estándares definidos en el modelo de datos.
Verifica si los recuentos en el origen y el destino coinciden

Verifica si los datos transformados son según las expectativas.

Verifique que no haya registros huérfanos y que se mantengan las relaciones de clave primaria externa
Verifica que las relaciones de clave primaria externa se conserven durante la ETL Verifica que no haya tablas redundantes y que la base de datos esté normalizada de manera óptima.
Verifica la duplicación en los datos cargados Verifique si faltan datos en las columnas donde sea necesario

Responsabilidades de un probador ETL

Las responsabilidades clave de un probador ETL se dividen en tres categorías

  • Mesa de escenario/ SFS o MFS
  • Lógica de transformación empresarial aplicada
  • Target carga de tabla desde un archivo de etapa o tabla después de aplicar una transformación.

Algunas de las responsabilidades de un probador ETL son

  • Pruebe el software ETL
  • Componentes de prueba del almacén de datos ETL
  • Ejecutar prueba basada en datos de backend
  • Crear, diseñar y ejecutar Casos de prueba, planes de prueba y arnés de prueba.
  • Identificar el problema y proporcionar soluciones para problemas potenciales.
  • Aprobar requisitos y especificaciones de diseño.
  • Transferencias de datos y archivo plano de prueba.
  • Escribir consultas SQL3 para varios escenarios como prueba de recuento

Pruebas de rendimiento en ETL

Pruebas de rendimiento en ETL es una técnica de prueba para garantizar que un sistema ETL pueda manejar la carga de múltiples usuarios y transacciones. El objetivo principal de ETL Test de rendimiento es optimizar y mejorar el rendimiento de la sesión mediante la identificación y eliminación de cuellos de botella en el rendimiento. Las bases de datos de origen y de destino, las asignaciones, las sesiones y el sistema posiblemente tengan cuellos de botella en el rendimiento.

Una de las mejores herramientas utilizadas para las pruebas/ajustes de rendimiento es Informatica.

Automatización de pruebas ETL

La metodología general de las pruebas ETL es utilizar secuencias de comandos SQL o "observar" los datos. Estos enfoques para las pruebas ETL consumen mucho tiempo, son propensos a errores y rara vez proporcionan información completa. prueba de cobertura. Acelerar, mejorar cobertura, reducir costos, mejorar Defecto ración de detección de pruebas ETL en entornos de producción y desarrollo, la automatización es la necesidad del momento. Una de esas herramientas es Informatica.

Mejores prácticas para pruebas ETL

  1. Asegúrese de que los datos se transformen correctamente
  2. Sin pérdida ni truncamiento de datos, los datos proyectados deben cargarse en el almacén de datos.
  3. Asegúrese de que la aplicación ETL rechace y reemplace adecuadamente con valores predeterminados e informe datos no válidos.
  4. Necesidad de garantizar que los datos se carguen en el almacén de datos dentro de los plazos prescritos y esperados para confirmar la escalabilidad y el rendimiento.
  5. Todos los métodos deben tener pruebas unitarias apropiadas independientemente de la visibilidad.
  6. Para medir su efectividad, todas las pruebas unitarias deben utilizar técnicas de cobertura adecuadas.
  7. Esfuércese por lograr una afirmación por caso de prueba
  8. Crear pruebas unitarias que apuntan a excepciones

Revisa - Preguntas y respuestas de la entrevista de prueba ETL