ETL 测试 – 数据完整性

检查数据完整性是为了验证目标系统中的数据在加载后是否符合预期。

可以为此执行的常见测试如下 −

  • 检查聚合函数(sum、max、min、count),

  • 检查和验证源和目标之间没有转换或有简单转换的列的计数和实际数据。

计数验证

比较源表和目标表中的记录数。可以通过编写以下查询来完成 −

SELECT count (1) FROM employee;
SELECT count (1) FROM emp_dim;

数据配置文件验证

它涉及检查源表和目标表(事实或维度)中的聚合函数,例如 count、sum 和 max。

列数据配置文件验证

它涉及比较不同值和每个不同值的行数。

SELECT city, count(*) FROM employee GROUP BY city;
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

重复数据验证

它涉及验证列中的主键和唯一键,或根据业务要求应唯一的列组合。您可以使用以下查询执行重复数据验证 −

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;