数据质量监控
2:完整性:是指数据是否完整,描述的数据要素,要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失以及主外键参照完整性的内容。
3:一致性:第一就是原始数据即文件接口和入库的数据记录条数是一致的。第二就是同一指标在任何地方都应该保持一致。
4:有效性:描述数据取值是否在界定的值域范围内,主要包括数据格式、数据类型、值域和相关业务规则的有效性。
构造数据质量评估模型要经过4个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。
下面将结合具体的实例来说明如何构造数据质量评估模型。
1、确定数据集评估应用视图
在进行数据质量评估时,首先要提出数据质量评估的需求,要确定哪些数据是用户感兴趣的(包括数据库、数据库中的数据集和数据集上的字段),对它们建立对应的用户视图。
2、选择评估指标
对于每个给定的数据集,选择所需要的评估指标: 对于Customer,选择完整性和有效性两个指标。
3、制定规则集
根据选择的评估指标,制定数据质量评估规则,并确定它们相应的权值和期望值。对于Customer,针对完整性和有效性指标制定以下规则:
(1)ID非空(权值:5,期望值:90):完整性
(2)ID长度为18位(权值:10,期望值:90):准确性
(3)Sex值为F或M (权值:10,期望值:98):有效性
4、计算规则结果得分
对于规则集中的每条规则R,检查数据集上的数据实例,计算满足R的数据元组的百分比,得到R对应的结果S。计算数据元组总数的百分比,就是最终结果:假设它们的结果分别为95,90,90。
参考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
http://www.5ykj.com/Article/xslwqygl/98050.htm
优质内容筛选与推荐>>