打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
美国内政部数据质量管理指南(四)

第四章 数据质量校正过程
4.1概述
数据质量改进是一项持续的工作,与此不同的是,数据校正应该被视为一次性的活动。因为一个错误的过程可能会产生新的缺陷,从而破坏数据,因此有必要在数据校正的同时对数据质量过程进行改进。
数据更正适用于各种工作,例如:
·使用提取、校正、转换和加载(ECTL)技术部署数据仓库或操作数据存储。
·部署或重新部署一个新的操作应用程序。
·修正数据以取代现有的操作应用程序或决策支持应用程序。(这被称为“就地纠正”。)
在前两种情况下,术语“源”适用于向数据仓库或操作数据存储提供数据的操作系统,或者应用于被新操作系统取代的遗留系统。此外,在这些情况下,术语“目标”适用于数据仓库、操作数据存储或新的操作应用程序。但是,在第三种情况下,“来源”和“目标”一词适用于被纠正的系统。(在本例中,源和目标是相同的。)
在前两种情况下,数据校正工作几乎总是包含在数据仓库部署(ECTL任务)或新应用程序部署(转换和校正任务)的总体计划中。在ECTL和数据修正到位的情况下,任务将同时修正数据和改进工艺,防止产生或获取不合格数据。在ECTL的情况下,由于资源限制,修正和改进之间可能存在差距。因此,由ECTL组件识别的缺陷必须被纠正,捕获,并报告到生产区域。这适用于校正是一次性文件(例如,历史文件)还是运行系统提供的引用或事务数据的正在进行的文件。
对于就地校正,重要的是数据校正和实现数据质量改进之间不存在时间间隔。数据修正和过程改进的实施应密切协调,以防止在后续工作中对相同数据进行额外的修正。
4.2计划数据校正-校正过程步骤1
A策划活动。数据质量项目组将为每项任务建立中期和完成里程碑,以提供进展和问题的明确指标。仔细的计划缩短了执行纠正所需的时间,并将确保在需要时资源可用。若干规划活动应同时进行:
-确定适当的修正方法。
-更新整改计划和时间表。
-确定自动化工具支持需求和进度。
B制定一份数据元素校正计划。数据质量项目组将制定数据元素校正计划,包括以下信息:
-识别每个数据元素/信息组的纠正步骤。
-讨论数据要素校正的可行性(即,是否有原始文件?纠正它是否代价太大?“正确的”数据元素-对内政部内部或任何外部合作伙伴的业务行为是否至关重要?)
-全面校正方法的描述。
-更新工作分解结构,包括识别用于数据元素校正的资源,自动化工具支持需求和进度(例如,要求的可交付成果)。
-必需的可交付成果清单。
-更新的,详细的修正时间表。
C识别需要纠正的数据并确定其优先级。使用数据VCC(在2.2 C节中定义)和数据质量评估报告(在2.7节中定义),结合非质量数据成本分析(在2.6节中定义),数据质量项目组将根据质量、需要纠正的成本和纠正后的收益对数据进行排序。在设计特定数据元素的校正步骤时,必须考虑校正的质量、可行性和成本。
D识别数据校正方法。数据质量评估报告(在2.7节中定义)提供了测量每个数据元素在何处以及如何低于期望的质量水平的方法。不同的质量缺陷可能需要不同的校正技术:
-重复数据的识别和整合。
-纠正错误的数据值。
-提供缺失的数据值。
-计算或重新计算导出或汇总数据值。数据质量项目组将开发一组纠正步骤,以反映影响每个数据元素的业务规则。这些步骤可以手动应用,也可以通过自动化来纠正数据。此外,数据质量项目小组将记录数据缺陷的摘要,以及将应用的相关纠正技术/步骤。
一旦记录了每个数据元素或类似数据元素组的适当纠正步骤,数据质量项目组将描述总体纠正方法,并确定资源和任务的时间表。进度表必须足够详细,以包括任务里程碑,以便很容易地监测纠正进度。纠正应尽可能自动化,以帮助消除错误。还应考虑可能获得工具/技术及其相关培训、开发、测试和生产使用所需的前置时间。
4.3提取和分析源数据-校正过程步骤2
虽然第2.5节中详细介绍的初始评估提供了一种数据质量的度量方法,但可能存在存储在数据元素中的“隐藏”数据,这些数据元素不是其正式定义的一部分。检查数据以发现异常并确定是否可以识别其他数据元素是很重要的。数据质量项目小组将根据数据体系结构(在第2.3和2.5节中定义)分析和映射数据,以确保使用相关的业务规则标识和完全定义数据元素。
A计划和执行数据提取。数据质量项目团队将执行从源数据库或一组相关数据库中提取的数据的随机抽样。(参阅第2.5B条)任何方法都可以用来产生随机抽样,只要产生一个完全具有代表性的样本。
B分析提取的数据。数据质量项目小组将将提取的数据解析为原子级属性,以确保在同一级别检查数据。一旦解析,特定的数据值将根据数据定义进行验证,以识别异常。主题专家将审查这些数据,以确认业务规则和领域集,并定义揭示的“隐藏”数据(即数据字典中找不到其结构的数据)。此外,还将审查数据,以找出可能揭示尚未记录的业务规则的模式,然后由主题专家确认这些规则。发现最初看起来异常的数据可以帮助重新发现被遗忘的业务规则并不罕见。
C记录分析结果。数据质量项目团队将记录数据库中每个数据属性的定义、域值集和业务规则,或者数据定义工作表中记录的相关数据库集。(见图4 - 1)。使用数据映射工作表将数据属性的关系映射到源文件和字段。这些数据将在转换过程中使用。

图4-1:数据定义工作表的说明

表4-1:数据映射工作表说明

4.4执行手动和自动数据校正-校正过程步骤3
在此步骤中,开发、测试和执行手动和自动校正。修正可以就地应用于中间数据库或其他目标,如数据仓库或数据集市。基本技术保持不变。在成功和错误发生时将它们记录下来将使这些纠正技术能够在后续项目中使用。
A标准化原子级格式和值的数据。数据质量项目团队将检查跨数据库的数据在定义、域值和存储格式、非原子数据值的使用以及域重复值的实例(例如,september和Sep)中的一致性。如果数据定义和体系结构需要基于文件和数据库中的实际数据进行细化,数据质量项目团队将基于2.3 F中描述的过程启动数据定义工作。一旦确定了标准化规则,数据质量项目小组将根据标准化、数据合并和转换规则映射源数据
B校正和完善数据。数据质量项目组将纠正和完成第4.2节中确定的数据,使其达到可行的最高质量。如果随后对源数据进行转换和增强,将其合并到数据仓库或数据集市中,则此过程特别重要。数据异常可能包括:
-缺少数据值。
-无效的数据值(超出范围或超出域值集)。
-违反业务规则的数据,例如无效的数据对(例如,一个活跃员工的退休日期)或多余的数据(例如,一个员工有两个配偶)。
-“可疑数据”,如在期望唯一值时出现重复数据值;过分的价值;或“看起来错误”的数据(例如,SSN号码111-11-1111或Start Date of Jan 01, 1900)。
有时候,一些数据可能是“不可纠正的”。数据质量项目团队可以选择通过以下方式处理这种情况:
-拒绝该数据并将其从数据源中排除。
-接受数据并记录异常情况。
-设置数据为默认值或“无法转换”的值。
-估计数据。
估计数据可能是一个可接受的解决方案,但使用不正确的数据的风险应该仔细权衡。从本质上来说,估计的数据值是不正确的,而不正确的数据通常比丢失数据的代价更高。
数据质量项目组将记录纠正每个数据元素类型的方法和处理不可纠正数据的方法(图4-2)。此外,数据质量项目团队将记录纠正每个数据类型的成本,以跟踪数据成本和返工的费用。费用包括:
-是时候开发转换例程了。
-数据校正软件的成本。
-调查和校正数据值所花费的时间。
-使用计算机时间的成本。
-验证数据所需的材料成本。
-必须查明和量化与非质量数据有关的其他费用成本包括:
-非质量数据的成本(报废和返工)包括:非质量数据导致的不可收回成本;冗余数据处理和支持成本;业务报废和返工费用;变通成本和降低的生产力;查找丢失数据的成本;从流程故障中恢复的成本;其他数据验证/清理/更正费用;系统需求设计和编程错误;软件“重写”成本; 负债/风险成本;从流程失败中恢复;以及不满意客户的回收成本。
-“损失”,以收入、利润或客户终身价值来衡量,包括失去的机会成本和错过的机会成本。-任务失败(有影响的风险),如无法完成任务,甚至倒闭。

图4-2:数据校正工作表模板示意图

C匹配和合并数据。在单个数据源或多个数据源中可能存在重复记录的情况下,根据满足涉众期望的匹配标准确定可能合并的候选项。不正确的合并记录会导致重大的处理失败,因此比重复的记录更不可取。必须验证合并记录的匹配标准,以确保在不创建不正确的合并的情况下消除重复。
数据质量项目组将为多个数据元素开发匹配标准,并为每个匹配分配相对权重。如果两个不正确合并的记录的影响很大,那么匹配标准应该非常严格。匹配标准和相对权重/分的例子如下:
-准确匹配的名称,50%或20分。
-拼音匹配的名字,35%或15分。
-准确匹配的地址,25%或10分。
-接近匹配的地址,15%或5分。
-“关键字”匹配,如Bob和Robert或Education and Training, 25%或10分。
匹配标准结果是附加的。在上面的示例中,Name和Address上的精确匹配将产生75%或30分的相对权重,而Name上的语音匹配和Address上的相近匹配将产生50%或20分的相对权重。
数据质量项目小组将检查带有匹配项的记录,以确定它们是否确实是重复的。如果重复记录可以追溯到两个不同的数据源,则应该在控制文件中交叉引用这些记录,以避免将来创建重复记录。在某些情况下,可能不允许在特定数据源中合并特定数据类型(例如,如果涉及的记录已被指定为主记录,且不能删除)。
D分析缺陷类型。数据质量项目小组将分析前面步骤中的错误,以了解模式、成本和对业务的影响。这些模式有助于识别问题,通常指向源流程。成本和影响有助于确定需要解决的可能过程问题的优先级。数据质量项目组将把结果合并并记录在数据元素校正总结报告中,概述如下:
-描述在数据元素校正过程中使用的手动和/或自动校正工具和技术。
-数据文件、记录和修正的元素列表。
-更新数据元素质量标准规范工作表。
-修正指令发送到总部和/或现场工作人员。
E转换和增强数据。数据纠正后,数据质量项目小组将准备数据,以便将数据加载回源数据库或目标数据库。在需要数据转换的情况下,转换过程处理第4.4 A节中确定的任何必要的数据转换。增强过程使用来自外部数据源的数据来增强内部数据。应用于数据的标准化规则定义了数据转换规则,数据转换规则用于开发转换例程。预期的数据转换示例包括以下内容:
-数据提取:将选择的字段映射到目标,不进行转换。例如,订单数据库可能包括订单号、客户ID、发货地址和账单地址,而目标数据仓库数据库可能需要客户ID和发货地址。
-域值转换:将非标准域值转换为标准域值。例如,如果公司的标准是对月份值使用三个字符代码,那么使用数字1-12存储月份的数据库必须转换为三个字符代码。
-编码或分类文本数据:自由文本数据转换为离散代码或域值。一个常见的例子是“reason”文本字段,在该字段中,对数据的检查将产生候选代码或域值。一旦转换为离散代码或值,数据就可以统计地使用。
-垂直过滤:一个用于多种目的的字段被分割成各个目的的离散字段。
-水平过滤:一个字段被分割成原子级组件。这种转换的一个常见示例是将全名拆分为名、姓和中间名的首字母。
-核对和合并:对上述4.4 C节中确定并经核实为真实副本的记录进行合并。
-数据评估与选择:记录从多个数据源组合到一个数据仓库或其他数据库中,选择最权威的数据。如果有疑问,一个非正式的质量评估类似于在2.5节中执行的,可以帮助确定最正确的来源。
增强包括从外部源添加地理、人口统计、行为和普查数据,以支持已确定的业务需求。例如,可以从外部来源获得收入数据,并将其附加到客户的记录中,以帮助确定其第8部分的收益。
F计算导出数据和汇总数据。如果数据是汇总或导出的,数据质量项目团队将计算这些数据。这通常适用于数据仓库或数据集市ECTL。对数据进行汇总或组合,以优化对数据库进行频繁查询的性能。这可以通过以下步骤来完成:
-识别需要摘要或派生数据的查询。
-SME或业务数据管理员定义并验证支持查询的计算规则和/或算法。
-开发并认证用于计算或汇总的软件例程。
4.5确定纠正的充分性-校正过程步骤4
在项目可以结束之前,数据质量项目团队必须评估校正过程的成功。至少执行以下步骤:
A.进行校正后质量评估。数据质量项目团队将确定每个数据元素校正后质量的符合性水平。这种遵从性确定确保:
(1)数据值位于域值集或范围内。
(2)任何“缺失的”数据值现在都存在。
(3)数据值遵循业务规则。
(4)按照4.3 C节规定的数据映射加载数据。
数据质量项目组将验证转换和增强的效果。这种验证确保:
(1)按照预期的方式转换数据。
(2)用预期的正确数据增强记录。
数据质量项目组将通过以下方式验证记录是否按预期加载:
(1)确保工作已完成。
(2)确认处理的记录数量正确。
(3)确认没有任何记录因疏忽而被处理两次。
(4)确保合并正确数量的重复记录。
B评估数据校正技术的影响。数据质量项目团队将以错误或遗漏的百分比记录改正技术的影响:
-使用自动方法准确校正。
-通过人的努力或手段纠正。
-修正到一个不准确的值(有效,但不准确)。
-没有修正,因为它是不可能的或成本太高,以获得正确的价值。
C建议数据修正改进。数据质量项目组将分析数据缺陷,提出适当的改进建议,并更新数据元素质量标准工作表(表2-6),以更正后的结果。
D.记录校正后数据校正结果。数据质量项目组将记录:
-纠正技巧,哪些起作用,哪些不起作用。
-调整校正时间表。
-数据元素校正后遵从级别。
-分析数据质量的弱点并提出相应的改进建议。
-评估整改计划、进度、所需人力资源和角色。
-提高数据质量。
相关链接:
·第一章:内政部实施数据质量改进过程环境
·第二章:数据质量评估过程
·第三章:数据质量改进过程
·第五章:数据质量认证过程

数字化转型的关键 听听亲历者的洞见

美国内政部数据质量管理指南(一)

美国内政部数据质量管理指南(二)

美国内政部数据质量管理指南(三)

谈谈生产数据应用的4个问题

12个保护敏感数据的安全解决方案和数据访问最佳实践

谈谈生产过程数据的质量评估

谈谈数字化转型需要考虑的4个关键问题

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【刘航】成本数据库的系统化解决方案及实操建议丨 地产成本界导师级高管献策
是时候开始做软件缺陷预防了!
一文掌握软件开发项目的成本估算,方法步骤和评价
采集网页数据生成自定义EXCEL表格有多简单?
如何获得99%质量的TICK数据
【毒性数据的查询】一些毒性数据库的使用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服