打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据治理(五):规则处理引擎

对于数据治理而言,针对不同来源、不同格式的数据,利用规则处理引擎将其规范化,是一个非常重要的过程。

数据治理为每个数据项制定相关联的数据元标准,并为每个标准数据元定义一定的处理规则,这些处理逻辑包括数据转换、数据校验、数据拼接赋值等。基于机器学习等技术,对数据字段进行认知和识别,通过数据自动对标技术,解决在数据处理过程中遇到的数据不规范的问题。

举例:根据数据项标准定义规则模板,下图中出生日期的值域稽核规则为YYYY:MM:DDYYYY-MM-DD,其取值范围规则为:1900<YYYY<=20201<=MM<=121<=DD<=31。将数据项与标准库数据对应起来。

2.规则处理示意图

借助机器学习推荐来简化人工操作,根据语义相似度和采样值域测试,推荐相似度最高的数据项关联数据表字段,并根据数据特点选择适合的转换规则进行自动标准化测试。根据数据项的规则模板自动生成字段的稽核任务。

规则体系中包含很多数据处理的逻辑:将不同数据来源中各种时间格式的数据项,转化成统一的时间戳(timestamp)格式;对数据项做加密或者哈希转换;对身份证号做校验,检验是否为合法的18位身份证号,如果是15位的,则将其统一转换成18位;将多个数据项通过指定拼接符号,连接成一个数据项;将某个常量或者变量值赋给某个数据项等。

规则库中的规则可以多层级迭代,形成数据处理的一条规则链。规则链上,上一条规则的输出作为下一条规则的输入,通过规则的组合,能够灵活地支持各种数据处理逻辑。例如:对身份证号先使用全角转半角的规则,对输出的半角值使用身份证校验转换规则,统一成18位的身份证号;再对18位身份证号使用数据脱敏规则,将身份证号转成脱敏后的字符串。

您的赞赏就是我前进的动力

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【日常笔记】数据处理
Spring MVC中基于自定义Editor的表单数据处理技巧分享
Excel身份证号码提取出生年月日公式:Excel函数不求人
学习Excel数据唯一性:检查数据不重复,提高数据可用性
身份证信息提取
大数据热点技术综述【鹏越·精选】(下)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服