数据脱敏技术研究及展望

来源：信息安全与通信保密杂志社

作者：沈传年、徐彦婷

摘　要：信息技术的快速发展和广泛应用，使得全球大数据储量和产业规模呈爆发式增长，数据已成为推动经济社会发展的重要生产要素。数据价值持续释放的同时，数据的安全性问题也越来越受到关注。近年来，全球范围内数据泄露事件频频发生，而针对数据安全的传统解决方法大都聚焦于通过数据加密、访问控制等来严格控制数据的应用范围，以降低数据泄露的风险，这明显不能满足当前数字经济发展的需求。数据脱敏技术作为能够解决平衡数据安全和数据共享问题的重要技术手段，正逐渐被应用于各行业领域中，并成为业界研究的热点。首先介绍了数据脱敏技术的基本概念和应用需求，然后详细阐述了数据脱敏技术的各类算法规则，最后对数据脱敏技术未来可能的发展趋势进行了展望。

内容目录：

1　数据脱敏概述

1.1　数据脱敏定义

1.2　数据脱敏分类

2　数据脱敏需求

3　数据脱敏算法

3.1　传统脱敏算法

3.2　数据匿名化算法

4　数据脱敏展望

4.1　数据脱敏的更合规化

4.2　数据脱敏的高性能化

4.3　数据脱敏的非结构化

4.4　数据脱敏的高智能化

4.5　数据脱敏的多场景化

5　结　语

随着物联网、人工智能、5G 等信息技术的快速发展和不断应用，大数据时代已悄然到来，全球各行业领域的数据储量和数据产业规模正呈现爆发式增长的态势。IDC 预测，2018—2025年，全球数据量将从 33 ZB 猛增至 175 ZB，而根据工业和信息化部相关预测，2021—2025 年，我国的大数据产业规模将从 1.3 万亿元突破至3 万亿元，数据已然成为推动经济社会发展最重要的基础生产要素之一。数据价值持续释放的同时，数据安全问题受关注度也在不断攀升，Risk Based Security 报告显示，2021 年全球公开披露的数据泄露事件高达 4 145 起，共导致约 227 亿条数据被泄露，其中影响较大的泄露事件包括：5.53 亿 Facebook 用户的全名、出生日期、电话号码等敏感数据被泄露；7 亿多条 LinkedIn 用户的全名、性别、电子邮件、电话号码、行业信息等敏感数据在 RaidForums 上被黑客出售等。

数据泄露事件的日益增加给个人生活、企业利益以及国家安全造成了不同程度的威胁，因此，如何确保数据安全已成为当前数据产业发展中需要解决的首要问题。而目前，针对数据安全问题的传统解决方案大都聚焦于数据加密处理、数据访问控制等，其目的是通过严格控制数据应用范围来降低数据被泄露的风险，这明显不能满足当前数据互联互通已成为发展趋势的需求。因此，如何在保证数据安全的前提下，最大限度地进行数据价值的挖掘使用，已成为大数据时代最受关注的问题之一。近年来，数据脱敏技术作为解决平衡数据安全和数据共享问题的重要技术手段，逐渐进入人们的视野，并被广泛应用于大数据产业发展中，其因较好地平衡了数据的安全性和可用性，已成为业界研究的热点。

1 数据脱敏概述

1.1　数据脱敏定义

敏感数据是指泄露以后可能会给个人生活、企业利益以及国家安全带来严重威胁和损害的数据，敏感数据不但包括个人隐私数据，例如姓名、手机号码、身份证号码、工作单位、银行账号、电子邮箱、家庭成员、社会关系、医疗信息、教育经历等；还包括社会机构的隐私数据，例如企事业单位的组织架构、核心技术、经营情况、员工薪酬等。

数据脱敏又称数据漂白、数据变形或数据去隐私化，是指在保留数据原始特征的情况下，根据给定的脱敏规则和策略对敏感数据进行变换，从而去除数据中的敏感信息，以保护敏感数据避免未经授权而被非法访问、获取，同时又可以根据需要对敏感数据进行相关处理，使得敏感数据依旧可以被使用。数据脱敏在保证敏感数据安全性的同时保证了数据的有效性和可用性，既避免了敏感数据被泄露的风险，也较好地解决了敏感数据在非安全、非可信环境中的使用问题。

1.2　数据脱敏分类

根据面向的应用场景不同以及技术实现方式不同，数据脱敏技术可以分为静态数据脱敏和动态数据脱敏。

1.2.1　静态数据脱敏

静态数据脱敏一般适用于在开发、测试、数据分析、培训等非生产环境应用场景中对非实时访问数据进行脱敏，为了避免泄露风险，数据必须先脱敏后使用。静态数据脱敏的目标在于根据设置好的数据脱敏规则和策略，对大批量的数据集进行统一脱敏处理，脱敏操作不会破坏数据的内在关联关系和统计特征等有价值的信息，在满足非生产环境应用场景对数据使用需求的同时，又能保证数据提供方最大限度地降低数据的敏感程度，确保数据在使用过程中不会发生敏感信息泄露。静态数据脱敏如图 1 所示。

图 1　静态数据脱敏

1.2.2　动态数据脱敏

动态数据脱敏一般适用于敏感数据需要对外提供访问服务的生产环境应用场景中。动态数据脱敏的目标在于根据设置好的数据脱敏规则和策略，对外部在线申请访问的敏感数据进行实时的脱敏处理，并能即时反馈数据脱敏后的处理结果，其数据脱敏规则和策略需要根据不同情况下对于相同敏感数据的访问做不同的脱敏处理。例如，根据访问的用户对象不同，需要设置不同的脱敏规则和策略，从而使得不同用户对象根据不同的脱敏方案进行相应的敏感数据访问。动态数据脱敏可以实时调整数据脱敏规则和策略。动态数据脱敏如图 2 所示。

1.2.3　两种脱敏方式比较

为了更加全面、直观地展现静态数据脱敏和动态数据脱敏之间的差异，本文从应用场景、脱敏状况、部署方式、优缺点等方面对两种脱敏方式进行简要比较，如表 1 所示。

表 1　静态数据脱敏与动态数据脱敏比较

由比较结果可以看出，在应用场景方面，静态数据脱敏应用于开发、测试、数据分析、培训等非生产环境场景中，而动态数据脱敏应用于需要对外提供访问服务的生产环境场景中。在脱敏状况方面，静态数据脱敏对非实时访问数据进行脱敏，而动态数据脱敏则在使用敏感数据时才进行脱敏。在部署方式方面，静态数据脱敏包括单服务器部署和成对服务器部署，而动态数据脱敏包括主动服务模式和代理部署两种方式。静态数据脱敏的优点包括：数据脱敏后不会破坏数据的内在关联关系和统计特征等有价值的信息，且数据信息损失很小，其脱敏效果比动态数据脱敏好；但其缺点也很明显，由于需要对大批量的数据集进行统一脱敏处理，计算开销较大，处理效率不高，而且在进行脱敏操作时容易暴露所有待脱敏的数据。动态数据脱敏的优势在于：可以根据用户的不同角色、不同权限设置不同的脱敏级别，以达到对脱敏数据的分级保护。由于动态数据脱敏对所有数据采取按需脱敏的策略，一定程度上提高了需求方获取脱敏后数据的时效性。另外，动态数据脱敏还支持对数据的动态更新。其缺点则包括：对系统的鲁棒性要求较高，脱敏算法实现难度较高，脱敏效果不及静态数据脱敏。

因此，根据上述两种脱敏方式的比较可以得出结论：静态数据脱敏技术和动态数据脱敏技术都存在各自的优缺点，两种脱敏方式各有其适用的应用场景，因此在实际使用中，应结合各自的技术特点和应用场景需求进行选择。

2 数据脱敏需求

在大数据时代，为了满足各种社会生产发展需求，我们需要从海量数据中获取有用信息，因此需要对各类数据进行开发、测试、交换、共享等高效融合、挖掘，以创造出更高的数据使用价值。但是当前数据安全需求与合规监管要求对数据挖掘提出了更高的要求，而数据脱敏技术则相应需要满足以下方面需求：

（1）能够精确识别数据中的重要敏感信息。数据脱敏过程中的首要关键环节是能够对大数据中的重要敏感信息进行精确识别和匹配，因此，需要根据数据的分类、分级策略，创建针对大数据中的重要信息、核心信息、敏感信息、个人信息等多维度信息的特征库模型，通过正则表达式、深度学习等方式对脱敏过程中数据的各类重要敏感信息进行精确识别和匹配。

（2）数据脱敏性能需满足大数据处理需求。大数据时代的数据脱敏需要面对的是海量的数据，传统的数据脱敏工具已无法完成如此体量数据的收集、筛选、脱敏、投递等操作，这就对数据脱敏的性能提出了更高的要求。因此，需要通过机器学习、集群化部署等方式进行多任务并行处理，以实现数据处理能力的提升，从而满足大数据场景下数据脱敏的批量、快速处理需求。

（3）需保证数据脱敏后在各环节的关联性。数据脱敏规则和策略的制定需要确保数据脱敏后在应用场景诸如开发、测试、交换、共享等各应用阶段的数据关联性和业务语义不变，例如，数据脱敏后，原始数据的定义不能出现歧义；原始数据的类型、格式、长度等要素不能发生变化；原始数据之间的各种关联关系不能发生变化。从而更好地保证数据脱敏后在各应用环节的可用性。

（4）需做到对数据脱敏操作全流程监管。为确保数据脱敏操作过程的安全可靠，需要对数据脱敏操作进行系统化、规范化的全流程监管，以实现操作过程的安全、可控。例如，需对脱敏数据的敏感内容进行审计；对数据脱敏后的内容与开展业务所需的内容进行匹配；针对不同的外部访问对象使用不同的脱敏规则和策略，并对其访问操作进行全程监控，以确保访问数据的安全性。

3 数据脱敏算法

数据脱敏技术的目的是通过一定的方法对敏感数据进行处理以降低敏感数据的敏感程度或者使得敏感数据不再包含敏感信息内容，从而使敏感数据经脱敏后在保证其可用性、关联性的前提下，达到数据失真的目的。脱敏算法的选择和应用是数据脱敏技术的核心问题，我们应根据不同的场景、不同的数据类型、不同的数据特征以及不同的脱敏需求等，选择不同的脱敏算法。传统的脱敏算法包括：替换、仿真、加密、遮掩、混淆、偏移、均值化等。此外，为了提高数据集整体的隐私安全性，有效降低数据的敏感程度，实现高可靠的敏感信息保护能力，还存在更为复杂的数据匿名化算法，包括 K- 匿名（K-Anonymity）、L- 多样性（L-Diversity）、T- 相近（T-Closeness）等。

3.1　传统脱敏算法

3.1.1　替换

替换是指使用具有相似业务特征的伪装数据对原始数据中的敏感数据进行替代，使得原始数据中的相关字段失去原有语义，从而破坏其可读性。为了确保数据的安全性，替换所使用的数据一般具有不可逆性。替换包括映射替换、随机替换和参数替换。映射替换使用替换码表对原始数据中的敏感数据进行整体替换；随机替换使用随机字符对原始数据中的敏感数据进行部分替换；参数替换通过将敏感数据作为参数输入，经过一定规则的函数变换以获得脱敏后的数据。替换算法虽然是最为常用的脱敏算法之一，但该算法会导致脱敏后的数据失去其业务属性，不利于数据的后续使用。以表 2数据为例，使用数据替换方式将表格中所有性别整体替换为“XX”，脱敏后数据效果如表 3所示。

3.1.2　仿真

仿真是仿照原始数据中的敏感数据内容生成符合敏感数据原始内容语义和格式的新数据，通过相同语义的新数据替换原来的敏感数据，以保证脱敏后的数据能够保持业务数据之间的关联关系，从而使得脱敏后的数据具有较好的可用性。以表 2 数据为例，将表格中所有姓名仿真脱敏后仍为有意义的姓名，脱敏后的数据效果如表 3 所示。

3.1.3　加密

加密是指通过使用诸如 MD5、Hash、AES 等密码学算法对敏感数据进行加密操作，加密处理后的数据与敏感数据的原始内容在逻辑规则和格式上保持一致，外部未经授权的用户只能访问到无实际意义的密文数据，在特定需求场景下，系统也可以给相关需求方提供解密能力以恢复敏感数据的原始内容。以表 2 数据为例，将表格中所有身份证号按照某种加密算法进行加密脱敏，脱敏后数据效果如表 3所示。

3.1.4　遮掩

遮掩是指通过使用诸如“*”“﹖”“﹟”等特殊符号对敏感数据中的部分内容进行掩饰，使得敏感数据只选择公开部分原始内容。该算法在实现数据脱敏、达到保护敏感数据真实信息的同时，较好地保持了敏感数据原始内容的格式，是目前使用较为广泛的脱敏算法。以表 2 数据为例，将表格中所有身份证号的前 6位保留不变，其余部分使用“*”进行遮掩，脱敏后的数据效果如表 3 所示。

3.1.5　混淆

混淆是指通过对敏感数据内容在指定条件下进行打乱重排和重新分布，从而破坏与其他字段数据的关联关系，使得混淆后的数据不再具有原始内容的语义。混淆算法可以保持敏感数据原始内容的组成格式，例如将数字混淆为数字、字母混淆为字母、符号混淆为符号，一般不会影响数据统计特性等业务数据信息。以表 2 数据为例，将表格中手机号的前 3 位网络识别号保留不变，对其余部分进行无规则打乱，脱敏后的数据效果如表 3 所示。

3.1.6　偏移

偏移主要是通过对敏感数据内容进行随机移位来改变数据内容，偏移算法一般适用于数值型数据。例如，我们可以将个人相关敏感时间数据统一偏移一定的数字以实现数据脱敏的目的，不过该算法在诸如背景关联等特定条件下也存在被破解的风险，因此在实际应用中一般是结合其他算法共同使用。以表 2 数据为例，将表格中所有到账时间进行偏移操作，脱敏后的数据效果如表 3 所示。

表 2　原始数据表 A

表 3　传统脱敏算法的脱敏效果

3.1.7　均值化

均值化一般针对数值型的敏感数据，首先对指定范围的敏感数据进行求和，然后计算出其平均值，最后将脱敏后的数据随机分布在均值附近，以保持数据的总和不发生变化，该算法在一定程度上保证了数据的统计特性。以表 2 数据为例，将表格中所有工资数据进行平均值处理，工资总数不变，脱敏后的各工资数据值在均值9 320.15 附近，脱敏后的数据效果如表 3 所示。

3.2　数据匿名化算法

3.2.1　K- 匿名

K- 匿名（K-Anonymity）最早由 Samarati 和Sweeney 于 1998 年提出，其基本思想是如果在一组公开的数据集中，任何一条记录都不能与其他至少 k-1 条记录进行直接区分，则称该条记录满足 K-Anonymity。在该数据集中，每种敏感数据的属性组合需要同时出现在 k 条记录中，无法被区分的 k 条记录被称为一个等价类。K- 匿名虽然可以对敏感数据进行匿名化处理，但没有对敏感数据的属性进行任何保护，这就容易导致数据遭受背景知识攻击和同质攻击等。以表4原始数据表B为例，表中“ID 号”和“姓名”为标识符属性，“性别”“年龄”“身高”为准标识符属性，“疾病”为敏感属性。为防止病人病历信息的泄露，在匿名化后的表格中，将不再发布“ID 号”和“姓名”字段值，“性别”字段的部分值用“*”代替，匿名化后的“性别”“年龄”“身高”3 个属性具有 2- 匿名性，即任何一行字段在这三列上的值的组合都至少出现了 2次，详细结果如表 5 所示。

表 4　原始数据表 B

表 5　2- 匿名表

3.2.2　L- 多样性

L- 多样性（L-Diversity）是指如果对于任意相等数据集（等价类）内所有记录对应的敏感数据属性集合，至少包含 L 个“良好表示”（Well-Represented）值，则称该等价类满足 L-Diversity，如果数据集中所有等价类都满足 L-Diversity，则称该数据集满足 L-Diversity。L- 多样性是对 K- 匿名在敏感数据属性方面的一种改进，相较 K- 匿名，L- 多样性使得未经授权的外部用户最多只有 1/L 的概率能够获取敏感数据中的敏感信息内容，显著降低了敏感数据被泄露的风险。以表 6 原始数据表 C 为例，L- 多样性后的结果如表 7 所示，表中有 3 个等价类，每个等价类中至少包含3个不同的敏感属性值，因此这部分公开的数据就满足 3- 多样性属性。

表 6　原始数据表 C

表 7　3- 多样性匿名表

3.2.3　T- 相近

T- 相近（T-Closeness）在 L- 多样性的基础上进行了改进强化，增加了对数据敏感属性值分布的约束，其要求每一个等价类中敏感属性值的分布与整个数据表中敏感属性值的分布之间的差异不超过给定的参数 t，即该等价类满足 t-Closeness，从而使得每个等价类中敏感属性值的统计分布与整个数据表中敏感属性值的总体分布“相近”，即该数据表满足t-Closeness。

在这 3 种匿名化算法中，K- 匿名可以抵御链接攻击，但无法解决同质攻击问题；L- 多样性虽然可以抵御同质攻击，但却不能解决偏斜攻击和相似性攻击；T- 相近则可以有效解决偏斜攻击和相似性攻击，实现敏感数据的隐私保护需求。

4 数据脱敏展望

近年来，数据脱敏技术已逐渐应用于社会生产的各相关领域，数据脱敏技术在一定程度上有效地保护了各类敏感数据隐私信息的外泄。与此同时，数据脱敏技术本身也经历了从只适用于非生产环境的静态数据脱敏到可以适用于生产环境的动态数据脱敏的应用场景的演进，而随着信息化技术的不断深入发展，文本、图片、音视频、XML、HTML 以及各类报表等非结构化数据将会成为数据脱敏技术未来研究的重要目标对象。因此，随着未来社会生产中数据脱敏场景需求的日益多样化和复杂化，数据脱敏技术仍面临着不断优化和提升的需求，未来数据脱敏技术的发展趋势将可能包括以下几个方面。

4.1　数据脱敏的更合规化

当前随着数据泄露事件的频发以及《数据安全法》《个人信息保护法》等数据法律法规的相继出台，使得各领域企业不得不将数据使用的合规性作为首要考虑的问题。数据脱敏技术本身在能够有效保护敏感数据隐私信息泄露的同时，也面临着如何使用才能更合法合规这一现实问题，这也决定了数据脱敏技术将来能否全面普及应用。未来在数据脱敏技术的使用过程中，可以考虑将政策监管要求、企业业务需求同数据脱敏技术算法策略的选择相结合，在符合国家政策法规的前提下，最大限度地帮助企业实现能够满足业务需求的数据脱敏处理，这将是数据脱敏技术后续研究的重要方向。

4.2　数据脱敏的高性能化

随着各行业领域的数据储量和数据产业规模的爆发式增长，数据脱敏技术在实际操作过程中所需面临的处理敏感数据的规模也呈指数级地提升，当前数据脱敏技术尚达不到处理不断增长的海量数据的要求。此外，由于未来社会生产对数据使用实时性的需求愈发迫切，数据脱敏技术即使能够满足应对大规模数据处理的需求，但其是否能够实时、高效地完成针对大规模数据的快速脱敏处理，做到“即脱即用”，也将成为迫切需求。因此，能满足大规模数据处理和快速响应的高性能需求将成为未来数据脱敏技术另一重要发展方向。

4.3　数据脱敏的非结构化

当前数据脱敏技术主要针对数据库等有数据结构的结构化数据，相较结构化数据，文本、图片、音视频、XML、HTML 以及各类报表等非结构化数据在当前社会生产中的应用程度已越来越高，各领域企业对涉及用户敏感信息的非结构化数据的挖掘和使用也越加频繁，原先针对结构化数据的数据脱敏技术已无法满足非结构化数据的脱敏需求。因此，针对非结构化数据的脱敏技术研究将成为未来新的探索方向。

4.4　数据脱敏的高智能化

目前，数据脱敏操作过程中依然存在诸多需要人工干预的步骤，例如待脱敏数据的选择和识别、数据脱敏算法策略的绑定等，而随着待脱敏数据规模的不断扩大，传统的人工干预方式效率低下的问题将越发凸显。因此，未来通过应用机器学习、文本聚合与分类以及自然语言处理等技术，结合已制定的敏感数据分类分级策略和数据脱敏算法策略，实现对敏感数据内容的自动准确识别，对敏感数据范围的智能化调整，对脱敏算法策略的自动化适配等高度智能化数据脱敏技术将成为值得深入研究的内容。

4.5　数据脱敏的多场景化

由于不同领域和行业产生的敏感数据一般具有不同的特点，如敏感数据的类型可能为文本、图片、音视频、XML、HTML 等不同数据格式等，而且不同行业对于敏感数据的脱敏需求和脱敏程度都不一样，因此未来可以考虑对各领域和行业的实际业务应用场景需求进行细分和归类。例如，针对医疗行业，重点需要对病人的病历信息进行脱敏；针对银行业，重点需要对用户的账户信息进行脱敏；针对保险行业，重点需要对用户的保单信息进行脱敏等。针对相同或者相似应用场景案例研究出特定的数据脱敏模板方案，以形成具备不同行业或业务特征的数据脱敏功能，将会完善未来数据脱敏场景多样化的需求。

5 结　语

当前，数据脱敏技术凭借其能有效平衡数据隐私安全和开放共享的技术优势，已成为大数据时代在保证数据安全的前提下，进行数据深度挖掘的重要技术手段。然而数据脱敏技术在计算性能、智能化、多场景需求以及合规性等方面仍面临诸多挑战，数据脱敏技术要想实现更多领域和更大规模的推广使用，未来必须在技术发展和创新方面进一步提升，同时使技术应用与政策监管相融合，使得数据脱敏技术在合法合规的基础上，更好地满足未来用户对数据安全共享的深度需求。本文首先介绍了数据脱敏技术的基本概念和应用需求，然后详细阐述了数据脱敏技术的各类算法规则，最后对数据脱敏技术未来可能的发展趋势进行了展望。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。