数据库脱敏泄露风险模型
是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工(知道某个人的姓名,邮编,生日,性别等)或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值,并与大数据平台数据进行匹配,从而得到特定个人的敏感信息。如果攻击者知道某用户的邮编和年龄,就可以得到该用户的疾病敏感信息。为了避免这种情况的发生,通常需要对半标识列进行脱敏处理,如数据泛化等。数据泛化是将半标识列的数据替换为语义--致但更通用的数据,已上述数据为例,对邮编和年龄泛化后的数据。
数据库内置脱敏算法
识别出敏感数据之后,就需要使用脱敏算法来进行脱敏。在比较常见的数据脱敏系统中,算法的选择一般是通过手工,比如通过内置丰富的脱敏算法,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏。内置脱敏算法具有如下几种:
1)同义替换
2)部分数据遮蔽
3)混合屏蔽
4)确定性屏蔽
5)可逆脱敏
数据库脱敏功能
确保数据脱敏有效性:保证脱敏后的数据能够准确反映原始数据的业务属性和数据分布特征,例如对于原始数据中的姓名、地址、病症、企业名称等信息需要在脱敏后仍然具有可读性;脱敏后的数据需要满足业务系统的数据规则,能够正确的通过业务系统的数据有效性验证,如身份号、银行号的校验码,生日数据的区间,有效的发卡行信息,年龄与出生日期的匹配等。
保留数据关联性:脱敏后的数据应能满足业务系统的数据关系特征,严格保留原有的数据关系;例如身份号在多个表中出现,需要保证这些数据经过脱敏后也是一样的。另外,对于具有时间序列关系的数据,需要保证每个日期脱敏后仍然能够保持原有的时间序列。
保证快速脱敏:高场景下的数据量很大,包括表数量多,单表数据多,每日增量数据多等等。为了能够尽可能节省人工劳动成本,脱敏产品的性能一定要高,能够支持增量数据定期自动执行脱敏。
版权所有©2025 天助网