数据库脱敏的功用
用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面, 完全保留用户隐私数据信息,可较大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,
动态数据库脱敏实现机制
用户的数据请求被代理实时在线拦截并经脱敏后返回,此过程对于用户及应用程序完全透明。这种机制的脱敏判断是在数据容器外实现,因而能够适用于非关系型数据库,如大数据环境。脱敏代理部署在数据容器的出口处以网关方式运行,检测并处理所有用户与服务器间的数据请求及响应。它的好处是,无需对数据存储方式及应用程序代码做出任何更改。代理实现数据脱敏的具体方法是查询语句或响应语句替换。代理能自动识别目标为敏感数据的查询语句,并将语句改写为不包含敏感字段,或对敏感字段进行变换处理的查询语句。查询结果返回代理时,会被重新计算、修改并包装为与原请求一致的格式交付用户,从而完成一次敏感信息的查询过程,
数据库脱敏功能
确保数据脱敏有效性:保证脱敏后的数据能够准确反映原始数据的业务属性和数据分布特征,例如对于原始数据中的姓名、地址、病症、企业名称等信息需要在脱敏后仍然具有可读性;脱敏后的数据需要满足业务系统的数据规则,能够正确的通过业务系统的数据有效性验证,如身份号、银行号的校验码,生日数据的区间,有效的发卡行信息,年龄与出生日期的匹配等。
保留数据关联性:脱敏后的数据应能满足业务系统的数据关系特征,严格保留原有的数据关系;例如身份号在多个表中出现,需要保证这些数据经过脱敏后也是一样的。另外,对于具有时间序列关系的数据,需要保证每个日期脱敏后仍然能够保持原有的时间序列。
保证快速脱敏:高场景下的数据量很大,包括表数量多,单表数据多,每日增量数据多等等。为了能够尽可能节省人工劳动成本,脱敏产品的性能一定要高,能够支持增量数据定期自动执行脱敏。
版权所有©2024 天助网