隐私计算的技术严肃性与合规边界的定调

开放隐私计算 2022-09-24

The following article is from 郭嘉日记 Author 郭嘉字奉孝

序言：最近的行业，有说门槛低的、有说行业大风口来的、有说在过去所有名词前面加“可信”二字就成为“新鲜事物”的。各种企业都突然之间能通过各种评测、都能在技术上“游刃有余”。这使得媒体很慌、不知道现在行业到底在哪个阶段；这也使得从业者很慌、不知道自己还有没有抠技术细节的必要。我想说，如果它是一个低门槛的技术，也没必要抱太大的幻想；如果它是一个百花齐放的行业，就没必要看着别人而着急自己；如果它在某种程度上进行着“大跃进”，那大可不必因为步子迈得太大而扯到蛋。

成熟

我是一个做Linux服务器出身的C++工程师，软件成熟度从在研究所里就根深蒂固。所有的没经历过生产环境的千锤百炼，都无从谈大规模落地应用。特别是厂商自己，如果也把现在的数据拉通试点场景作为放大技术应用的落地，那是不是会很可笑呢？

我觉得隐私计算技术的成熟度，目前远远还需要提高的，这是一种多维度的提高。包括功能、性能、安全性。这三者不能分开去说，或者缺了一个，都不能称成熟。

如果足够成熟，隐私计算技术就能定价的更高，你信吗？假设你拍着胸脯用“对赌”来保证客户的生产业务完全稳定、完全合规，客户是愿意花更多的钱的。现在的市场定价，甚至没有一个普通的数据管理平台贵！这对密码学技术而言是不够等价的。

严肃

我特别不认可有些媒体误解了有些媒体说的“隐私计算门槛低”的观点。后者是想表达因为随着开源的普及，更多的用户可以以更低的技术投入和研发周期，来使用隐私计算技术解决自己特定的数据安全需求。而前者往往开始具体字眼的断章取义，把这个意思曲解成“隐私计算技术门槛低、七拼八凑也就能搞定数据安全”，这种曲解其实是会误导数据行业对安全的认知误区。

或者我这样来表达吧，安全的边界不是说用了什么技术，而是从理论和工程上有强大的依据和验证。是不是按照有些媒体的意思是，数据安全只要学会用开源的联邦学习，就是符合监管的呢？显然不是，不管是什么联邦学习、可信环境、多方计算，只有深刻掌握其本质，才有机会在被攻击时作出快速修复和迭代。

所以，对于隐私计算技术厂商而言，对技术的严肃是对这个行业的一种责任。

矛盾

我们都知道，联邦学习保护了双方lables和features不出私域，完成分布式的机器学习模型训练。但是在调用model的时候，其实还是ID会被缓存。这个是不是常常被法务会挑战？你说隐私计算，到底还是出去了嘛！

然后，技术就开始出方案，用匿踪的方式。其实很多的数据源是对匿踪这类服务不友好的，而且匿踪在性能上对很多业务是不适用的，比如实时的广告投放等。

这就是用了隐私计算，经常会在客户要的完美方案和实操过程存在的矛盾。

这些矛盾，需要技术以“严肃”的态度去解决、去发展。

定调

正文评测千万条，不如先定调。何为安全？主管单位不妨出一些具体的标准，来“背锅”做到什么样的情况，就是合法合规的了。

“不能把原始数据搞来搞去”这是大部分人的安全概念，那合规边界的条例指导是什么？ID到底能不能出去、标签脱敏到底能不能查、弱授权能查哪些、强授权又能查哪些？诸如此类的问题边界始终困扰着业务口与合规部门。似乎谁都清楚、也似乎谁都不清楚、又可能都在装糊涂：“宁缺毋滥的保守派作风”。

应该定个调子《企业数据共享合规实操指导标准》，敢担当的有关部门说“这样做，就是符合安全合规要求了”。技术会很快、主动朝着这个调子一下子靠拢回来。没这个东西，似乎在落地的事情上都是畏手畏脚，都在看别人怎么弄。

END
往期推荐: