AI吃数据,越吃越便利。数据从哪来?很可能是从你的隐私里来。
但科技公司随意使用隐私数据的时代可能要终结了。
《个人信息保护法》草拟部分中已经把个人公开的数据不得用于当初公开之初衷之外的目的使用。这意味着对数据产生的目的进行了界定。数据不能被随意使用。
如果没有隐私数据的“投喂”,科技公司的 AI算法还能继续走下去吗?我们也会因此失去算法带来的便利吗?
技术产生的问题,由技术解决。
此前,谷歌Chrome浏览器用“密码检查器”功能说明,即使不获取隐私,算法依旧能造福每个人。
当你在网站上输入一段密码后,Chrome可能会给你弹出如下提示:
有些用户在很多网站上都用同一套密码。这些网站里如果有一个被黑客攻破,那么其他网站账户也都岌岌可危。
而谷歌的密码检查器很好地避免了一个账户泄露,而导致其他账号连带遭殃的问题。
因为谷歌拥有一个总量40亿的密码泄露库,当个谷歌用你的密码与这个数据库比对后,便知道你的密码是否泄露。
那么谷歌会在比对过程中获得你的密码吗?
要解答这个疑问,就要说到现在正得到广泛应用的“隐私计算”关于技术。
因为“隐私计算”的存在,你的密码在传输与比对过程中都经过了不可逆的加密,谷歌无从知晓你的数据,只能知道比对结果。
隐私计算是什么?
虽然Chrome最近两年才用上这项隐私保护功能,但实际上,隐私计算的相关技术已经发展了几十年。
简单来说,隐私计算就是通过技术实现数据隐私和安全保护下的数据共享。让不同来源的数据安全共享,产生更大价值,具体包括了如基于芯片的可信计算环境(TEE)、基于密码学的安全多方计算(MPC)、同态加密、源自人工智能的联邦学习等在内的各类技术的使用。
中国信通院去年12月发布了一份《隐私保护计算技术行业研究报告》,隐私计算的价值主要在于:消除数据孤岛,合规避险,弥合信任鸿沟。算是从应用角度上给隐私计算下了一个定义。
隐私计算四小龙
近年来随着数字化推进和个人隐私数据保护需求的激增,加之AI技术飞速发展,隐私计算逐渐得到业内外人士的关注,互联网大厂、传统信息化企业争相开始布局,也涌现了一批技术创业公司。
有四家公司被江湖冠以“隐私计算四小龙”的称号:蚂蚁金服、微众银行、华控清交、翼方健数。
蚂蚁金服拥有隐私保护的TED ENGINE引擎,以差分隐私作为技术重点。微众银行由著名AI学者杨强领队,开源了全球首个工业级联邦学习技术框架。
相比背靠阿里腾讯的前两家,后面两家公司较为年轻与陌生。
华控清交由于是清华姚班校友创立,头顶姚期智的光环,创立两年来一直倍受关注。之前量子位已在《清华姚班的科研能力,能孵化出一家怎样的公司?》一文中介绍过华控清交。
对于这个新兴的行业,不少人对数据“可用不可见”仍抱有疑惑。
其实这只回答了隐私计算的一个方面。
传统依靠保密协议来阻止数据泄露的共享方法,包含了巨大的安全隐患。而使用脱敏的方式已被证实并非完全“安全”。
所以,隐私计算与其说是某一种技术,更不如说是针对客户不同数据应用场景的解决方案。
因此,要让隐私在各个环节都能安全,必须从数据使用过程的各个风险点全盘考虑。
“四小龙”里的翼方健数从数据的使用过程中,描述了如何实现隐私计算技术:数据不出平台,数据在平台内授权使用,平台只输出数据的价值,达成数据安全、隐私保护和价值输出的目标。
△ 图片来自翼方健数官网
一家“0数据沉淀”的隐私计算公司?
如何定义隐私计算,每个行业人士或许都有自己不同的看法。
但对用户隐私和数据安全的认知,行业正在逐渐加强。
2017年发布的《阿里云安全白皮书》曾指出,数据安全和用户隐私是其第一原则,并称阿里云有“极其严格的操作规范和审计制度”:未经用户授权,任何人不得触碰用户数据;工程师所有的运维管理操作,都会被记录并有审计;每次登录都需要通过双因素验证方可操作等。
“客户数据安全和隐私保护是最重要的事情,也是我们最基础的承诺,”阿里云总裁胡晓明曾表示。
而翼方健数则进一步加强对用户数据的重视程度 :“0数据”是每一家隐私计算公司都应该坚持的。
前微软研究院全球合伙人、资深技术专家张霖涛,于去年12月选择加入翼方健数,成为这家公司的首席科学家。
张霖涛是普林斯顿大学计算机工程博士、IEEE Fellow、ACM杰出科学家,在微软研究院工作17年之久,有着丰富的云计算、分布式计算的研究经验。
量子位与张霖涛进行了一次沟通。
关于加入翼方健数这一决定,张霖涛表示,自己关注隐私计算领域已经很久了,认可趋势也认可这个团队在做的事,通过技术让数据有序流通,构建基于数据全新的商业协作网络,更认同将“0数据”作为坚持和底线。
所谓的“0数据”是指“0数据留存”,即数据在翼方健数构建的网络或者平台上流动,翼方健数本身不持有任何他方数据。
毫无疑问,数据互联互通产生的价值对未来科技世界是能产生颠覆效应的,隐私计算本身在解决各方对于数据安全和隐私保护的顾虑。
但如何消除对技术方的不信任,现阶段用0数据的方式“独白自证”或许是一个可行的方式。
隐私计算的普及遇到了什么问题
可是为什么目前隐私计算仍未实现遍地开花?
新技术的下沉落地,需要一个接受和完善的过程。
举例来说,目前常见的隐私计算技术,如:可信计算环境,多方安全计算,联邦学习等,客户在使用这些技术时都会受制于技术的应用场景,并且需要做额外的准备工作。
这是客户期待的隐私计算方案吗?
隐私计算应该是一个集安全存储和安全计算一体化的方案,来帮助客户从数据准备、数据计算以及数据应用的完整解决方案,并在过程中保障数据隐私安全。
从数据的安全存储来看,市面上的文件系统可以解决“多源异构”数据的汇集和管理,但并不能完全应对隐私计算场景。安全存储会使用加密算法对数据进行加密,这会让数据计算复杂化,计算性能会大大降低。而当面对城市级别大数据的计算,性能尤为重要。
数据应用也面临问题,如何兼容各应用所使用的不同的计算模式,满足包括大数据、机器学习及高性能计算等不同计算应用的需求?
这又回到了开头的疑难,如何形成完整的客户满意的隐私计算解决方案。
深耕隐私计算的科技公司通过建立平台产品,并完善应用协作机制来满足客户的需求。
比如,华控清交推出了自主研发的数据安全融合平台,翼方健数有XDP翼数坊隐私计算平台。
我们看一下号称“全球首款医疗数据隐私计算平台”是怎么做的?
首先,翼方健数放弃传统的文件管理系统,而改为自研系统,实现“为隐私计算而生的XFS文件管理系统”。
从上图中可以看XFS文件管理系统向下兼容各种不同类型的文件系统和数据传输协议,向上兼容不同的大数据计算模式,帮助传统大数据计算应用以零成本移植到平台。
通过KMS(秘钥管理系统),XFS实现了对文件级别细粒度加密模式,分布式加密处理,实现单一文件级的风险管控和安全保护。
XFS将安全存储和安全计算有机结合,实现城市级数据处理能力。
翼方健数通过该技术也的确实现了区域和城市级的隐私计算场景。
经过隐私计算的数据,真的有用吗?
行业上,蚂蚁金服、微众银行、华控清交都不约而同在金融领域扎根,而翼方健数聚焦于医疗领域。
医疗行业一直被标榜为隐私计算领域的3大典型应用场景之一,但是纵观行业内,涉及企业寥寥无几。
原因在于相比AI充分渗透的金融行业,医疗行业的数据应用成熟度不高、数据极度敏感、因安全的顾虑产生信息孤岛多,但共享价值极高。
根据翼方健数的官网,确实看到了诸多医疗行业的具体应用。
根据翼方健数的官网,确实看到了诸多医疗行业的具体应用。关于这点,张霖涛向量子位解释道,翼方健数在行业内实现端到端闭环,即从数据治理到通过数据形成AI模型,孕育出智能应用。在行业里跑通了隐私计算的闭环,也证实了数据经过隐私计算后的价值。
这样的做法对于技术团队和专业领域都具有挑战,但或许正是因为这个目标反而让翼方健数建起了一定的行业壁垒。
迈入数据和算法连接的普惠时代
隐私计算元年已过,会迎来爆发式成长吗?
如何发挥数据价值,为不同行业、不同来源、不同类型的数据提供安全的交流中心和资产化机制/数据货币化机制,是隐私计算领域下一步的关键。
翼方健数提出要构建IoDC数据和计算互联网。
网络确实是一个能够囊括所有资源的方式,掌握数据的各个企业将数据安全地贡献出来,而那些数据不成熟的小企业,通过隐私计算获得普惠的数据价值。
听上去不错,那么数据和计算互联的价值,潜力到底有多大?
据第三方机构Statista数据统计,2020年,全球大数据数据量将达50.5ZB。
如果这50ZB是一个“可用不可见”的统一整体,其中所蕴含的能量,不可想象。
当然,打通数据绝非一项技术、一家企业就能完成。
如果说“AI四小龙”让我们享受到了算法的普惠,那么“隐私计算四小龙”则将我们带入AI落地的下一站:数据和算法连接的普惠。
华控清交和翼方健数只是这个赛道中两个新兴企业的缩影。也许就像“AI四小龙”的概念逐渐淡化一样,未来随着隐私计算的赛道越来越宽,这个行业会更加百花齐放。
“