清华孵化、张钹加盟的这家公司,现在把“第三代人工智能”落地了

AI资讯1年前 (2023)发布 AI工具箱
322 0 0

一家清华孵化的公司,最近“口出狂言”了。

回顾2020的AI大事件,烧了微软10000张GPU的GPT-3必定榜上有名。

这也让人们不禁感叹:这年头,AI简直就是“暴力美学”。

但就在行业内的大多数仍在大数据、大算力这个方向上狂奔的时候,这家公司另辟蹊径找寻不一样的AI落地之路:

还不只是说说而已,最近,在“2020第三代人工智能产业论坛暨瑞莱智慧RealAI战略发布会”上,他们还真就将清华实验室里最前沿的第三代人工智能技术体系搬了出来,商用化落地了:

  • 首个编译级隐私保护机器学习平台RealSecure,让隐私保护学习从“雕版印刷”走向“活字印刷”
  • 首个企业级人工智能安全平台RealSafe,相当于AI算法的“杀毒软件”

还有可解释机器学习建模平台、拿下了世界冠军的deepfake“杀手”……

张钹院士还在亲自给这家公司的产品路线定下了关键词:发展安全、可信、可靠和可扩展的AI技术。

公司的名字,叫RealAI,孵化自清华人工智能研究院。

所以,RealAI基于第三代人工智能技术打造的产品,究竟有何不同?

AI发展的新维度,又具体指的是什么?

一起来看个究竟。

RealSecure:首个编译级隐私保护机器学习平台

在AI技术越来越强调落地产业的当下,数据作为一种新型生产要素,是各行各业数字化、智能化转型中绕不过去的基础一环。

那么,问题就来了:

现实的情况就是,在很多高价值商业场景,如金融、医疗、交通场景中,有价值的数据常常分散在不同的机构和用户手中,形成了大大小小的数据孤岛,明显制约了AI能力的提升。

但想要数据出库,打破数据孤岛,却又面临着一个更为棘手的难题:隐私安全如何保障?

分布式隐私保护机器学习,就是为应对这一问题而生的一种新兴解决方案,它能使多方合作完成学习目标,但又不需要各方传输原始数据,可以做到“数据可用不可见”。

这并不是一个全新的概念。事实上,早在2016年,谷歌就在这个技术方向上提出了联邦学习的概念。但时至今日,相关技术的商业化应用仍然面临着三大痛点:

1、性能差、速度慢

由于隐私保护机器学习需要多方配合执行,中间的通信就会造成很大的性能损失。

另外,多方需要以加密形式完成参数交换,加密会带来高达百倍的性能损失。

同时,由于超参数设置等与现有的机器学习生态存在差距,隐私保护机器学习的速度慢了近千倍。本地只需花费几十秒的模型训练,在隐私保护下却需要数小时;特征筛选、调参、验证又需要几十上百次重复运行……

2、不兼容于现有机器学习生态,改动投入大

隐私保护机器学习不同于传统机器学习,是分布式、密码学、人工智能三个领域的结合。

要想投入商用,各家机构需要组织团队学习分布式、学习密码学;学习使用新算法、新框架,并在新平台下执行程序。

这相当于抛弃了长期以来人工智能团队积累下的经验和方法论,重建隐私保护机器学习团队,或堆人力将原有机器学习框架改写成隐私保护机器学习框架。

投入与代价之大,正是隐私保护机器学习难以商业化落地的重要原因之一。

3、无法自证安全性

隐私保护最核心也最本质的问题是保障数据的安全,这就要求平台自身的安全性也应该是可被检验的。

但当前的隐私保护机器学习模式是纯黑盒的,安全性只能靠专家审计——由于平台代码量巨大,这对于商业化应用其实是不现实的。

且实际生产环境中,是否真的按照审计时提供的代码逻辑执行,同样会受到来自客户的质疑。

而RealAI这次推出的隐私保护机器学习平台RealSecure (RSC),就从底层技术创新出发,针对这三个问题来了个逐一击破。

据RealAI介绍,RealSecure是业内首个编译级隐私保护机器学习平台,其研发结合了人工智能、密码学、分布式系统三大领域的技术突破。其核心模块隐私保护AI编译器能够自动将普通机器学习算法程序转换为分布式的隐私安全程序。

密码学+AI算法双重优化,性能提升约40倍

借助密码学优化、AI算法优化等改进实现,RealSecure在性能上实现量级式飞跃。

在某实际风控场景中,RealSecure模型训练相比某主流国产开源框架性能提升40倍,耗时从4小时40分钟缩减至6分钟。考虑到特征工程与自动调参环境,隐私保护下完成全流程建模,总耗时实现从日级别到小时级别的飞跃。

继承机器学习生态,实现“活字印刷”级隐私保护机器学习

而所谓的兼容主流机器学习生态,可以简单理解为,通过RSC,已有的成熟机器学习算法无需改写,只要调用函数,在AI编译器里重新编译一遍,就能自动完成从普通机器学习算法到隐私保护机器学习算法的转变。

这样的功能基于算子层技术实现。

具体而言,就是将隐私保护机器学习算法公式表达向更细颗粒度解构,解构成“算子”,通过算子的灵活组合来适配机器学习算法公式,摆脱重复改写的繁琐工作。

RealAI CEO田天打了一个比方:

也就是说,RSC能完成现有机器学习算法平台框架与隐私保护机器学习平台框架的统一。

另外,RSC还对外提供了jupyter建模入口,让数据科学家能够以最熟悉的方式使用隐私保护机器学习,进一步提升了易用性。

安全透明,“所见即所信”

在安全性方面,RSC以首创数据流图的形式,将所有中间计算过程、内部算子执行完全公开,底层执行的计算同样是可审计的。

这就保证了两点:

  • 算法协议是安全的,所见即所信;
  • 底层的执行与算法协议是一致的。

RealSafe:AI算法的“杀毒软件”

数据隐私安全之外,针对算法的可靠性,RealAI这一次也全新升级了首个企业级人工智能安全平台RealSafe

网络安全时代,网络攻击的大规模渗透催生出杀毒软件,来发现计算机潜在病毒威胁,提供一键系统优化、清理垃圾跟漏洞修复等功能。

而现在,越来越深入到人们日常生活中的AI算法们,也正在面临类似的安全风险。

以人脸识别为例,去年,RealAI就通过一副印有特殊纹理图案的对抗攻击眼镜,成功“刷脸”解锁了他人的手机。

而量子位此前也曾报道过,有研究人员采用模型后门攻击技术,仅用一条胶带就把特斯拉忽悠瘸了,把35看成85,导致了异常加速。

是不是有些细思极恐了?

那么,有没有一个AI平台,能一键检测算法漏洞,并给出防护建议呢?

RealSafe做的,就是填补这么一个空位,一方面能够对AI模型的安全性进行全面检测,另一方面能提供多种增强安全性的方案。

在模型安全性检测方面,在全新升级之后,除了能针对对抗样本攻击,给出安全评分以及将检测场景从人脸识别拓展到了目标检测、图像分类外,RealSafe 2.0还增加了模型后门检测功能,能够在不获取模型结构及参数等具体信息的情况下,分辨出仅在特定输入情况才会识别出错平时表现正常的被植入后门的模型。

并且,整个检测过程全界面化操作,用户无需具备专业的模型安全算法知识和编程开发经验。

而在模型安全性提升方面,RealSafe平台提供包括对抗样本去噪、对抗样本检测、对抗训练在内的多种防御解决方案,并可以自动化评估每种方案针对被测模型的安全性提升效果。

值得一提的是,受益于研发团队丰富的AI对抗攻防经验,RealSafe集成多项国际领先的AI对抗攻防算法,荣获多项世界AI安全大赛冠军,其中部分已开源成果作为代表性方法已被业内广泛引用。

目前,RealSafe 已在工信部重大建设项目以及某电网公司落地应用。

“AI落地,不是仅靠大数据、大算力就能解决的问题”

事实上,从RealAI埋头苦干两年,打造的一系列产品可以看出,这家从清华园里走出来的公司,正在围绕算法可靠数据安全应用可控三大方向,构建AI基础设施能力。

而这,也正是张钹院士今年以来反复强调的第三代人工智能之路。

在纪念《中国科学》创刊70周年的专刊中,张钹院士作为通讯作者发表了文章《迈向第三代人工智能》,指出是时候把第一代的知识驱动和第二代的数据驱动结合起来,通过利用知识、数据、算法和算力等4个要素,构造更强大的人工智能。

而清华博士、RealAI CEO田天和他的团队,则站在产业的角度,解读了这种“另辟蹊径”的必要性。

数据和算力,解决了AI的温饱问题,作为“外部驱动力”,驱动了AI产业“第一增长曲线”的出现。

但随着AI赋能传统行业的逐步深入,这样的增长模式瓶颈已然显现。

田天指出,传统行业由于场景复杂和隐私安全等因素,无法完全依赖行业大数据提供足够信息,同时新一轮的算力跃进还未到来,这就导致AI在许多小样本的高价值场景,如金融、工业、医疗等领域中,落地速度不如预期。

因此,想要进一步推进AI发展,在数据平台和算力平台之外,要从AI自身底层能力增强出发,打造AI原生基础设施,发展出AI的“内生驱动力”,从而在相同的数据、算力条件下,更好地支撑AI赋能产业,打开AI产业化全新的市场空间。

而第三代人工智能技术体系,包括贝叶斯深度学习、可解释机器学习、AI安全对抗攻防、新一代知识图谱、隐私保护机器学习等技术,恰恰为打造AI原生基础设施提供了支撑。

也就是说,从产业化的需求来看,产业落地本身就是需要第三代人工智能来开创新局面的。

那么,RealAI会在这个过程中扮演一个什么样的角色呢?

田天给出的答案很“底层”:打造完整的AI原生基础设施体系,使得所有场景不论大小、不论价值高低,均能在AI发展过程中受益。

而这,或许也就是RealAI与其他AI公司不同之处:通过与清华大学的紧密合作,能够在技术上坚持长期主义,立志在工业界推动底层技术的变革。

田天说:

— 完 —

© 版权声明

相关文章

暂无评论

暂无评论...