“旷视成立8年了,不需要用这些冠军、这些比赛来证明自己。”
在香港科学园高锟会议中心,旷视研究院院长孙剑这样表达了他对今年CVPR旷视拿下6个冠军的看法。
对孙剑来说,不管之前在MSRA,还是现在担任旷视首席科学家,实用性都是他对于研究的第一考量。
在这场香港举办的人工智能及视觉高峰论坛间隙,我们向孙剑问了6个问题。
先简要概述,孙剑老师提了以下观点:
1、大湾区AI顶尖人才多,制造业中心深圳让AI公司接触到不同的实际需求。
2、看好自动机器学习,一方面可以提高效率,另一方面可能有新发现。
3、新人成长只有一条路,不停的做非常难、自己以前不擅长的问题。
以下内容,量子位在不改变原意的基础上略作了编辑。
MSRA和旷视在做研究这件事上有什么不同?
孙剑:大家对MSRA有误解,觉得MSRA都是在做研究。确实微软研究院有很多人在做研究,但也有很多人是做技术、并应用到产品上去。
因此在MSRA和旷视的工作本身很相似,做事情的原理方式基本一样,因为我自己的风格偏实用,希望集中精力让所做的研究能尽快产生价值。
来旷视的原因也是因为深度学习影响巨大,能对世界作出很大的改变,创业公司最接近前线,能最快把这些技术应用上去。而且,深度学习有各种各样的应用场景,很多场景因为大公司有主营业务不一定关心,而小公司会去做这些场景,能看到行业里的亟需解决的本质问题,带来不同的认识。
无论在MSRA还是旷视,大原则基本上是一样的,研究需要找到核心问题,投入精力和时间,坚持去做,“坚持”的品格不管在哪里都是非常重要的,图像识别是一个长期的任务,我们要投入很多精力。
我们相当于在做公司的研发大中台。很多时候是在不断提高精度,跟做研究的过程是一样的,争取把效果做到最好。因此,需要用研究的方法来解决,需要聚焦在视觉的核心问题上,不断投入人和精力,不断前进,这样产品技术才能不断进步,这是我们能够很好地把研究和产品技术结合在一起的原因。
MSRA和旷视的规模不一样,以前在微软没有这么多人同时做这件事,整个微软研究院全球总共可能有50个计算机视觉研究员,当时在全球已经是非常大的了。而我们现在旷视研究院的计算机视觉研发人员已经接近500人,计算机视觉这一个问题可以投入更多精力、更多人来解决。
另外旷视也做底层训练系统,Brain++人工智能深度学习基础框架,我们专门有工程团队自研深度学习引擎。
如何看待旷视一个接一个的世界冠军
前不久,量子位报道了旷视研究院算法总监范浩强在CVPR上的第四个世界冠军,此前旷视也拿到过几届MS COCO的数个项目冠军。
孙剑:我们叫研究院,但一直都是产品技术优先的一个研究院,也就是说,研究成果可以直接或间接应用到产品上去,这也是计算机视觉的特性,做出来可以广泛使用,而不是本末倒置的要拿冠军证明自己。
旷视成立8年了不需要用这些冠军、这些比赛来证明自己,而是需要更强的、最好的、有差异化的产品来证明自己。
今年CVPR拿了6个冠军,事前我都不知道他们参加了比赛。
至于发论文,我既不鼓励也不反对,很多论文都是实习生做的,我们也会指导他们。
夺冠神器Brain++是怎样的存在,和开源框架有什么区别?
孙剑:在旷视内部,Brain++有两层意思。狭义的Brain++指的是我们核心的训练引擎,因为当时我们做的时候还没有TensorFlow,我们Brain++第一版出来之后TensorFlow才发布,当时比的话,TensorFlow不算很成熟。但是我们比TensorFlow好,所以我们一直用自己的Brain++。
相比之下的优点是,旷视的Brain++可以在计算机视觉方面的做很多特定的优化。
TensorFlow是一个大的codebase,虽然是开源的,但还是一些核心部分还是Google在控制,定期会有更新。但我们做的各种应用需要很快对深度学习训练引擎做出我们想要的改进,天下武功唯快不破,市场竞争要求我们必须要快。用自己的Brain++,我们想要一个功能,可能下周就做好放进去了,可以第一时间用上它,加快研发的速度。
而随着研发的拓展,旷视在核心的训练引擎是拓展出了自有的AI技术生态,也就是广义的Brain++。作为团队协同平台和算法工厂,广义的Brain++不仅包含了原有的训练框架,还有数据管理平台和计算平台。
今天旷视提到更多的是广义的Brain++,作为公司级的AI训练平台,需要管理上万块GPU,让很多人一起高效管理这些计算资源,数据量非常大,标准的开源系统无法完成这些东西。
旷视Brain++平台的特色之一是每个人都可以当虚拟机一样登上去,有别于其他大公司调试好之后提交job的方式,旷视用虚拟机的方式不仅能提供台式机的体验,还能在大规模系统上运行,边训练边调试,这是别人做不到的,而这种方式对研究员的效率提升非常大。
另外,在有很多人一起共享计算资源的情况下,资源空闲的时候别人可以自动调动,这一套高效的东西也是Brain++来管理的。
Brain++平台也支持使用TensorFlow、PyTorch等各种开源框架,目前我们的引擎非常完善,所以大家还是会主动选择优先使用自己的Brain++。这套工具的学习曲线非常平,新人可以很快学会。
香港和北京的AI发展又什么不同?
孙剑:不只香港,整个大湾区政府非常鼓励AI的发展,创造好条件。香港学校培养出了高质量学生,学生资源非常好。本次来参会也是希望参与到大湾区AI的讨论中来,希望能覆盖湾区。
在香港的业界和学界,大家知道Face++这个产品,可能不太熟悉旷视这家公司,处于产品比公司火的状态。
另外,我们和香港的一些计算机视觉教授有长期的合作,和权龙(香港科技大学教授)有旷视-港科大联合实验室,这个实验室主要做3D和识别相结合的方向,另一方面我们也会联合培养人才。
对比北京和香港的AI人才环境,北京的特点是人才密度高,总量大,是全国高校最多的城市。而在粤港澳大湾区,AI顶尖人员很多,发展很快,环境好,对人才的吸引力大。有一个优势是全世界制造中心深圳在这里,因而有不同行业的需求,创业或者做别的都要从需求出发,这是很大的优势,能够更贴近客户。
目前看好的那些新的AI技术?
孙剑:自动机器学习是一个很有希望的方向,自动机器学习不仅限于网络结构模型,其实已经是一种思想,在研发pipeline里,损失函数、训练数据采样/增强/增广、超参数都可以搜索,不限于简单的搜一个网络结构,而是打开了一扇门,把很多新的思想融进来了,这套搜索工具方法打开了很多研究机会。
将来能带来很多变化,一方面可以提高效率,不需要人工调优;另一方面可能真的能发现一些靠人工发现不了的事情。
CV新人的抉择
孙剑:年轻人来旷视最大的诉求是追求成长,至少毕业后3~5年摆在第一位的是如何快速成长。
我们会给他们找够难够有挑战性的任务,帮助他们成长,研发过程中不光关心项目,也关心每个人,怎么激励他们,让他们能够加速成长。
我们也分了团队,这些梯队的负责人比我刚来的时候成长了非常非常多。成长只有一条路,不停地解决非常难、自己以前不擅长的问题。这样才能源源不断地成长,建成梯队以后他们也会带着更多新加入的年轻伙伴不停成长。
成长中的焦虑是个必须的过程,如果没有焦虑那可能就成长得很慢,你需要有这个焦虑的过程,就像读博士都有一段黑暗期、迷茫期,看不到希望,这个黑暗期过去之后你就会变得更强大。
面对焦虑,第一,我们研究院讲勇敢的成长,开放心态,growth mindset,成长心态,很多东西都是可以改变的;第二,我们追求敢做难的事情、有挑战的事情,要勇敢接受挑战。
对于计算机视觉领域的新人,希望能扎扎实实做事情,把事情的基本原理搞清楚,有成长心态,不停地提升自己。
如果你去读博士的话会有3~5年的时间节奏是比较慢的,可以让你认真深入思考一个问题,真正把一个方向的问题思考明白。去公司的话,研究水平高的人很集中,跟很多做计算机视觉的实验室比,我们是排在前面的,这样可以让你获得加速的成长。
“