中国开源深度学习框架第六年:百度飞桨国内综合份额第一,全球开发者超400万

AI资讯1年前 (2023)发布 AI工具箱
317 0 0

前不久,中兴结束5年合规检查期的消息,在科技圈引发不小波澜。

在这样一个特殊的时间节点下,“缺芯少魂”方面的自主自强问题,再次成为全社会关注的焦点。

芯片,代表着底层算力;魂则是指系统

如今,AI被视为高精尖技术竞赛角逐的战场,其最核心的系统便是深度学习框架

国际两大主流深度学习框架TensorFlow、PyTorch之外,中国的开源框架,发展怎么样了?

具体都有哪些玩家入场?其背后技术实力如何?是否能够自主自立、不会重蹈“缺芯”覆辙?

今天,我们就来试着找寻这些问题的答案。

在问题的最开始,我们来盘一盘如今市面上有哪些主流国产开源框架。

百度飞桨(PaddlePaddle),深度学习开源框架的先头兵,在2016年就已率先对外发布。

而后在2020年,国内开源框架迎来了第一波集中爆发。

独角兽旷视拿出工业级深度学习框架天元(MegEngine),一流科技OneFlow、华为昇思(MindSpore)也在同年登场。

学界方面,清华大学开源了支持即时编译的深度学习框架计图(Jittor)。

显然,过去几年中,“开源”、“AI底层”成为了国内AI厂商们十分重视的发展战略。

其背后原因可大致归结为两点。

第一,在深度学习迎来高速发展的大背景下,传统产业转向智能化,AI的注入是关键因素之一。

小到一次人脸识别、大到一座城市的智能化管理,深度学习已经渗透到我们的日常生活之中,成为社会高速发展的一条重要纽带。

第二,尽管TensorFlow、PyTorch在技术上发展已经非常成熟,但是外部环境变化,使得我国拥有自主创新的AI底层能力成为眼下之刚需,这也为国内深度学习开源框架带来了发展的土壤。

实际上,从2016年至今,国内深度学习开源框架在经历多年积累、沉淀、探索后,一些成果已经初步涌现。

根据IDC中国公开发布的深度学习开源框架市场研究报告,截至2021年上半年,TensorFLow、PyTorch以及百度飞桨成为国内最高频使用的开源框架;

百度飞桨已凝聚406万开发者,服务15.7万企事业单位,开发模型达47.6万个。

市场份额方面,百度飞桨在国内综合市场份额已超越TensorFlow和PyTorch,位居中国第一

那么,它是如何一步步发展至如今这一水平的?其背后经验是否值得参考借鉴?

作为国产头雁,以百度飞桨为例,或许能厘清一条中国自研开源框架发展之路。

当下,我们已经处于以深度学习为核心的第三次AI浪潮,新兴技术迎来集中爆发期。在这样一个百舸争流的环境中,如何开拓出自己的一席之地?

瞄准技术核心底层,大厂们深谙此道。

正如前文所提及的,框架被视为深度学习的核心灵魂,在推动人工智能进入工业大生产上,具有举足轻重的作用。

在此背景下,如何为自家深度学习开源框架开辟出一席之地?

参考飞桨,连点成线总结概括,大概需要4方面的努力:

  • 技术积累
  • 场景应用
  • 产业供需
  • 开发者生态

缺一不可。

首先,及时起步、抢占身位

这里最典型的案例,便是谷歌TensorFlow。

2015年,TensorFlow先声夺人,迅速在工业界内赢得开发者们的青睐,由此奠定了它全球两大主流框架的地位。

百度飞桨几乎是同一时间站在了起跑线上。

2016年,百度飞桨便先以PaddlePaddle的名字在GitHub上对外开源,并且提供中英文双语技术文档。

而如果从筹备、研发期算起,百度飞桨的起点还要更早,可追溯到2010-2013年。

起跑早、发力早,带来的优势也十分明显——可以有更加充足的时间积累底层技术。

目前,百度AI方面专利申请数量超过1.3万件,连续四年位列中国第一,其中深度学习专利数量位居全球第一。

将专利技术握在自己手里,意味着中国深度学习技术可以更加自主自强;同时,更早积累技术也为中国团队参与到行业标准建立,提供了机会。

如今,百度飞桨的核心框架贯穿开发、训练、推理部署三个环节,基础模型库覆盖CV、NLP、推荐、语音、知识增强的文心大模型。

第二,深度学习框架要能够解决行业中的实际问题

工业界出身的深度学习框架,对理解行业场景有着先天优势。

加之飞桨诞生于中国,还能更加了解中国企业的实际需求,也为开拓海外市场提供丰富经验参考。

过去几年来,百度飞桨官方发布的产业级开源算法模型已经超过了500个,并发布13个精度与性能平衡的产业级PP系列模型,覆盖工业、农业、交通、科学计算等20多个行业领域。

在此我们可以看一些具体实例。

农业增产方面,百度飞桨联合京东方后稷打造了智慧水培植物工厂;

煤矿生产领域,华夏信天机器人公司基于飞桨的目标检测工具套件PaddleDetection,开发出输煤胶带智能巡检机器人。

当然还有更为前沿的应用场景。

前不久,百度生物计算方面研究登上Nature子刊,这一成果的底层技术支持便来自百度飞桨。

基于飞桨,百度开发出了一个可用于生物计算的工具组件螺旋桨(PaddleHelix),涉及领域包括药物研发、疫苗设计和精准医疗等。

还有此前东京奥运会上,中国跳水梦之队背后的隐形AI教练——国内首个云端3D+AI跳水训练系统,底层能力同样来自飞桨。

第三,协同上下游共同推动自主创新

在实际应用层面,企业由于框架与硬件不适配,总是会带来额外的人力物力成本。

在这方面,百度飞桨实现了国产芯片适配量第一,同时还是英伟达三大支持框架之一——也是其中唯一深度适配的中国框架。

除了自研昆仑芯之外,飞桨已经和英特尔、英伟达等在内的22家国内外硬件厂商,完成了31种芯片的适配和优化。

值得一提的是,深度学习开源框架对底层硬件的适配,反过来也会开拓国产硬件的使用场景,促进国产硬件的发展。

第四,深度学习开源框架能否发展更为长远,良好的开发者生态也是关键之一。

有人用、越用越好,可以看作是评判一个深度学习框架的标准。

飞桨在这方面已经初具规模。

其中,百度飞桨在开源社区的影响力位居国内第一,在GitHub上总star位于全球第三、中国第一。

《2021中国开源年度报告》显示,2021年GitHub中国项目活跃度Top 30中,飞桨占据了5个项目,其中飞桨框架位列第一。

综上,便是百度飞桨为中国深度学习框架发展提供的一些思考。

如今,全球深度学习框架“PPT”格局初现,百度飞桨PaddlePaddle与TensorFlow、PyTorch已展开正面交锋。

但不可否认的是,前路仍旧漫长,中国深度学习框架能够提升的空间还非常广阔。

最近,百度方面也提出了自己的见解。

百度AI技术生态总经理马艳军博士表示,当前中国深度学习框架的发展有三大关键点:

  • 技术实力
  • 功能体验
  • 生态规模

技术实力,不难理解。

技术创新的源头,说到底还是人才。目前,我国在AI底层技术人才的储备上,仍有不足。

飞桨也是在边研发边培养这方面的人才。同时还打造了AI Studio学习与实训社区,让更多对AI感兴趣的人有机会入门、进阶和快速提升。

飞桨还与高校“产教融合”:合作人工智能相关教材、提供人工智能教育资源,超过700所高校的3000多名AI专业教师从飞桨举办的深度学习师资培训中受益。

其次,在功能体验上。

中国是全球产业链最完整的国家,但同时产业体系也相当复杂,尤其是中小企业方面,如何快速向智能化转型,已经成为国家、行业都在重点关注的问题。

那么,如何让各行各业的专业人才,即使没有AI专业知识和背景也能顺利使用AI,便是AI产业需要从底层技术上思考的问题。

低门槛,俨然是众望所需。

这也是百度飞桨的特色之一。

无论是TensorFlow还是PyTorch,都未在易用性方面下大功夫,对初学者友好度不高。而百度飞桨正好弥补了这一市场痛点。

最后,还是要说回到开发者生态上。

马艳军博士提到,百度飞桨与开发者们一直保持紧密联系,比如遇到问题可以直接通过QQ交流群反馈给内部工作人员。

同时,百度飞桨还经常开展线上直播福利课程,毕竟自学嘛,也是程序员必备自我修养了。

从这些动作中也不难看出,与谷歌、Meta让开源框架“野蛮生长”的路线不同,百度飞桨不仅仅是为开发者提供一个好用的底层框架,还投入了大量人力、物力来打造一个友好度更高、适用性更强的生态。

最后的最后,我们再来放眼瞭望一下整体人工智能产业的大环境。

去年4月,在首届济南国家级人工智能创新应用先导区高端峰会上,中国工程院院士潘云鹤就指出:

另一方面,IDC报告指出,安全性开始成为开发者使用开源框架的考量因素之一。

而值得庆幸的是,潘云鹤院士表示,这方面中国也开始慢慢形成自己的优势,百度飞桨便是最好的证明之一。

正如马艳军博士所说:

十年技术投入,百度飞桨站稳中国市场,未来的挑战依然艰巨,挑战总是与机会并存,相信心怀技术信仰的百度,可以不断推动中国的人工智能走在世界的前列。

© 版权声明

相关文章

暂无评论

暂无评论...