量子位 出品 | 公众号 QbitAI
近日,阿里巴巴首次开源了面向高维稀疏数据的深度学习框架,叫作X-Deep Learning,简称XDL。
阿里表示,XDL基于大数据营销平台阿里妈妈的广告业务设计,可对数据高维稀疏场景的特点进行优化,提升广告、推荐、搜索场景的精准性,缩短技术迭代周期。
XDL的实际效果如何?
官方表示,XDL是阿里妈妈业务系统中正在使用的框架,每年,以XDL为基础的深度学习算法升级带来的广告收入提升量级在百亿以上。
现在,你也可以使用阿里同款框架了。它有何特点?面向谁?又将怎样使用?
千亿参数规模
阿里表示,XDL是面向互联网时代信息过载的“标配”问题优化的,即搜索、广告和推荐等典型的高维稀疏数据场景,微博、抖音、今日头条等都属于该范畴内。
此前,对于一些具有高维稀疏数据的中小企业来说,很好利用这些数据是一件麻烦事。
和TensorFlow、PyTorch、MxNet等深度学习框架相比,XDL主要有三处提升:
从分布式水平扩展能力来看,TensorFlow、PyTorch等适用于低维稠密数据的框架在机器并行度增加时,在高维稀疏场景下的系统水平扩展能力不强。
以TensorFlow为例,在实际场景测试中,并发度达到百以上时,很难再通过增加更多的计算资源来提升整体的训练吞吐率。而XDL在千级别并发上仍然保持了良好的水平可扩展能力。
横向对比来看,XDL支持模型的规模和参数比传统情况下有所提升,XDL可以支持千亿参数的大规模深度学习模型训练,包括批量训练模式和在线训练模式。
从实际运行的性能来看,在高维稀疏分布式训练下,大部分模型比开源的TensorFlow模型整体高一个量级。
无缝对接
对于企业客户来说,怎样能够将XDL大规模部署是个难题。阿里表示,在易用性上,XDL主要有两方面考量:
在分布式运行和调度上,PyTorch、TensorFlow的分布式运行的原生支持效果欠佳,对于资源的动态调度、优雅容灾做的都并不是很完善,XDL有内在的原生支持CPU/GPU的多租户隔离、动态调度与灾难恢复。
在编程易用性上,XDL使用桥接技术(Bridging),把开源深度学习框架(本期开源版XDL支持TensorFlow、MxNet)作为单机稠密网络的计算引擎后端。
用户可以在保留TensorFlow或MxNet网络开发习惯的同时,通过少量的驱动代码修改,就直接获得XDL在大规模稀疏计算上的分布式训练能力。
换句话说,使用XDL时无需再学习一门新的框架语言,可以跟现有成熟的开源社区无缝对接。用户可以将TensorFlow社区的某个开源模型通过XDL拓展到工业级场景。
阿里表示,此后将全面开源面向高维稀疏数据场景的系统化解决方案,计划分批次对外发布。
传送门
现在,XDL框架地址已经新鲜出炉,可前往GitHub获取:
https://github.com/alibaba/x-deeplearning
“