林鳞 编译自 arXiv
量子位 出品 | 公众号 QbitAI
眼看618在即,淘宝又公布了新研究成果。
近日,南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,详细介绍了淘宝用强化学习优化商品搜索的新技术。
这个新构建的“虚拟淘宝”模拟器,可以让算法从买家的历史行为中学习,规划最佳商品搜索显示策略,能在真实环境中让淘宝的收入提高2%,是一笔不小的数额。
一起看看这个研究究竟讲了什么——
“四位一体”的虚拟淘宝
强化学习(Reinforcement Learning,RL)是匹黑马,可能会对淘宝用户体验产生变革性影响,但在物理世界中的RL应用却少有人研究。
这是有原因的。一般来说,目前的RL算法通常需要与环境进行大量交互,成本高昂。
在这个项目中,淘宝研究人员通过买家的历史购买记录,生成了“虚拟淘宝(Virtual Taobao)”;平台,虚拟的买家可进入淘宝触发平台搜索引擎。
在这里,研究人员提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虚拟买家的操作和搜索请求。
虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。
不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束ANC策略(Action Norm Constraint),可以减少这种过拟合。
这样,“四位一体”的虚拟淘宝就建成了。
实验结果
思路和模型搭建完毕后,是时候表演真正的技术了。研究人员用下面三个指标衡量实验结果。
- 总营业额(TT):所售商品的价值。
- 总成交量(TV):所售商品的数量。
- 页面采购率(R2P):采购发生时PV(显示页面视图)数量比率。
实验结果显示,通过数亿用户记录构建的虚拟淘宝重建了非常接近真实物理世界的环境。
研究人员,将一天的历史数据按时间顺序分为12个部分,以模拟R2P随时间变化的过程,结果如下:
研究人员用了观察了虚拟淘宝的泛化能力,并且观察用行为克隆法(BC)替代MAIL之后R2P走势。实验证明BC环境中的R2P下降更快。
△ 虚拟淘宝的泛化能力
最后,研究人员将虚拟淘宝(RL + VTaobao)中的RL方法产生的策略与历史数据(SL + Data)上的监督式学习方法进行比较,结果如下:
可以看出,该RL+ VTaobao总是优于SL+Data法。
作者团队
这一研究的作者有五人,包括南京大学软件新技术国家重点实验室的Jing Cheng Shi,Yang Yu,Shi Yong Chen,也有阿里集团的Qing Da和曾安祥(花名仁重)。
△ 阿里巴巴搜索事业部曾安祥
阿里集团和南京大学的合作不只淘宝这个案例。不久前,实验室与蚂蚁金服合著的研究Distributed Deep Forest and its Application to Automatic Detection of Cash-out Fraud论文也已发表。对了,这个实验室的常务副主任是周志华。
相关资料
Virtual-Taobao论文地址:
https://arxiv.org/abs/1805.10000
蚂蚁金服×南京大学论文地址:
https://arxiv.org/abs/1805.04234
— 完 —
“