热爱打游戏的OpenAI,正式涉足音乐圈了。
它们今天发布了新AI,名叫MuseNet,利用无监督学习的方法,可以用10种不同的乐器来制作时长4分钟的音乐。
注意,不是10种不同的乐器自顾自的演奏,而是多声部合奏,放一起听起来毫无违和感。
还可以驾驭各种曲风,从莫扎特、贝多芬,到爵士乐、乡村音乐,还有披头士、Lady Gaga的曲风。
甚至,MuseNet能让莫扎特“续写”Lady Gaga的歌,让肖邦“续写”Adele的歌。
现在,你可以点开下面的音频,听着AI创作的音乐读下去了。
有Demo,不懂音乐和代码也能玩
在MuseNet的网站上,有一个Demo可以让你亲自选定音乐风格,合成你想要的曲子。
只要做三步:
1、选择你想听哪位音乐家的风格:
比如我们选莫扎特。
2、选择开始的旋律:
这里如果选NONE(START FROM SCRATCH),AI就会看心情,随便给你来一段莫扎特风格的曲子;
如果选了其他几首歌,比如Lady Gaga的Poker Face,就相当于命题作文,用莫扎特的风格续写Poker Face。
3、点下面的→,让它生成音乐:
这里,黑色背景上紫色横条的图样是曲谱,箭头左边这一块谱子是Poker Face原有开头部分的音乐,注意没有词,只是前奏,大概只有一两个小节,图上一根小横条就是一个音符,位置高地表示它们的高低音。
点箭头之后,右边的这一长串才是AI生成的音乐。
点击PLAY FROM START就可以播放了,你可以听到平静的前奏进行完后,突然开始了复杂的和弦,已然从Lady Gaga的夸张曲风平滑的跳转到莫扎特古典优雅的音乐风格。
你可以点下面的视频来试听:
如果你按住曲谱拖拽,就可以看到后面因为屏幕不够宽而被隐藏的部分曲谱。
甚至有时候还会发现其他颜色的的音符,这里是加入了另外的音色。
比如这里,原有的紫色是钢琴的声音,新增的橙色,是的小提琴的声音。
一共生成了4个版本的曲子,可以点曲谱下面Completion 1 of 4左侧的左右箭头来切换。
然鹅,其实这里的曲子是OpenAI提前写好的,是打好的小抄。
如果你想要听现场freestyle,点曲谱上方的SHOW ADVANCED SETTINGS,有更多的音乐风格和开头音乐可以选择,还能设定一种或者几种乐器的音色,选定TOKENS来生成不同长度的音乐,就可以听AI现场发挥的版本了。
可以试试让披头士乐队“续写”《哈利波特》的BGM然后用钢琴弹出来,或者用贝多芬的风格续写Let It Go然后用吉他演奏。
当然,这个Demo还不太完美,比如你选择钢琴、吉他还是鼓的音色,生成的曲子听起来音色都差不多,OpenAI说这版Demo会存活到5月12号,后面会有一个迭代的版本。
逆天模型GPT-2
创作型选手MuseNet背后是一套强大的支持技术,与GTP-2通用无监督学习技术相同。
几个月前,GTP-2生成的假新闻和编造的故事甚至以假乱真,还能完成阅读理解、常识推理、文字预测、文章总结等多种任务。
作为一个没有经过任何领域数据专门训练的模型,它的表现比那些专为特定领域打造的模型还要好,一经问世就获得了Hinton等大牛的强推和关注。
△ GPT-2在不同语言建模任务上的测试结果
简单来说,GPT-2就是基于Transformer架构的大规模模型。
GPT-2是GPT算法“进化版”,比GPT参数扩大10倍,达到了15亿个,数据量扩大10倍,使用了包含800万个网页的数据集,共有40GB。
这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。
上图左部分,是研究中使用的Transformer架构以及训练目标。右边部分,是针对特定任务进行微调。
将所有结构化输入转换为token序列,由预训练模型处理,然后经过线性+softmax层处理。
就GPT-2而言,它的训练目标很简单:根据所有给定文本中前面的单词或音符,预测下一个单词。现在,MuseNet在此基础上进行改进,也能预测音符了。
72层网络
了解了MuseNet的底层架构,现在来看它的整套音乐加工流水线。
首先,研究人员为音乐家和乐器分别创建了token,模型用这些token进行训练预测下一个音符是什么,更好地控制MuseNet生成的示例的种类。
随后,研究人员为MuseNet中嵌入了可视化信息,让模型理解所学习到音乐家与乐器的风格间互相的关联性。
看似气质毫不相同的音乐,其实也有相似的元素在里面。研究人员用t-SNE创建了2D风格信息图中,更形象地说明了这一点:
以贝多芬的风格为例,它的乐曲中包含了部分莫扎特元素、海顿元素、柴可夫斯基元素和门德尔松元素。
而莫扎特则多了克莱门蒂元素:
这样一张关系图中,AI摸清了每个音乐家风格的门道。
最后,该神经网络出马了。MuseNet计算和优化了稀疏Transformer,训练了72层的多头(核心数=24)注意神经网络,内含共有4096个token,让生成音乐的时长可达到4分钟。
就这样,一只MuseNet,就能同时驾驭多位音乐大家的风格,Lady Gaga和莫扎特的“混搭风”,来了解一下?
传送门
研究人员表示,到五月中旬,代码和预训练模型也将放出。
OpenAI博客地址(内附Demo):
https://openai.com/blog/musenet/
GPT-2官方介绍:
https://openai.com/blog/better-language-models/
“