MEET2020 | 快手刘霁：AI基础能力决定每个公司AI的迭代和落地效率

AI资讯2年前 (2023)发布 AI工具箱

376 0 0

郭一璞整理自 MEET2020智能未来大会
量子位报道 | 公众号 QbitAI

快手这家短视频内容公司，已经成为人工智能C端落地的代表者。

面对海量的内容和内容生产者、消费者，快手无论是从对内容理解把控、消费分发还是各类商业化延伸应用，都将AI运用到了业务之中。

在短视频内容平台上应用AI，哪些事情是最为重要的？

AI是如何在快手为“老铁”们创造福利的？

AI又有哪些被忽视的应用场景？

在MEET2020智能未来大会上，快手AI平台负责人刘霁揭秘了这一切。

关于MEET2020智能未来大会：量子位主办，现场20多位行业大咖分享，1000多名行业观众参与，线上有近百万从业者通过直播参与观看和互动，包括新华社在内的数十家主流媒体报道，活动整体线上总曝光量超过千万。

要点

1、AI最大的源动力就是数据。

2、AI模型的训练是计算的过程，计算的效率决定了每个公司训练AI的效率。

3、对于快手这样的to C端产品，所有AI能力最后都体现在手机上，除了模型准确率之外，还有两个因素也特别重要：一个是能耗，一个是延迟。

4、直播是现在短视频行业变现非常重要的手段，几乎占到一半的比重。

5、内容推荐本质上是要匹配视频和用户，就像滴滴的场景是匹配司机和用户，两者本质上很类似。

6、游戏的AI、游戏冷启动、游戏的辅助设计，游戏关卡的设计、游戏数据的智能运营分析都是AI可以应用的场景。

刘霁演讲分享全文

注：量子位在不改变原意的基础上进行了编辑整理

今天很荣幸能够代表快手来讲一些快手在AI方面的探索，AI在快手有深厚根基，因为正如大家所知，快手的CEO、CTO等几位创始人都是技术出身，比如CEO宿华讲公司的代码库里他贡献了超过70万行代码，公司里他的代码量最多，所以快手其实是一家由技术基因驱动的内容的公司。

快手是一家以短视频为主的内容公司，短视频这个行业在过去的几年增长非常迅速，主要体现在三个方面：

第一，从用户时长上看，在过去两年内，短视频行业的人均在线时长增长了5倍，短视频的总时长占有量仅次于移动通信网络；

第二，从用户量来讲，整个短视频行业的月活达到了8.2亿，近3年增长率64%；

第三，从渗透率上来讲，互联网用户中有68%人使用短视频，增速达到了16%。

短视频是成长非常快的新兴行业，尽管在现在看来是理所当然甚至是大势所趋，而快手作为行业的引领者和推动者，实际上在风口浪尖上经历了很大的变革，以及痛苦的转型。

最早在2011年的3月的时候，我们的产品叫GIF快手，是GIF这样一种特殊的内容形态的编辑工具产品。

到了2013年7月，这正是移动互联网从3G跨越到4G时代的时间点，通讯效率已经足够支撑短视频这种信息分享的方式，所以公司做了一个非常大的变革，把快手从工具类的产品转型成为一个短视频社交平台。

转型的阵痛非常明显。此前GIF快手的DAU已经达到了1000万，作为一个工具类的产品，这已经是非常惊人的DAU了，做出这样重大的决策之后，我们的DAU瞬间掉了一半以上。

不过之后，快手的DAU很快又回到了1千万，然后是1亿，一年多之后到了2亿，期间我们收购了A站，也领先了知乎。我们的内容生产者超过2亿，每天新增作品超过1500万，在过去8年内，平台上短视频的积累量超过了130亿。

我们生产者众多，我们平台上的用户作品很多，用户行为也很丰富，点赞、评论、关注等等，这就和AI有天然的契合。

其实AI最大的源动力就是数据，在以前数据没有那么大的时候，计算力没有那么高的时候，AI想真正发挥作用是比较困难的一件事，真正AI的爆扩式的增长是源于数据增加，快手的海量数据为AI的落地提供了坚实的物质基础。因此，AI在快手的落地发挥效能成为了一件理所应当的事情。在AI的浪潮下，快手在AI的各个方面做了很多的努力。

接下来我想从几个方面来介绍一下快手在AI方面的建设。

AI基础能力

首先，是基础能力的建设。

对大家来说，AI的基础能力不一定像AI产品那么直观，那么我首先解释一下AI的基础能力。

图像、声音、语言是三个重要的信息来源，AI各种应用主要是围绕这三个方面开展，而AI的基础能力正是这三个方面所共需的能力，主要包含AI模型的训练和推理两个部分。

AI模型的训练，输入的是数据，输出的是模型；模型推理是通过模型把数据转化成决策。我们每天有海量的数据，无论训练还是推理，本质上都是一个计算的过程，而计算的效率决定了每个公司AI的迭代效率和试错成本。

快手在这方面做了巨大的努力和投入，希望能够在基础能力上做足积累和基本功。

我们今年成立了AI平台部，这也是我在领导的部门，负责整合AI资源，打造通用的AI的基础能力，并对基础能力做孵化和迭代。这是从组织架构上对AI基础能力的保障。

我们做了很多系统性的工作，比如说推荐系统有我们有自研的Kuiba和Persia等，Persia在业内先驱性地用GPU来做广告推荐系统，比CPU提高了600倍的效率。

我们在分布式的训练算法层面也做了很多基础性研究，比如去中心化分布式计算的体系架构，发表了很多顶会论文，这些技术在Facebook、Microsoft等工业界的公司已经尝试落地了。

此外，我们设计的分布式算法还可以大幅节省通讯量。

当我们多个机器在分布式计算的时候，他们之间通信的效率是影响最终并行效率的关键。现实中，通讯量太大会导致并行效率特别低，所以我们设计了一套有损信息压缩通讯，这个信息压缩虽然是有损的，但我的方法可以保证在信息经过有损压缩后得到的结果是无损的，可以节省95%的计算量。这个技术正在大量应用到实际当中，包括现在常常听到的联邦学习等。

AI模型的推理在快手有非常重要的意义和作用，AI研究特别关心的一点是模型的准确率，而在快手这样场景下，无论是变脸应用还是变声玩法，我们大量的AI能力最后都体现在手机上，除了准确率之外，还有两个因素也特别重要：一个是能耗，一个是延迟。

举个例子，我们给手机做人脸识别解锁，假设准确度达到了99.99%，但耗时长达一小时，或者每次刷脸就耗掉了一半的电量，我相信没有人愿意用这样的手机。这是一个很极端的例子，但也说明了能耗和延迟跟准确度有着同样的重要性。

在快手，我们用户手机的机型千变万化，从低端机到高端机覆盖非常丰富的产品线，这对快手提出了巨大的挑战，需要让AI模型能在不同硬件上部署。所以，前面提到的准确率、能耗、延迟三个指标，我们同时要关注用户使用的各种不同型号的手机上体现，这也决定了在快手产品形态中哪些AI技术能够真正部署进去。

这是我们做的一套端到端的解决方案，比传统的AI模型压缩方法更高效，比手动压缩更高效更准确。

端到端有两层含义：

第一层是手机的低端到高端，这个解决方案能把从低端手机到高端手机所有机型全部覆盖；

第二层是从硬件端到数据端，我们的目标是需要一个准确度高的模型——这是由数据驱动的，对模型的约束是运行在特定的机型上，能耗和延迟必须达标，这是由硬件端决定的。所以这是硬件端到数据端联合学习和联合AI能力的建模。

基于此，我们在计算机顶会上发了很多论文，内部也有大量的落地场景。此外值得一提的是我们我们设计的YCNN自研推理引擎拿到了CCF科学技术进步奖。

模型训练和推理，这两块是我们在AI基础能力方面的建设，在此基础之上，我们可以将AI模型运用到很多不同的场景。快手是一个内容公司，聚焦于内容，我们做了不同维度应用场景的划分。

内容理解

我们先来看看内容理解方面，AI有哪些应用。

在快手，提到内容理解，大家首先会想到风控，需要实时检测不雅视频、不当言论。但一个挑战在于，我们的内容形态是视频，视频里包含语音、图像、动作、评论等等，这是一个多模态信息，我们需要对多模态信息做综合性的分析和理解，这就提出了比以前单一的信息源更大的挑战。

另外一块是视频去重，这对保护原创特别重要，有的老铁自己做了非常好的音乐和视频，可能会被别人盗用，如何避免这类问题，把有侵权行为的视频扼杀在摇篮里。

除了风控之外，我们还做了基于视频理解的自动配背景音乐的功能。

常见的方式是拍了视频再从音乐库里找合适的音乐，但这种方式一方面费时，另一方面音乐可能和视频情节难以完美匹配。我们的方式是先理解视频，再自动配音乐，在视频中不同的部分配上不同情感的音乐。

内容生成

第二块是内容生成。

老铁们把视频们传上来了，他还想视频是不是可以做的再漂亮一点，几乎99.99%的用户都是业余摄影者，他摄影的能力相对水平偏低，因此需要借助我们内容生成的能力，帮助大家美化视频，美化内容。

比如变脸：

3D的萌面表情：

还有一张照片到一条视频的生成：

内容消费

接下来是内容消费。

当老铁们上传内容并做了各种编辑之后，希望用户们看到他的作品。这个时候问题出现了，很多用户受网络带宽的限制，没有办法看到特别高清的视频。我们可以用AI技术来弥补，窗外的图像只有360P，我们用AI技术增强成为720P。

另外一个非常重要的应用是短视频的直播和传输。直播其实是现在短视频行业变现非常重要的手段，几乎占到一半的比重。直播中保证用户体验的关键就是视频的码率。在快手，我们摒弃了传统的PCP的协议，也没有用Google Quic协议来做视频的编解码，快手自己定义了一套快手多媒体传输协议KTP（Kwai Transport Protocol），K代表“快”，比开源工具最优码率的质量提高了20%以上。