日活两亿的快手，如何用AI理解视频、做好分发

AI资讯2年前 (2023)更新 AI工具箱

511 0 0

主讲人 | 快手科技多媒体内容理解部负责人李岩

量子位编辑 | 公众号 QbitAI

“AI技术贯穿于整个快手产品的骨髓之中，通过AI技术进行多维赋能，让更多人有机会被世界看见，也能看到更广阔的世界。”5月25日，在2019全球人工智能技术大会（2019 GAITC）上，快手科技多媒体内容理解部负责人李岩如是表示。

大会在南京举行，李岩在“人工智能与媒体融合前沿论坛”作了演讲。李岩作为快手科技的代表，讲述了快手如何用AI技术去赋能每一个普通用户，让每一个人的记录形式更丰富、有趣、高质量。

李岩说，快手在AI技术上的深耕，降低了短视频的创作门槛，使用户尽可能地接近专业水准。而在理解内容、理解用户中实现视频和用户的精准匹配，让每位用户获得更大的展现空间，同时看到了更大的世界。

他认为，通过短视频实现的记录，让人与人以及人与世界连接起来，是很有意义的，从整体来看，提升了网民之间的信任。

以下为演讲内容实录（有删节）：

非常高兴有机会介绍在快手这样一个短视频社区，AI是如何应用的，具体会产生什么样好玩的AI应用。

我的分享分为三部分。第一部分简单介绍一下快手；第二部分介绍AI技术如何帮助用户提升视频创作质量，降低创作门槛；第三部分介绍AI技术如何理解视频，理解用户，并做好分发。

快手是什么

快手把自己定位成普通人记录生活和分享生活的社区型产品，通过短视频、照片以及直播的形式，帮助人们记录自己的生活，使每一个人都有机会被世界看到，也能看到更广阔的世界。

快手在2011年诞生，今年成立8周年，目前DAU已达到2亿。2011年，GIF快手是做动图的工具，2013年移动互联网兴起，我们看到了短视频的重要影响和作用，2013年7月，工具型产品转型为短视频社区。转型短视频社区之后，快手的数据实现了指数级增长，2015年1月，快手日活用户超过1000万，截止到现在，快手的日活已经到达2亿。

在中国的互联网市场，日活2亿量级的APP非常少。凭借数亿用户几年的积累，现在有超过100亿条短视频记录在我们的社区里，并以每天新增1500万条短视频的速度增加，4年前这个数字只有几十万。

在快手里，用户记录了大千世界里的方方面面，在这里我们可以看到很多种真实有力量的生活，有些画面是我们在大众媒体看不到的。

比如这个视频，鸭绿江的放排人在运输木材，把高山上的木材顺着水流运到山下，这种古老的水运方式已经很少被人知晓，在快手这群人被数百万人关注到。

还有这个视频，这是城市工地上的“水鬼”，这个职业很小众，但一二线城市的每一座高楼大厦都需要他们，在用建高楼大厦打地基的时候，需要用电钻挖几十米的深坑，电钻头掉了需要他们潜到几十米深的浑浊泥水中，把电钻恢复原位。

普通用户记录的生活，涵盖的内容超越了之前的记者或者专业人士记录、调研的范围。有数亿人在快手记录自己的生活，这里有当代的百工图，有全球各地的田野风俗，还有用户记录的各式各样的旅行生活，也有清华、人大等高校教授讲解知识进行知识传播，这些画面聚集起来就是一幅我们当代生活的清明上河图。

AI帮助用户用更低成本创作出更高水平的视频

接下来，我重点讲一下AI技术如何帮助这款短视频产品做得更好。我希望帮助各位媒体的朋友们了解到，AI技术其实是贯穿于快手的产品骨髓之中，应用在视频生产、视频理解、用户理解到视频推荐的整个环节。

视频创作环节，我们希望每个人都能成为自己生活的导演，用手机去记录生活，而且生成相对较高质量的视频。如何帮助每个人成为自己的导演呢？在视频创作环节快手广泛应用了AI技术，用科技去赋能普通用户，使他们尽可能接近专业制作视频的水准。

我们希望让用户用更低的成本创作出更高水平的视频，这就需要让AI助力于内容生产。

比如，快手之前上线的一款魔法表情叫“快手时光机”，用户可以在几十秒钟内看到自己容颜变老的过程。一个人拍自己的视频是很乏味的，我们希望用户能够体验到自己变老以后的样子。

又比如，把AR技术应用在用户拍摄视频的环节，给现实生活的画面加入一些虚拟的元素，这属于增强现实，使虚拟世界和现实世界更好的互动，使人们在记录自己生活的时候有更多的新奇的体验。

再比如，我们会运用图像相关的算法，帮助用户去矫正拍摄中出现问题的视频，比如脏镜头导致的视频画面模糊，光线问题导致的画面昏暗及画面偏色的问题。

这些玩法和功能的背后是快手对前沿 AI技术的开发，涉及人体姿态估计、手势识别、背景分割等多个技术模块。这些都是快手努力将记录形式变得更加有趣的新尝试。

这里有一个挑战，上述技术都要在手机本地实时地进行计算与渲染。快手拥有数亿用户，用户的手机机型千差万别的，这要求我们的算法必须在所有的机型上都能流畅运行，这对我们AI能力的要求是非常高的，非常消耗计算资源。为了解决这个问题快手自研了YCNN深度推理学习引擎，解决了AI技术运行受限于用户设备计算量的问题。

音频方面，我们也做了非常多的工作。比如之前专业的人在创作视频时，编辑字幕是非常痛苦的事情。现在我们通过语音识别技术，可以帮视频制作者自动添加、编辑字幕，而且还可以以各种各样的形式展示字幕，借助AI的技术极大地降低了生成字幕的成本。

在短视频场景里音乐起了非常重要的作用。据统计，快手的视频中，有60%-80%的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情，其实是不容易事情。让用户尽量贴合音乐的节奏创作动作，对于用户的要求也是非常高的，具备很强乐感的人其实非常少。

为了降低用户创作视频时选择音乐的门槛，我们开发了智能配乐及AI生成音乐的技术。智能配乐可以根据视频画面及用户画像为用户推荐适合视频画面，并被用户喜欢的背景音乐供用户选择。

AI生成音乐通过AI的分析算法，可以感知到视频画面中人的动作，然后让生成的音乐节奏匹配人的动作，这样是极大地降低了用户创作视频时选择音乐的门槛，让大家更愿意创作自己的视频。

用AI理解视频，理解用户，做好分发

上面分享的是AI技术如何降低人工创作短视频的门槛，使普通用户都可以创作出质量还不错的短视频。用户创作并上传到我们的社区后，我们又做了哪些事情更好的分发这些视频呢？

理解视频其实非常复杂，对人脸纬度的解析、场景类的解析、音乐类的解析等等，这些都是从单个角度进行建模，其实视频需要多模态的解析。

我们需要做到让机器高效的判断用户上传的视频是不是符合规则的，判断视频内容是不是原创的，以及要做到把视频精准的匹配给对他感兴趣的用户。

我们让机器能够帮助我们管理好上传的海量视频，同时帮我们做好视频的推荐，而且推荐给用户的视频是能激发用户兴趣的。

这里还涉及用户理解，指的是让机器理解我们的用户，其中包括理解用户在社会学上的特征，以及用户的兴趣，包括他的短期兴趣爱好以及中长期兴趣爱好，以及海量的能够代表用户特征的更小的向量。

在视频的分发上，快手上有一个非常有意思的现象，我们不希望头部的视频内容占据太多的曝光，我们用经济学上的基尼系数控制平台上用户之间的“贫富差距”。

互联网上的注意力资源是非常宝贵的资源，我们希望这种宝贵的资源也能分给普通人，而不是像聚光灯一样聚集在少量的头部用户身上。