中国AI语音一哥怎么看未来?
过去,算法即壁垒,软件即方案,AI语音缺精进但更缺场景。
现在,算法无限接近极限,场景千树万树梨花开,但如何真正让AI之能触达用户?
科大讯飞的答案:终端硬件,而且是算法定义的硬件。
这也是AI领域竞争愈发激烈的情况下,科大讯飞展现出的最新动向。
在2019新品发布会上,这家成立20年的AI公司,一口气发布5款硬件,并对其核心的语音操作系统进行了升级。
与往年不同的是,今年的新品发布会上,硬件完全成为主角。
不仅有核心级产品翻译机的3.0版本更新迭代,还新推出了智能办公本、转写机、智能录音笔、学习机等等应用到工作、生活和学习等场景中的产品。
此外,发布会上,科大讯飞云端语音操作系统iFLYOS进行了优化升级。在今年3月首次亮相的全球首个多语种AI虚拟主播也现身发布会,作为串场,并用9种语言全程直播本次产品发布会。
一句话总结就是:围绕语音技术高地,借硬件之手,以软件为基,加速技术落地,覆盖更多场景。
“借硬件之手”
新品发布环节的大部分时间,都属于面向C端销售的硬件产品,也是科大讯飞近年来发展的重点。
根据科大讯飞2018年年报,2018年,科大To C业务实现营业收入 25.17 亿,同比增长96.54%,在整体营收中占接近1/3。
讯飞翻译机3.0
率先登场的,是讯飞的核心产品翻译机。截止到2018年底,翻译机2.0的销量已经超过30万台。科大讯飞表示,仅2018年,翻译服务次数5亿+次。
现在,这一产品迭代到了3.0版本。与先前版本相比,在线翻译可翻译语言覆盖全球近200个国家个地区,行业A.I.翻译拓展到7个专业领域。
3.0版本的翻译机,支持普通话与粤语、东北话、河南话、四川话等方言之间的翻译,还新增了维汉、藏汉等民族语言翻译,翻译速度也再度提升,达到“0.5秒闪译”,并提升了图像拍照翻译水平。
此外,离线引擎也有了新的升级,采用了新一代离线语音识别引擎、离线翻译引擎,并内置了高通骁龙八核处理器。
科大讯飞介绍,这些变化直接让离线语音识别训练模型规模扩大5倍,中英文识别率超95%;翻译模型容量增加105%,涵盖词库规模扩大1倍。
这款产品已经开售,价格3499元。与2.0版本相比贵了500元。
讯飞转写机
紧跟着的是一款转写机产品。科大讯飞将其定位为“面向办公场景的语音转写移动工作站”。
最大的亮点,是内置离线解决方案,转写准确率能够达到95%以上;并支持对讲话人进行智能分区、中英文同步展示、字幕实时叠加功能等等。
科大讯飞介绍称,转写速度上,能够“1小时讲话,5分钟出稿”。并支持中英文混合识别,借助基于生成对抗网络的数据转换算法以及多分辨率层次化建模算法,中英混合识别效果从50%提升到85%+。
面对专业的转写场景,这款设备还有音视频同步采集功能,借助“语音+图像”协同翻译,能够将专业名词错误率下降50%。
讯飞智能录音笔
紧接着,是智能录音笔产品,这是一款软硬件一体化的设备。同样具备“1小时录音,5分钟出稿”的能力。讯飞介绍称,借助其研发的音转文字引擎,转写识别准确率能够达到98%。
与大部分录音笔不同,这款录音笔还带有独立的触摸屏,转写结果可以直接看到。并支持翻译功能,而且,翻译结果不仅能够实时可见,也能够实时可听。
对于录音的后期整理上,也有不少针对性的功能,能够对重点快速进行标记,支持语音便捷搜索,通过4G、WiFi方式连接网络,能够实现录音文本快速分享。
续航能力是:满电工作10小时。而且支持快充,充电5分钟,录音两小时。
在这场发布会上,科大讯飞一共推出了2款录音笔设备,分别是:
旗舰版SR 701,弧形陶瓷背板,3.5英寸触控屏,内置32G内存和20G云空间,售价2999元。
标准版SR501,机铣玻璃背板,3.1英寸触控屏,内置16G内存和10G云空间,售价1999元。
讯飞智能办公本
接下来,是一款号称“开启笔记本的新时代”的硬件产品,科大讯飞称其为智能笔记本。
这是一款墨水屏智能硬件设备,屏幕大小为10.3吋。核心的亮点是,能够让你在录音转写的同时,也能够手写记录要点。
手写关键词也可以做到字音同步,只要点击手写的文字,就能播放手写文本时的语音。
后期的整理与检索也内置了语音搜索功能,有语音分析、自动标签、内容关联等自然语言处理能能力。
此外,作为一款墨水屏电子设备,也支持电子书阅读功能,也可以手写邮件。
现在,这款产品已经上线出售,售价4999元。
讯飞学习机
硬件环节最后登场的是一部学习机。这款设备于今年4月首次亮相,与其他学习机相比,最大的不同点在于“智能推荐针对学”。
讯飞介绍称,基于智学网随机调研的400万学生中35亿条数据,他们发现学生60%的练习都是无效的。围绕着这个方面,学习机主要有两大功能:一是数理化精准学习提升效率,二是英语听说读写综合提升。
如何实现精准学习?基于知识图谱系统, 科大讯飞将整个过程拆解成了三个步骤:
首先基于人工智能技术快速测试,找到弱项;然后针对弱项进行精准学习;最后巩固内化形成学习闭环。
围绕着英语听说读写综合提升方面,学习机中具备语音评测和语音转写功能。效果怎样?讯飞说,借助这款学习机,“不会英语的家长,也能检查孩子背课文”。
此外,作为一款学习机,这款设备还有名师视频、拍照搜题、同步练习、历年真题试卷等等功能,也都内置其中,售价3999元。
“以软件为基”:iFLYOS 2.0
这场新品发布会上,科大讯飞发布了智能物联网操作系统iFLYOS的2.0版本,主讲人为科大讯飞轮值总裁胡郁。
这一次在具体的功能上迭代与升级,主要集中在以下的几个方面:
首先,新增了21种方言识别、语句中英文混合识别能力,并加入了全双工能力支持用户连续对话;
其次,深度集成了讯飞的麦克风阵列算法,整合了AIUI语义能力,提供云端芯一体化解决方案。
第三,开放了多样的处理模型,用户可以定制技能以连接自己的服务;使用自己的用户体系;并支持用户级和设备级的自定义唤醒词,使用自己的发音人,把更多品牌元素结合到自己的产品内,打造属于开发者自己的操作系统。
胡郁介绍称,现在的iFLYOS 2.0,已经内置了200+技能,有100+内容合作方,1500万首正版音乐和1200万小时的有声内容。设备方面,已经覆盖4亿智能手机,3800万车载设备,1400万智能电视,以及500万机器人玩具。
他说,借助iFLYOS 2.0平台,原来需要6-12个月开发周期的智能语音应用,现在只需要5天就可以完成了。
关于iFLYOS 2.0,科大讯飞一共提供了两个版本。
一是基础版,云端支持语音合成、基础语音识别、基础语义理解、多场景模式、前后拦截器、技能工作室基础版功能与基础内容、基础技能等服务。终端方面,支持拾音降噪、SDK、API和“蓝小飞”语音唤醒。
另外是专业版,除了基础版所有功能之外,支持自定义账号体系、麦克风阵列设计、面向专业领域的语音识别、芯片、PCBA、整机硬件参考设计等硬件方案,以及音乐、闲聊等其他收费内容。
科大讯飞二十载,如何兑现AI价值红利?
科大讯飞成立于1999年,至今已过二十载。从2008年A股上市以来,一直是中国人工智能领域不可多得的AI商业化变现的代表。
如何挖掘人工智能价值?在这场大会上,一手创办讯飞的刘庆峰给出了最新思考:
“AI唯有跨越技术鸿沟,才能真正兑现价值红利。”
而讯飞,之所以能够发展至此,正是跨越了多个技术鸿沟之后的结果。
刘庆峰登场之后,首先介绍的就是科大讯飞在过去一年内跨越的“鸿沟”:
语音合成:语音合成自然度(MOS分)达到4.0,即真人说话水平,业界唯一中、英文语音合成自然度达到并超过4.0分(普通人说话水平)的系统。
语音识别:语音识别准确率全面超过速记员。目前,科大讯飞的中文语音转写准确率已经突破98%,英文达到95%。
语音评测:在大规模考试评测中达到国家级测试员水平,业界唯一通过国家语委鉴定并大规模实用的技术成果。
机器翻译:系统通过CATTI全国翻译专业资格(水平)测试,达到专业资格合格标准。
认知智能:如“智医助理”通过国家临床执业医师综合笔试测试,让医生“核心能力”推广成为可能。
这次科大讯飞发布会上呈现出来的产品,基本都是围绕着上述技术构建,也是其兑现价值红利的载体。
在科大讯飞的董事长看来,2019年是人工智能规模化应用落地元年,也将开始进入应用红利兑现年。
刘庆峰认为,判断人工智能技术价值兑换,有三个标准:
首先,要有真实可见的实际应用案例;
其次,能规模化应用的核心产品;
第三,能够统计数据的应用成效。
以教育领域为例。在他看来,基于人工智能,可以让每个孩子获得更精准的教学,让因材施教落到实处(实际应用案例)。
现在, 科大讯飞智慧教育产品和应用已经覆盖25000多所中小学(规模化应用的产品)。
他们透露的成绩单也颇为亮眼:学生学习效率提升50%,时间花费减少32%,焦虑情绪舒缓20%(应用成效)。
跨越AI技术鸿沟
此外,刘庆峰也给出了讯飞接下来将要跨越哪些“鸿沟”:多模态拟人交互、常识推理突破、通用人工智能等等。
怎么跨越?他介绍了三把钥匙:
第一,算法突破。面对小样本、无监督、个性化问题的基础理论持续突破;
第二,脑智同飞。脑科学研究和数学统计建模方法深度结合;
第三,人机耦合。人工智能系统和人类行为协作的人机耦合方式持续探索。
其中,人机耦合是核心,刘庆峰也再次提出了“未来属于人机耦合的新时代”的论断。
并以翻译为例,进一步解释了这一观点:
虽然科大讯飞的机器口译测试全球首次达到专业资格合格标准,但是这并不意味着机器可以替代人类同传。
他说,人和机器的深度协作才是推动人工智能应用真正落地的关键,这也是人工智能时代社会伦理和人文发展的需要。
AI落地再探讨
总之,作为中国AI语音的一哥,也是中国AI的最早探索者,科大讯飞给出了最新的思考和探索结果。
AI算法的壁垒,讯飞一次次用国际竞赛奖项突破证明。
AI硬件产品的壁垒,现在更多交给消费者。
他们找到场景,打造产品,用软件定义硬件,创造更多AI落地场景,让更多人通过终端产品体验AI。
当然,这条路上,讯飞也不孤单。
越来越多AI公司认定这条路,越来越多AI技术被以产品化形态进入千家万户。
亚马逊已经在AI音箱领域取得成功。
Google已经在“软件+硬件+AI”战略上初尝胜果。
那么开AI机器转写与翻译之先的讯飞,现在一口气推出5款AI硬件新品的讯飞呢?
规律和趋势,会在这里有怎样的延续?
不妨拭目以待。
— 完 —
“