达摩院公布语音AI四大进展，阿里AI每天处理55万小时语音

来源：消费日报网综合 2019-09-27 11:14

来源：消费日报网综合

2019-09-27 11:14　

分享到

分享到微信

9月26日，达摩院在杭州云栖大会公布2019年阿里语音AI四大进展，在语音AI的理论、技术、应用等整个链路均有突破。

当日，阿里巴巴在杭州云栖大会上首次公布人工智能调用规模：每天调用超1万亿次，服务全球10亿人，日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句，已经成为中国最大的人工智能公司。

达摩院语音实验室负责人鄢志杰介绍，今年以来实现了四大技术进展：声学信号处理理论、语音合成技术、语音自学习平台及通用语音交互方案。

语音AI团队提出了声学信号处理的理论创新——指向性差分麦克风阵列，用“应用指向性麦克风阵列”替代传统的全向型麦克风，使得阿里AI能够实现超大型空间内的远距离清晰收音。

不久前，达摩院发布了自研的新一代KAN-TTS语音合成技术，把语音合成与真人录音的相似度提升到95%以上，并将声音定制成本降低10倍以上、周期压缩3倍以上。

阿里云语音自学习平台升级到了2.0版本，全面开放自学习优化手段，人人都能自主定制语音模型，目前平台已经服务超过2.6万个场景。同时，达摩院推出了通用语音交互方案，提供端云接入、全方位服务、可定制的一站式解决方案。

“达摩院的AI就是大家的AI，达摩院要把语音技术能力做得高一点，但把技术到产业落地的门槛做得低一点。”鄢志杰表示，达摩院最先进的AI技术全都“零时差上云”，通过阿里云对外输出服务。

他打开阿里云官网，现场演示了“开箱即用”的语音合成服务：假设要定制一套给小朋友说故事的声音，先在页面上选择合适的声音，然后输入任意文本，比如“欢迎大家来到云栖大会，我长大了也要到达摩院当一个扫地僧”，马上，语音AI就用奶声奶气的合成童声念出了这句话。

【责任编辑：钟经文】