依图刷新国际声纹识别权威竞赛世界纪录

来源: 中国网科学
2019-09-10 17:21 
分享
分享到
分享到微信

近日,在国际知名声纹识别挑战赛VoxCeleb Speaker Recognition Challenge上,依图以显著优势刷新世界纪录,中国AI再次世界争光。

此次参赛队伍不仅包括约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等海内外知名高校、研究机构,还包含平安科技、NEC、君林科技等各大企业。至此,依图人工智能技术不仅在视觉感知、自然语言理解等领域领跑全球,声纹识别技术也已达世界顶尖水平。

“声纹识别”和“语音识别”是完全不同的技术,语音识别只负责让机器识别出“说话的内容”,但声纹识别能判定“话是谁说的”。因此,结合声纹识别与语音识别,我们才能知道“是谁说了什么”,这一点对于会议、访谈等有多人轮流说话的场景尤其重要。

声纹识别的应用前景非常广泛,比如智能手机锁屏、声控安全门、汽车声控锁等;利用声纹辨认技术,还可以支持智能音箱、智能语音助理等提供个性化服务,比如针对家里的老人和孩子,推荐不同的歌曲、新闻。

但由于声纹识别技术本身的难度很高,这些应用需求大部分还处在探索阶段。这也是到目前市面上能自动辨别说话人的智能语音应用比较少见的一个原因。

在声纹识别领域,VoxCeleb Speaker Recognition Challenge(VoxSRC)是兼具影响力和权威性的国际评测。与常规的声纹识别评测不同,VoxSRC所用的数据量大、来源多样,而且都采集自真实场景,比如会场访谈、室外多人对话,含有各种噪音和杂音,对于算法性能的要求非常高。此外,该竞赛的评估方法非常严谨,因此其结果在学术界和工业界都得到认可。

  依图以“logicworld”为名参赛夺冠,成绩大幅领先第二、三名

在声纹识别竞赛中,“EER”值是衡量声纹识别算法系统性能的重要指标,EER越小系统性能越好,表明不仅算法识别准确率高,系统也安全可靠。在本次竞赛中,依图基于算法的多年研究积累,首次参赛便拿下冠军,在关键指标上创下新高,远超第二、三名。

依图这次创下纪录的声纹识别精度水平,已经可以满足基本的智能声纹应用需求,比如在线交易支付的动态声纹密码、个人账户登录的声纹动态口令登录。试想,社保局安装声纹身份认证系统后,就能实现安全的远程身份认证,让“信息多跑路,群众少跑腿”,为百姓生活带来极大的便利。随着技术的不断成熟和融合,声纹识别技术将逐渐融入我们的日常生活,产生巨大的应用价值。中国自研的人工智能技术,也将持续推动和引领全球技术发展,力争成为行业标杆。

此次依图刷新世界声纹识别领域权威纪录,不仅代表中国声纹识别技术向前进了一步,更意味着智能语音产业发展的一大步。

(张铭阳)

【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn