3月26日,全球瞩目的2019苹果春季发布会如期而至。网易有道联合网易科技、中关村在线、天极网、太平洋电脑、电脑之家、快科技在内的6家国内顶级科技媒体,为观众提供发布会直播视频的同声传译服务,并借此进行了一次单纯的AI同传试验。
网易有道为这场试验做了哪些准备?AI同传应用了哪些技术,未来发展又将如何?针对以上疑问,我们采访了有道同传项目组的相关工作人员,揭秘此次苹果发布会直播同传背后的故事。
1
今年春节期间,国产科幻电影巨制《流浪地球》引发各界热议。随即,2019年也被大量影迷视作“中国科幻元年”。但科幻未必都离现实太过遥远,影片中能够实时翻译各国语言的人工智能同传系统已经出现。
事实上,网易有道在AI同传领域已经开展了多年研究。2018年,有道AI同传已经服务过多场线下大型会议,为现场观众实时翻译外国嘉宾的演讲内容。有道AI同传已经在线下活动中经受过反复检验,不过这次,应用场景由线下会议变成了苹果发布会直播。
2
北京时间3月26日凌晨1点,一年两度的苹果发布会让Apple Park园区更加热络,史蒂夫·乔布斯剧院人声鼎沸。而在地球的另一端,海淀后厂村网易大厦的灯光依然明晃,紧锣密鼓地为这场全球瞩目的盛会做着最后准备。
“今年苹果发布会不推出硬件产品,而是主打服务,但目前关于苹果服务的信息非常少,我们缺乏相关语料来训练AI,在直播开始前确实有些担心效果。”有道同传项目组的负责人坦言道。
虽然早就传闻此次不会发布硬件产品,但苹果发布会从来不缺少关注。为了给屏幕前的观众带来优质的观看体验,后厂村网易有道的机房里一群人彻夜未眠。从凌晨一点到凌晨四点,有道AI同传项目组的工作人员顶着黑眼圈,实时监控着AI同传的翻译效果。
3
实际上,苹果发布会同传项目的实际开展比想象中困难许多。
即使是人工译员,在接到苹果发布会这样的大型会议同传任务后,也需要至少一周的时间进行准备。尤其是发布会涉及到新品和技术的专业名词翻译,一直是同声传译遇到的最头疼的问题,这也是有道AI同传前期准备最多的地方。
(同传效果展示)
据负责人介绍,有道同传项目分为两大板块:同传内容生成和内容展示。内容生成也就是有道AI同传的核心技术部分,结合ASR语音识别技术和NMT神经网络翻译技术,将直播语料实时翻译成中文;内容展示则负责将AI同传的结果输出,确保观众在观看发布会的时候能够享受到流畅的翻译体验。
苹果官方刚刚放出发布会消息后,网易有道就接到了媒体邀约——希望有道能够为苹果发布会的直播做同传,以便国内观众观看。而此次采用完全不加人工的方式正是网易有道一次单纯的AI同传试验。”
4
在内容生成层面,ASR语音识别技术是AI同传的基础,只有先识别正确才有可能翻译得准确。有道的语音识别模型采用N-GRAM语言模型加TDNN-LFMMI声学模型的方式,这一组合的特点就是又快又准。
有道同传项目组整理了历年苹果发布会的音视频资料,将每一句语料切成单个句子,从超过10万条音频中精选出3万条用以训练ASR模型。此外,有道词典和有道翻译官这两个庞大的语料库也为语音识别技术的训练提供了重要补充。最终,专为此次苹果发布会训练的ASR语音识别模型在短时间内识别质量提升了5个绝对点。