你收到的语音到底是不是真人呢?可别那么快就下定论!
近期,不少人遭遇了“本人语音”的电信诈骗。当收到朋友的借钱微信后,人们的第一反应通常是朋友被盗号了,但“朋友”立马补充了一条“真人语音”做确认。许多人往往一听到朋友的声音,便放心将钱转了出去,等到收款后被拉黑,被骗人恍然大悟朋友的微信真的被盗了。
不法分子拥有的“本人语音”其实与个人信息的泄露有关,只是被泄露的不仅仅是个人信息,还有自己平时语音聊天的“语音包”,通过对语音的合成就能生成一段听上去真假难辨的“借钱语音”。再通过对APP的篡改,还能实现合成语音的“文件发送”,让语音信息避开麦克风收音发送出去,进而完成电信诈骗。
通过个人语音包就能合成出如真人一般的语音,那如果将语音包给到AI是否也能迅速合成出接近真人的AI语音呢?
平安科技研究自然语言技术的科学家表示:AI语音合成并没有想象中那么简单。
六种情绪设定,攻克机器音“情绪”难题
基于20年的客户服务积累,如今平安AI语音平台已实现客服工作的AI覆盖率达83%,解决率接近90%。通过平安智能语音中台的运用,成功赋能超8万位远程坐席。平安AI客服所使用的并不是刻板的电子音,而是非常有人情味的talker。使用过Siri等智能助手的用户对于“机器音”并不会陌生,机器的声音往往是冰冷而生硬的,没有抑扬顿挫的语调,也不会适时地断句。让机器的声音口语化是语音合成遇到的第一个问题。
平安科技的研发团队将“情绪”作为研发的重点和难点。因为人声与机器声最大的不同在于,人的声音是有喜怒哀乐的,时而温和、时而严厉、情绪充沛而富有变化。当机器音具备了情绪,抑扬顿挫的语言也就逐步体现了。
通过结合金融行业的属性与平安日常的业务场景,研发团队的科学家为语音机器人确立了6种需要培养的情绪,分别是中性、高兴、悲伤、愤怒、温和和严厉。例如,客服人员交流,需要温和的语气;而电商促销,则需要高兴的语气。六种情绪风格确认后,再导入录音员录制的语音库,每个风格都要录上五六百句话。
收集了数千句素材之后,基于素材建造训练模型,再通过模型构架、网络构架的优化,不断地进行机器训练。经过一系列的复杂的训练与合成操作,平安科技自然语言技术团队终于实现了机器声音的情绪化。
多方联合建立方言语音库,让AI成为“地道的中国人”
许多人在学普通话之前,首先学会的“母语”其实是所在地区的方言,如今人群中方言的使用比率依然很高。以上海话为例,平安科技的研发团队针对上海方的言研发做了大量工作,调研显示2019年上海的外地人口比例在4成左右,即便是聚集四面八方“沪漂”的上海,使用上海方言的本地人占比仍能达到6成左右。
对于一个普通人来说,掌握多种方言并不容易,但对于人工智能而言,它可以通过海量的语音训练掌握更多种类的方言。平安科技的科学家认为中国的人工智能,应当是“一个地道的中国人”。除了普通话,地大物博的各地区方言,它也能听得懂才行。
为了可以让AI更好地识别方言,平安科技的科学家们将中国划分为8个方言区。以上海话为例,他们设计了一套详细的上海话规则,给到标注人员去标注。在这其中,还有一个难点就是语音库的建立。
平安科技科研队伍人员来自全国各地,然而来自上海本地的同事仅有两位,无法组件丰富的语言库样本。
为了建立丰富的上海话语言库,平安科技的研发团队与多个上海高校展开合作。找到学校的大学老师,并招募学校里的上海本地同学帮忙录音与标注。经过几个月的努力,平安科技研发的上海话语音识别AI平台终于成功落地。
截至到目前,平安科技自然语言技术团队结合具体的业务场景,总共梳理了两三万句业务话术,并整理出一些常用的口语标记。接到平安AI客服电话时,听到的是机器实时合成的机器音,并没有冰冷与生硬,而是一种较人性化、较柔和的拟人声音,这是通过大量的机器学习、深度学习来实现的。
技术不断的精进,让机器的学习也不断深入。而无限接近人类的拟人化、人性化,将成为AI未来发展需要攻克的长期命题。未来,平安科技还将继续完善AI学习的数据库,让自然语言技术在不断实践与训练中获得更人性化的提升,为更多的场景中的智能化运用实现更多助力。