关于机器翻译的这些疑问或许你也有,答案都在这里!

来源: 中国网
2021-07-23 13:19 
分享
分享到
分享到微信

http://img.danews.cc/upload/images/20210720/bc4153259f38cb404c38a7961d6a5d06.jpg

在首届小牛翻译论坛直播期间,网友们在线抛出了77个问题与嘉宾热情互动。短短30分钟的热烈讨论,丰富的话题和内容,带来的是思想的碰撞和无穷的回味。参与Q&A环节的嘉宾包括华为2021实验室文本机器翻译实验室主任杨浩博士、科大讯飞研究院机器翻译负责人张为泰博士、腾讯AI Lab高级研究员黄国平博士、金山集团副总裁&人工智能研究院院长李长亮博士、上海专信译腾总经理李进先生、昆明理工大学副教授毛存礼博士、澳门大学副教授黄辉博士、南京大学副教授黄书剑博士,东北大学计算机学院人工智能系主任、小牛翻译CEO肖桐博士。

在此,我们挑选了人气颇高的33个问题与大家分享,一起来看看吧!

———— Q&A————

问题1:请问杨浩老师,如果将机器翻译的质量评估放到实际应用当中会有哪些应用场景?华为翻译中心有一个非常大的翻译团队,在实际应用中是否已经使用了QE相关的技术,实际的效果怎么样?(腾讯会议网友山外青山)

杨浩:我们团队正在尝试。今年起的一些落地项目已经在一些场景下开始尝试,做测试、评估。刚刚张老师也提到一个场景,这个句子假如我判断它的htr或者他的得分不够的情况下,这句可能需要重新翻译,这是一个典型的应用场景。另外一个情况的话就是,我们除了刚刚介绍的传统的端到端的模型分析token的是bad还是good之外,我们还做了类似google的知识的方法也做了融合,相当于判断源语和目标语有没有典型的术语和实体上的差别。类似于实体对不齐的情况,实体翻译多了,实体翻译少了,或者实体没有对齐的情况,我们会把这一类的句子反馈出来,并且这是一个全面的反馈,并不是进行抽检,这是第二个场景。第三个场景的话,可以自定义一些标签,比如inlable和unlable,个人觉得由于其共线的原因,可能会出现翻译逻辑的错误,这些错误可以具体抽象出场景,相当于在这个基础上做一个分类,就可以在输入句中区分出我们机器翻译的结果了,有一些可能是有逻辑错误的,并且把这些翻译结果优先拿出来给人工译员做参考。

问题2:图片翻译目前的进展如何?真实场景图片内容相对复杂,目前有什么有效的处理方式吗?(bilibili网友哈喽DY)

张为泰:图片翻译目前在业界研究的比较少,我们遇到的主要问题包括自然场景下的识别困难、文本内容依赖图片内容进行消歧、结构化解析等。目前我们没有特别深入研究过,相关问题依然存在。

问题3:将机器翻译系统部署到各种不同的硬件平台上是一个有待解决的问题吗?现在都是通过什么方法来部署的?能不能避免大量的针对硬件平台的手写代码工作?(微博直播网友汤姆布利波)

肖桐:如果只是考虑代码在不同硬件环境下的运行,一般不需要针对不同硬件平台修改代码,可以采用以下两种方式进行部署:1、源码编译:针对特定的硬件环境重新编译源代码即可在对应的软硬件下运行,不需要进行代码的修改;2、Docker:如果考虑重新编译源码的方式不够灵活,也可以使用Docker进行部署,也能一定程度上摆脱硬件的依赖。如果要考虑在对应的硬件条件下优化机器翻译系统的效率,需要针对模型进行架构的调整和代码的修改,当然也可以考虑TVM等优化器进行自动优化。

问题4:怎么看待不公开源码,论文效果无法复现的问题?(腾讯会议网友巴卡玛卡)

黄国平:论文复现有时确实不容易。一方面是因为学术论文与技术报告有很大区别,有时难以说明所有细节,于是,不排除有的作者干脆省略了部分关键设置。另一方面,有的方法本来就不鲁棒,只在满足更多约束的情况下才能生效,作者可能也没注意到某些约束。还需要继续完善或者改进。最好的办法还是直接发邮件找作者讨论。相信大部分作者都乐于交流。但也需要注意的是,作者并没有义务一定开源,也没有义务手把手指导直到结果完全复现,所以需要多方面考虑,有时也可以与其他复现者交流。最后,不能排除个别论文确实无法重现。

问题5:最近很多组在pretraining? model与NMT的结合方面做了很棒的工作,在英德、英法等数据集上达到了SOTA。但我比较感兴趣的是与其利用那么多数据做预训练(海量的单语以及大量的双语数据),少量的双语数据就能达到更好的性能(可以参考WMT比赛相关报道),这方面是否是目前pretraining model的利用还不够高效?希望老师能分享一下 (腾讯会议网友李北)

黄辉:“普通模型经过‘少量的双语数据训练就能达到更好的性能’,从而认为预训练模型利用可能不够高效。”如果这个比较是在WMT比赛中得出的,那么这个说法可能有些片面。因为首先WMT比赛中的训练集和测试集的分布、主题,往往都是接近的,即新闻翻译任务。不使用预训练,普通模型经过少量双语数据训练在测试集上表现良好是较为容易的。但相比较普通模型,我认为预训练模型在多领域、多任务的训练中是更有潜力的,因为它经过大量的单语、双语训练后,是一个具有丰富知识的专家模型,它泛化在新闻翻译这个任务上表现得不错已经能证明这一点。但目前我们并不清楚的是,pre-trained model中到底蕴含了哪些知识?学到了什么,是否具有Common sense的知识?这些都是有待发现、需要进一步分析的问题。

问题6:机器翻译付费是to B场景多还是to C场景多?(bilibili网友helldoy)

张为泰:在翻译机、翻译笔等智能翻译硬件发布之前,很多机器翻译厂商依赖to B的市场实现盈利,现在我也不是很确定哪个场景更容易赚钱一些。To C场景的特点是易规模化,可推广,但是用户对产品的要求也很高,to B场景中不同的客户可能有不同的需求,需要定制化,比较难规模化推广。

问题7:不确定性是通过语言模型来计算的,更关注句子本身的流畅度,但是最终的目标是翻译,为什么不使用翻译模型的得分来评估难度呢?(微博直播网友唔西迪西)

黄辉:在我们的研究工作里,这两种方法都会使用。首先,在最初课程内容的划分和安排阶段,我们首先使用语言模型对句子进行打分,计算他们的perplexity作为句子的难度。这里,我们尝试了三种方法:分别考虑了使用源语言句子难度、目标语言句子难度、以及源语言和目标语言句对的联合难度,对语料进行排序和划分课程。在模型训练过程中的每一个阶段,会使用翻译模型评估当前训练数据的难度,即模型对数据的confidence。使用语言模型只是其中的一种方法,在第二个工作,我们则使用了句子的词向量的范数(Vector Norm)来估计句子的难度,以及模型参数的范数来估计模型的学习状态,在整个模型训练迭代过程中,随着训练数据的不同,模型的参数也在不断地变化,同时也会影响下一轮训练数据的组成,这个过程中翻译模型会被重复地使用来估计训练句子的难度,可以说数据和模型之间有一个互动的关系。

问题8:金山人工智能的老师,您好!咱们金山最早是做文字输入法的,现在在这个飞速发展的时代,咱们会考虑为残障人士服务吗?(腾讯会议网友守望幸福)

李长亮:基于人工智能技术的发展。金山的产品思考维度会越来越广,文档智能朗读等功能就是面向特定场景特定人群的应用。

问题9:目前机器翻译的性能越来越好,如果想要进一步的突破,目前看来技术的难点有哪些呢?(腾讯会议徐萍网友)

黄书剑:从模型结构的角度,NAT、deep都是可能的路径,本质上在回答到底什么样的模型架构能够更好的学习翻译任务。从知识和翻译的角度,两个主要的问题,一是大规模预训练模型中包含的知识还没有被充分挖掘和利用,二是篇章结构和篇章上下文信息还没能得到有效建模。我想机器翻译也会往这两个方向继续前进。从翻译应用的角度,更好的QE和交互也会让机器翻译技术更进一步,发挥更大价值。

问题10:对于三种神经网络冗余的改进,在具体实现部署时效果有什么区别?(腾讯会议网友一只迪西西)

肖桐:我觉得消除结构冗余是大家最容易尝试的方法,直接有效,对代码做的改动较少。消除参数冗余和计算冗余对代码修改的代价比较高,但是也有很好的收益,不过对设备也会有特殊的要求,比如特殊的CPU指令集等等。如果要更精确,更优异的性能提升,报告中后面两种方法也值得去尝试。

问题11:请问语音翻译鲁棒性是怎么增强的?怎么让模型能够在同传这种输入数据本身就有很多错误的场景中还有好的表现呢?(微博直播网友晚安依古比古)

张为泰:识别和翻译模型本身要有一定的鲁棒性,做数据增强,包括场景数据的标注、口语化数据的伪造等都可以增强鲁棒性。同传场景下,如果想做得好的话,特别是语音识别包括机器翻译本身的性能也比较好,因为像在中英这种资源丰富的场景下我们用的一般还是级联的方式,所以本身语音识别和机器翻译的性能各自都要做得很好;其次我们也会训一些口语化数据生成的模型,用这些伪数据来做一些数据增强的训练;第二个就是对语音识别错误的增强,可能这个句子语音识别的结果是错误的,但是他的正确结果可能在N best里面,就像翻译一样,在后面的结果里面,所以我们会对N best的结果基于翻译模型做一些重排序,争取把正确的结果给挑出来,主要是有这些工作。

问题12:断句对齐片段是指什么呢?(腾讯会议网友umiswing)

张为泰:片段级(子句级)的对齐,用做顺句驱动训练的,实时翻译的时候是遇到一个片段就需要翻译,而不是遇到一个标点才翻译,以提升翻译实时性。

问题13:交互翻译一般是机器翻译提供译文之后,人工译员提供的反馈或约束是再反馈给NMT模型吗?需要多轮的interactive?(腾讯会议网友李北)

黄国平:是需要多轮的interactive,因为它产生新的译文是根据人工的反馈,但是人工的输入部分也是随时发生变化的,不使用机器翻译模型,很难生成高质量的句子。当然,以前学术界也有其他方法,尤其是SMT时代,可以不重新输入翻译模型,但是往往会匹配失败。但是在人工时代,通常会走完整的推理过程,这样质量会好一些。

问题14:在日常活动中,人们经常会给一些旧词赋予新的含义甚至创造新的词汇,机器翻译系统是如何保证这种翻译的及时性的(腾讯会议网友 NEU正妹 )

黄辉:这个问题可以从两个角度去考虑,一个是新词,另一个是词义随时代的不断演化:

1)对于新词的问题,目前机器翻译系统是以subword (亚词)为单位进行训练的,如果新词由词表内已存在的subword单位(字、词根、词缀)构成,那么新词的部分词义是能够被表征的。当然subword表示法并非能够完全缓解该类问题,学术界对于该类问题的研究一般指Open Vocabulary/OOV的问题,目前已经有很多从改进架构、subword编码,或者结合语言学特性上做的工作,例如:

lMinh-Thang Luong and Christopher D. Manning. 2016. Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models. In Proceedings of ACL 2016.

lJason Lee, Kyunghyun Cho, and Thomas Hofmann. 2017. Fully Character-Level Neural Machine Translation without Explicit Segmentation. Transactions of the Association for Computational Linguistics.

lBaosong Yang, Derek F. Wong, Tong Xiao, Lidia S. Chao, and Jingbo Zhu. 2017. Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation. In Proceedings of EMNLP 2017.

lMatthias Huck, Viktor Hangya, and Alexander Fraser. 2019. Better OOV Translation with Bilingual Terminology Mining. In Proceedings of ACL 2019.

lLiu, Xuebo, Derek F. Wong, Yang Liu, Lidia S. Chao, Tong Xiao, and Jingbo Zhu. 2019. Shared-Private Bilingual Word Embeddings for Neural Machine Translation. In Proceedings of ACL 2019.

lLiu, Xuebo, Derek F. Wong, Lidia S. Chao, Yang Liu. 2019. Latent Attribute Based Hierarchical Decoder for Neural Machine Translation. In IEEE/ACM TASLP, 27(12), 2103-2112.

lIvan Provilkov, Dmitrii Emelianenko, Elena Voita. 2020. BPE-Dropout: Simple and Effective Subword Regularization. In Proceedings of ACL 2020.

lJind ich Libovicky, Alexander Fraser. 2020. Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning Subword Systems. In Proceedings of EMNLP 2020.

2)对于已有词的新词义这个问题,我想这个应该是实践意义上比较有价值的问题。由于新词义有可能与原有词义相似亦或相反,比较直接的做法有两种方案:a)利用一些新词义比较突出的新增语料去更新模型的部分参数,例如Embedding层,减少额外的训练开销;b)不对模型进行更新,在输入时根据新词义、知识库,对输入端进行换词、预处理。

问题15:各位老师好,我有一个困惑,目前多数系统评测时候取得了很好的效果,但是在实际使用时还达不到人们理想的水平,专家们对此怎么看?(bilibili网友健壮的泡泡)

黄辉:目前机器翻译的评测任务中的领域较窄(如WMT聚焦于新闻领域),数据量往往也不大,参与比赛的系统在非受限情况下,可以利用大模型、大语料在特定任务上展示出较好的性能。而实际落地场景下,需要面临的翻译场景是多样化、专业化的,例如医疗卫生翻译、专利翻译、论文翻译等等,在训练过程中各领域语料比例不一,模型在部署时也随着领域不同而展现出性能的差异;另外就是实际部署时候一般不会采用较大的模型,因为对实时性相应的要求比较高,算力、成本受限情况下一般会采用较小的模型或者蒸馏、压缩技术,也会对性能造成损伤。目前机器翻译系统评测的指标仍然存在问题,常用的BLEU、chrf并不能很好地从语义级别去评价,这就意味着在自动评测中得出的最好系统上往往不够精确,与人类实际评估、使用相差较远,关于这一点可以参考ACL2020的Honorable Mention Paper:

Nitika Mathur, Timothy Baldwin and Trevor Cohn. 2020. Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics. In Proceedings of ACL 2020.

问题16:加入隐变量提高解码并行度之后,BLEU相比传统方法会下降吗?(腾讯会议网友umiswing)

黄书剑:长期以来NAT的效果都不能超过AT,这是并行度增加、独立性增强带来的损失。近期的一些工作慢慢减小了与AT的差距,并且有超过AT的倾向。

问题17:隐变量的维度是和hidden维度一致吗?同时是随机初始化还是对编码信息的抽象?(腾讯会议网友李北)

黄书剑:隐变量的维度可以根据需要调整,我们的三个工作中都是每个单词对应一个隐变量,在VQ-VAE中隐变量是通过推断网络推断然后查询codebook进行离散化得到的,在有先验的工作中(位置、协同关系),隐变量是通过增加的预测单元得到的,应该不存在初始化和迭代的问题。

问题18:目前课程学习的训练仍然使用默认的超参数,但这种训练方法理论上可以简化训练过程,是否应该对模型的超参数进行调整?比如增大学习率,减小warmup步数等。(腾讯会议网友许晨)

黄辉:是的。超参数的搜索是一个可以进一步提升的tricks,部分工作所报告的结果会调整到一个最适合的超参,但能带来较大提升的还是难度指标和调度算法。

问题19:机翻现在接近红海吗?NLP人才是否饱和?(bilibili网友哔哩哗啦哔哔哔 )

李长亮:我认为机器翻译正处在蓬勃发展的前期,对前景是理性乐观的,NLP人才现在在国内甚至全球都是短缺的。

问题20:是否在大规模数据集上,尤其是工业级数据上验证权重蒸馏方法?(腾讯会议网友年少有为)

肖桐:权重蒸馏已经在大规模数据上得到了应用,在我们处理一些小设备翻译模型的研发中就使用了该方法。

问题21:如何评估机器翻译模型的鲁棒性?(腾讯会议网友刘新宇)

杨浩:NMT甚至AI的鲁棒性,现在也是热门方向,我们目前还很不系统,只是特定场景有考虑,比如重复解码问题、部分逻辑错误问题等。

问题22:报告里提到的基于深编码器模型的方法是否已经应用到了小牛翻译上?实际效果如何?(腾讯会议网友妍妍)

肖桐:报告中介绍的很多方法已经在小牛翻译中得到深度使用,例如,我们上线的304种语言翻译系统都是基于深编码器模型。此外,小牛翻译的离线部署版本也大量使用了压缩注意力、低精度计算等方法。

问题23:隐变量在解码中承担了什么样的角色呢?(腾讯会议网友圈圈)

黄书剑:隐变量可以在生成y之前准备好,相当于作为生成y之前的中间结果。所以可以完成一些原先需要在y之间进行协同的工作。举个简单的例子,比如效率上很难一步就确定要生成has flaws,但是可以先确定要生成动词名词这样的中间状态,然后再进一步生成具体的单词。

问题24:语篇翻译提升连贯性和一致性具体是怎么做的呢?(腾讯会议网友XL)

张为泰:主要通过长时的约束解码来实现,即基于已翻译的内容来翻译当前内容,跟篇章翻译技术方案比较像。

问题25:模型的不确定性是怎么衡量的?(腾讯会议网友swing)

黄辉:我们是采用Monte Carlo Dropout对训练数据进行多次预测采样,计算它的Variance,反映了该数据是否被当前模型充分的训练。

问题26:在实际应用里 NAT效果如何,是否有实际应用的场景?(bilibili网友晚安叮叮车)

黄书剑:在最近WMT评测里,字节跳动的同事已经使用NAT系统取得了比较出色的成绩,另外他们也在字节跳动的一些产品中上线了NAT的服务,大家敬请期待。

问题27:在模型的推理阶段还需要加入领域知识库里相似句子的信息吗?还是说在训练阶段加入就行?(腾讯会议网友佚名)

张为泰:训练和推理阶段都加入。但是训练阶段加入的数据不用必须是实际用的领域数据。

问题28:NAT有可能成为未来主流解码范式吗?(腾讯会议网友XL)

黄书剑:如果不同单词之间的协同可以得到很好的建模,NAT就应该是以后的主流范式。针对这个问题现在研究人员都在进行尝试。

问题29:NAT的翻译长度是怎么确定的?(腾讯会议网友佚名)

黄书剑:传统的方法有一个NAT的长度预测器,根据长度结果进行固定长度的状态分配和生成。近期很多工作采用CTC的方法,有兴趣可以关注一下。

问题30:机器翻译应用场景有哪些?实际应用场景会不会很窄。(bilibili网友安)

毛存礼:随着深度学习技术的发展,机器翻译技术的成熟度越来越高,在日常交流、专业领域翻译、拍照翻译、跨境旅游、对外教育培训、政府外宣、跨境电商、影视文化传播等领域也越来越受到人们的关注,应用场景广泛。具体来讲:在垂直场景下,出国旅游、跨境交流、对外贸易、对外合作等场景下,不同国家之间的语言交流障碍是一个痛点,通过构建能够实现语音、文字、图像的多语言翻译机及翻译APP等产品,可实现垂直领域的人们无障碍交流。在影视文化传播方面,随着中国优秀影视产品输出量的不断扩大以及抖音、快手等短视频在国外的传播,面向影视文化产品和短视频的快速、准确译制需求越来越广泛,通过利用OCR技术、语音识别技术以及机器翻译技术可以实现这些领域的快速翻译。在同声传译方面,目前国际会议、跨境培训等多语言交流场景的越来越多,但是仅依赖于人工翻译受限于翻译速度、翻译费用等因素的限制,翻译效率较低。因此基于语音识别、机器翻译技术等可以实现演讲者的语音到文本的实施转换及翻译,实现了不同语言人们低成本交流。在跨语言检索方面,基于不同语言的跨语言检索的需求逐年增加,基于机器翻译技术及跨语言表征等,实现输入一种语言到不同语言的内容检索,并实现检索结果的快速翻译,实现无障碍信息检索。在机器翻译方面,越来越成熟的机器翻译技术能够助力翻译行业的升级,在专利翻译、小说翻译、医学等特定领域的文本翻译方面越来越成熟,基于OCR文字识别、机器翻译等技术,实现机器翻译与传统翻译行业相结合,有效提升传统翻译行业的效率。

问题31:黄博士,您说到粗体tag的翻译,可以分享一下更复杂的嵌套tag的翻译吗?比如,一句斜体里面包含一个粗体词。 (腾讯会议王青龙-搜狗网友)

黄国平:对于多层嵌套的tag,首先需要先解析为tag树,然后收集所有叶子结点,也就是最终只处理单层tag。最后基于单层tag的翻译结果,利用tag树完成最后的还原。

问题32:请问杨浩老师机器翻译行业应用的发展趋势会是怎样的?(腾讯会议网友bko)

杨浩:如果是会上沟通,机器翻译行业应用,可能的几个方向包括:(1)多模态翻译,如图像翻译,同传翻译等;(2)多语言翻译,一个模型支持多语种之间的互译,对模型的部署迭代等有较大意义;(3)领域和离线翻译,领域翻译质量要求,隐私可信要求等,个人感觉也是翻译应用趋势之一。

问题33:华为的杨浩博士,您好!冒昧地请教一下您咱们华为的机器翻译用的语法理论是转换生成语法理论还是依存语法理论?另外,咱们华为会进驻AI教育领域吗?(腾讯会议网友守望幸福)

杨浩:华为的机器翻译产品没有用到显示的语法理论,但研究工作还是挺多的,特别是基于图的依存语法分析,在特定场景还是有一定意义;华为是否会进驻AI教育领域,是华为云或者HMS产品策略,我们团队主要是技术方向。

 

(张铭阳)

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn