不久之前,同传AI刚刚在国内掀起暴风雨,以至于让大众认为现阶段的AI技术尚未达到企业宣传的程度。
不过,近日,百度于硅谷宣布了最新重大突破,即一个名为STACL的同传AI,其论文结果优异,Demo的效果也很惊人。并且,MIT科技评论、IEEESpectrum等一众外媒,还纷纷给出好评。
攻克AI同传翻译难题
众所周知,在AI领域,两种语言的“即时互译”是一项难以攻克的技术问题,之所以如此,是在于源语言和目标语言之间存在较大的词序和语序的差异。
百度STACL同传AI则解决了这一难题。
据百度方面介绍,STACL具备了预测能力和可控延迟的即时机器翻译系统,其可实现两种语言之间的高质量、低延时翻译。
那STACL翻译能达到什么程度?IEEESpectrum在采访之后给出了类比:跟联合国会议里的人类同传相媲美。
如果真是如此,那百度AI同传相比其他同类产品的突破确实是蛮大的。
从百度展示的Demo来看,STACL不走“整句说完再翻译”的路线,甚至还会预测发言者未来几秒的内容,其翻译工作延时非常短,与原句只差几个字。
虽说这个AI目前只是同步翻译成文字,还没有合成译文的语音,但这不是重点。关键是,不知道有没有注意到,这种“只差几个字”有多难得。
在Demo中,还没等“美国总统布什与俄罗斯总统普京在莫斯科会晤。”这句汉语说到莫斯科,自动翻译的英语已经出现了“meet”,也就是汉语句末的“会晤”。
事实上,我们可以看出,这个“meet”,是AI从前半句话里脑补出来的,依据的是美国总统最可能与其他人发生怎样的活动。
因此,百度这个同传AI,不用等一句话说完,就能开始翻译了。
预测即时翻译能力从何而来?
为了能够让STACL拥有预测和即时翻译能力,百度开发人员从人类译员身上获得启示,从而研发了“wait-kwords”模型,该模型可以根据历史信息,直接预测翻译中目标语言词汇。
此外,该模型在翻译质量和翻译延迟之间做出了很好的平衡,用户可根据实际需求设定延迟时间(例如延迟1(k=1)词或延迟5(k=5)词)。
比如,法语和西班牙语这种较为接近的语言,延迟可设置在比较低的水平;但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置为较高水平,以便于更好的应对差异。
图:百度AI同传技术研究论文,地址