通化信息港

当前位置:

网易有道段亦涛神经网络翻译帮助我们更好理

2019/05/15 来源:通化信息港

导读

(原标题:易有道段亦涛:神经络翻译帮助我们更好理解人工智能)2017GMIC(全球移动互联大会)未来创新峰会上, 易有道首席科学家段亦涛

(原标题:易有道段亦涛:神经络翻译帮助我们更好理解人工智能)

2017GMIC(全球移动互联大会)未来创新峰会上, 易有道首席科学家段亦涛发表了《机器翻译皆有道》的主题演讲,分享了其在神经络翻译领域的研究,并表示该技术将在有道词典、有道翻译官、有道翻译页版等产品上陆续上线,这意味着超7亿有道用户将便捷地享受到这一技术带来的便利。段亦涛表示,神经络翻译是人工智能在翻译领域的具体运用,是目前前沿的机器翻译技术,它带来的翻译质量提升是过去十年的总和。

以下是其演讲原文(有删减):

大家好,很高兴有机会在这里跟大家分享有道在机器翻译方面做的一些探索。先简单自我介绍,我是 易有道首席科学家,本科和硕士在北京航空航天大学学飞机设计专业,博士在加州大学伯克利分校学计算机科学。之后我就加入了 易有道,目前主要关注机器学习领域,尤其是深度学习在机器翻译、图象识别、教育等方面的运用。

神经络翻译质量提升 是过去十年总和

有道其实很早就开始做机器翻译,我们在2008年就推出了机器翻译的服务,应该是国内早推出这一服务的互联公司。这两年我们更关注把深度学习接入机器翻译领域,我们研究成果是非常显著的,我们的机器翻译质量有非常大的提升。

我们先看两个例子,给大家一个直观的感受。个例子是英译中的,我们随便从外媒选取了一段报导,报道内容是关于前段时间巴黎恐怖事件。我们用各个翻译引擎来进行了翻译,个是统计翻译模型,第二个是我们的神经络翻译模型,第三种是某海外的神经络翻译引擎。

从上面的结果可以看出来,统计翻译模型的结果拼凑感非常明显,而且有些片断翻译还搞错了,整体来看很不通顺;有道的翻译结果,可以看到是相当的准确和流畅的;第三个国外神经络翻译模型的结果,可以看到不少的不准确的地方。

我们再来看一个中译英的例子,我们摘取了机器之心前段时间发布的一条消息。我们主要看看各家神经络翻译的结果,可以看到,有道上线的神经络翻译的结果,依然是通顺和准确的,这里面几乎没有任何语法错误。这个结果,即便是普通人中等英文水平,都很难达到,但是我们的神经络翻译做到了。再来看另个国外神经络模型的翻译结果,其实还是看出有明显的不合适的地方,比如起起伏伏以及一些词之间的关系搞错。

或许有人会问,这些例子是否是精心挑选出来的。事实上,以上两个例子只是我们随机选出的两个,没有特别的筛选。我们对质量的评测非常严格和客观,我们采用庞大的评测数据集,并在这个数据集上看整体的质量。大家可以下载有道翻译官App直接体验这个的翻译结果。

另外我们再看两个数字,首先有道过去两年研究神经络翻译所带来的质量提升差不多是过年十年质量提升的总和,同时这个技术很快会被有道旗下的超过7亿的用户便捷地享受到。

人工智能改变翻译 更聪明更高效

神经络模型是一个很前沿的技术,那它为什么能够在机器翻译领域能起到如此大的作用呢?实际上,神经络模型模仿了人脑的工作机制,整个模型由大量的神经元来构成,一个神经元完成一些简单的任务,然后通过对这些神经元的组合来调和工作,终究得到更加出色的效果。

而以前的统计翻译模型更像一个机械系统,它由很多个组件来构成,包括短语组件、分词组件、条序组件还有原模型等等。每一个模块都是有各自的功能和各自的目标,然后机械地拼装在一起,完成一个翻译的结果。和它相比,神经络翻译模型更像一个有机体,模型里面有很多参数,这些参数都是为同一个目标来调整和优化的;它们中间的结合和交互更加有机,所以整体效果会更好。

另一个不同是,两种模型的内部信息的表达方式也不一样。在统计翻译模型里,其表达方式能够识别词,但却不能够表达词与词之间的关系,比如两个词的词义是相似还是相反的。而我们的神经络翻译模型,它使用一个10数位的向量来表达每一个词,它的表达能力更丰富、更灵活,以及能够更好地来表达词和词之间的关系。比如说计算机和电脑这两个词,那么它们很可能在向量空间里离得很近。这种表达方式能够顾及到更多这样的关系,它的内部表达是一个有机整体,从而生成更通顺的翻译结果。

正如刚才所说,有道很早就开始研究机器翻译领域,我们今天之所以在神经络翻译领域能够取得这样的效果,有几方面的缘由。

首先,有道在机器翻译领域深耕了近十年,我们积累了大量的优良的语料和技术。我们依托有道词典积累的语料和用户数据,能够在英语学习这种翻译场景下做到。其次,我们更加关注中文和其他外语之间的翻译,所以火力更加集中,我们针对中文特有的语言现象做了非常多的优化,包括中文的分词等等。这些优化都直接体现在终的翻译结果中。另外,我们集合 易公司的研发之力,和 易杭州研究院一起,攻克了数据处理、大规模框架、模型优化、领域适配等技术难题,开发了一些我们特有的技术,比如我们自己的领域适配技术,使得我们的模型能够自动识别不同场景。目前已在、学习、口语和一些科技领域等场景下做到了。

我们做的神经络翻译技术,目前可以很便捷让用户体验到。比如用我们的翻译引擎来做文本翻译,翻译效果比之前有了很大的提升;有道翻译官的拍照翻译,用户只需要对文本进行拍照,就可实时展现出神经络翻译的结果。另外,我们人工翻译的团队也开始全面使用有道上线的神经络翻译技术,推出了有道人机翻译服务:客户提交订单后,神经络翻译模型会先做一版初步翻译,译员们再在这个基础上进一步调剂,这就很大地提高了翻译效率,同时翻译费用降低了50%。

有道翻译官拍照翻译中的运用

机器翻译的未来 打破语言障碍

回到问题的初,我们为什么要投入这么巨大的人力物力财力,研究神经络机器翻译呢?

直接和现实的价值就是,神经络翻译能够帮助人打破语言的障碍,使得信息的流通更加通常。纵观历史,信息交换的变革都是对人类技术进步有很强的刺激作用,往远看有印刷术、造纸术,近代有无线和有线电报等,以及到今天互联。虽然目前来看,信息技术的发展使得数据传输不再是瓶颈,但是另一个面临的问题就是语言的障碍,比如数据传过来没有问题,但能不能看懂和理解就是另外回事。那么神经络翻译能够帮助人们打破这个障碍,使人的交换更加通常,这个意义是非常重大的。

同时,神经络翻译对整个人工智能领域有明显的增进作用。语言和文字体系是人类特有的特性,所以如果我们没有真正的理解语言的机制,那末就不可能说我们真正理解和做到人工智能。而在神经络翻译的研究过程中,既包括了对语言的理解,也包括了语言的生成,所以对它的研究能够很好地增进人工智能整体发展。

也正由于如此,有道以及 易公司将以神经络翻译技术为契机,进一步探索人工智能与机器翻译的结合,推动行业的技术创新和发展。

经期延长腹痛吃什么药
月经后期如何排淤血
月经有血块该吃什么
标签