最近世界掀起“莫言热”,他的作品被广泛地译为多国文字出版。但是将几百万字的长篇小说翻译出来不是一件简单的任务,因此很多网友设想是否可以将这个任务交给计算机。其实,这项技术已经出现,近年来,机器翻译帮助我们解决了很多生活中的问题,人们也越来越爱借助它的能力,穿越语言交流的屏障。那么计算机是如何运作,让不同语言相互转换的?科学家们有什么好办法让这个“懂外语的机器人”工作更有效率?它们最终会取代人类翻译吗?
先“海选”再“打分”机器翻译过程像选秀
辽宁日报:近些年,在高速发展的计算机科学推动下,世界进入了“信息爆炸”时代。未来,不同语言间的信息交流是必须的也是必然的。然而语言之间形成的壁垒,却阻碍了这种交流。这同样也昭示着,谁能借计算机强大的运算能力攻下自然语言翻译这座城池,谁就将在信息时代处于领先地位。朱教授,我们在使用互联网时,都或多或少地使用过机器翻译,但是可能大家并不太了解,一种语言是如何通过计算机摇身一变成为另外一种我们熟悉的语言的,请您为我们进行简要的剖析。
朱靖波:好的。机器翻译又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。为方便理解,我将用大家比较熟悉的中英文互译做例子。
机器将中文翻译英文过程中,在拿到一段话以后,计算机首先要把这句话进行一些拆分,变成一些词汇,也就是我们说的分词。因为翻译过程不能基于字,必须是基于词的。分词过程面临的一个难点是分词歧义。比如下面的两个短语 “将来沈阳会很美”以及“我将来沈阳”中,都含有“将来”这个词,如果缺少正确的分词过程,而统一将其翻译为“Will”,显然是不妥的。所以只有正确的分词,才能得到准确的翻译。
接下来,计算机还需要根据一个词相邻的其它词作为参照,在每一个词的很多候选翻译义项中,筛选出最匹配的结果,得出正确的词义作为该词的翻译结果。在这一步,机器翻译程序会“瞻前顾后”,找出被翻译词的最佳对译词。比如英文“Bank”有“银行”、“河岸”两个常用的词义,如果前后文中出现了“Money”(钱)这个词,它就会选择“银行”这个翻译结果。
在完成细节操作后,机译进入结构转换阶段,就是我们所说的调序。这就如同我们将一台机器的各个零件都生产完毕后,再按照一定的规则将它们拼装起来。
当然,这样的翻译结果并不是完整的,机译的最后一个阶段就是修饰阶段,也就是说机译程序还会将上面得到的结果做一些添加或者调整时态等的工作,让译文更加通畅,更便于理解。
总体说来,筛选词义及调整结构,是机译过程中的核心部分。
辽宁日报:机译过程中蕴含着什么样的技术原理呢?
朱靖波:我们知道,每个单词都有不同的翻译方法,而这些单词按照不同规则组装在一起时,又会增加更多的意义组合,此外,还会遇到调整顺序等一系列问题。这就造成机译过程中一句话的翻译会有极多的可能,计算机没有办法将这些可能一一穷举。在这种“组合爆炸”情况下,计算机要在所有可能中,找到标准答案。
也就是说,这其中蕴含着两个大的问题:一方面是我们要如何找到一套好的评价规则,让它们像选秀节目中的评委一样,对每一种翻译可能打出正确“评分”;另一方面计算机还需要在很短的时间内,找到得分最高的那位“选手”,将其呈现在我们面前。
“规则法”只认死理儿“统计法”可自主学习
辽宁日报:机器翻译这项技术是如何应运而生的呢?
朱靖波:虽然从古至今,很多科学家都曾经尝试过用机器来替代人进行翻译以跨越不同语言造成的交流障碍,但真正具有里程碑意义的事件却发生在1949年。那一年美国数学家沃伦·韦弗发表了 《翻译备忘录》,正式提出了机器翻译的思想。在二战刚刚结束,美苏争霸序幕即将拉开的时代背景下,韦弗将机器翻译定义为一种加密解密的过程,也就是说他将俄文材料视为密码,希望通过一定的技术手段将其转化为英文。当时在美国政府的支持下,这项技术一下子就“火”起来了。但是当时计算机、语言学等相关技术的水平有限,这项技术渐渐衰落。
进入20世纪70年代后,计算机科学、语言学研究的发展以及民用需求的增加,再次推动了机器翻译研究的复苏。
20世纪70年代末至80年代末,机器翻译研究进入了繁荣期。这一时期,靠专家们写下一条条翻译规则,计算机“惟命是听”的方法逐渐成熟。同时,从大量语料中自动“磨练”翻译技能的方法,也开始崭露头角。
20世纪90年代,能够依靠大量语料自主“学习”的机器翻译技术迅速发展,风头逐渐超越之前的技术。现在的机器翻译理论,可以说是一个多种方法混合、并行发展的时期。
辽宁日报:这两种翻译方法听起来很有趣,它们都有什么优缺点?
朱靖波:其实,机器翻译这项技术中也包含着哲学思想,我们通常将机器翻译的方法分为理性主义方法和经验主义方法,也就是上面讲到的靠专家写规则计算机来执行的方法(基于规则)以及根据大量语言材料自动学习的方法(基于语料库)。前者由词典和规则库构成知识源,后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,而以统计规律为主。
基于规则的方法就像刚学话的小孩子一样,教一句就会一句,不教就不会。如果它的知识源中没有前例,它就“罢工”不干了,不过它的翻译准确度相对高。一种简单的基于语料库的方法会知道去语料库中寻找相似的句子,并对源句进行适当改动,得出翻译结果。但更加高级的基于语料库的方法是利用机器学习和数学建模技术来实现自动翻译系统构建,常称为统计机器翻译。这种方法效率高、翻译能力也强。
有个形象比喻,基于规则的方法就像“傻子”,认死理,多一点都不会。而基于统计的方法就像“疯子”,什么都能干,有时候干得非常好,但有时候“活儿”比较粗,可能干的不好。
机器翻译的当前定位不是“替代”是“分担”
辽宁日报:目前计算机可以翻译多少种语言?
朱靖波:以目前机器翻译的能力和水平,只要有足够的数据,世界上所有语言都是可以被翻译的。
辽宁日报:任意两种语言,机器翻译的难度都相同吗?
朱靖波:这个难度是不一样的。如果两种语言,结构很相似,翻译时只需要把不同语言的词换一下,那么显然难度是很小的。说到底,这和语系相关。比如与汉英翻译相比,英德互译性能较好,因为它们都属于印欧语系日耳曼语族。而汉英不属于同一语系,汉语属于汉藏语系。
辽宁日报:在《人民日报》近日的一篇文章中提到谷歌翻译目前处于领先地位,这是因为他们掌握了什么核心技术吗?
朱靖波:其实从理论角度讲,谷歌机器翻译与很多公司的机器翻译商业产品没有什么本质上差别,应用的都是比较成熟的基于短语的统计机器翻译技术。只不过在一些细节部分,由于谷歌占有的双语数据量比较大,所以有一定的优势。此外,谷歌硬件平台的计算能力比较强,再加上机译工程的一些问题解决的比较细致,所以才显现出相对优势。
辽宁日报:目前机器翻译遇到的最大困难是什么?
朱靖波:因为机器翻译的本质还是模拟人的翻译过程,而在这个过程中,我们对于理论模型的研究还不够成熟。比如人工翻译会运用到词法、语法、语境、语用等知识,但是这些知识要建立数学模型将它们表现出来,是很困难的。
另外,机器翻译所依赖的计算机运算平台,还不够强大。如刚才说的,如果计算机运算能力得到提高,它就会从海量的翻译可能性中查找更多更合理的答案,而筛选环节也会更加细腻,使翻译效果更好。
辽宁日报:在人工翻译的光环下,我们应该如何给目前的机器翻译技术定位?
朱靖波:目前机器翻译技术虽然还没完全成熟,但是我们依然能在它身上看到极其难得的“闪光点”,特别是在一些用户对翻译结果要求不是非常高时,更能看到它的可贵之处。比如说我们在浏览外文资料时,不需要精读,而只要了解大概内容,那么机器翻译可以快速地帮我们达成这种意图。
机器翻译目的不是为了替代人工翻译,而是减少人工翻译付出的代价。在翻译精度要求不高的情况下,机器翻译完全可以胜任。如果需要高质量的翻译,那么人们可以在机器翻译的结果上做少量的修改,从而得到理想的效果。有人做过实验,目前机器翻译把人工翻译的效率提升20%至30%,甚至更高。所以我们有理由相信在计算机专家、语言学家、心理学家、逻辑学家和数学家的共同努力下,机译的前途将会是十分光明的。
专家档案
朱靖波 博士。东北大学信息学院教授,博士生导师,计算机软件研究所副所长、党支部书记,自然语言处理实验室主任,沈阳雅译网络技术有限公司创始人。兼任中国中文信息学会理事、中国人工智能学会自然语言理解专业委员会委员、中国中文信息学会机器翻译专业委员会委员等职,自从1992年开始一直主要从事多国语机器翻译理论和关键技术研究工作,曾带领实验室多次参加国际NTCIR和国内CWMT“机器翻译”翻译评测,获得第一和第二的成绩,主持研制的NiuTrans开源机器翻译系统已经被600多家国内外研究机构和个人下载研究使用。
来源:辽宁日报 日期:2012年12月21日 记者:王亮
心译翻译工作室
网址:www.xinyifanyi.com