加入收藏 | 设为首页 | 会员中心 | 我要投稿 财气旺网 - 海宁网 (https://www.hainingwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

机器翻译都比人强了,为什么我还在复制粘贴查单词?

发布时间:2018-09-02 22:48:45 所属栏目:创业 来源:驱动号
导读:这是全宇宙最奇特的生物。 40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。 而在这个充满
副标题[/!--empirenews.page--]

机器翻译都比人强了,为什么我还在复制粘贴查单词?

“这是全宇宙最奇特的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

机器翻译都比人强了,为什么我还在复制粘贴查单词?

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

机器翻译能力是如何赶超人类的?

神经网络迅速成为了近代机器翻译领域最有活力的“鲶鱼”。

短短两年,基于神经网络的机器翻译便已取代统计学派成为翻译领域的主流研究方法。谷歌、微软等公司也纷纷宣布将这个新的技术应用到其翻译等产品之中。两年来,神经网络翻译能力超过了翻译界过去几十年的成绩。神经网络翻译出现后,机器翻译的单词错误率降低了50%,词汇错误和语法错误率也都分别降低了15%以上。

而除神经网络的应用之外,机器翻译错误率的大幅度降低,还基于另一个条件——大规模精准平行语料数据集的积累。

决定机器翻译质量的因素中数据占据绝对的主导地位。数据量的大小和精准程度决定了机器翻译引擎的效果。

十年前,谷歌在机器翻译领域下过一个论断:数据集规模每翻一倍,它自动评价的指标就能够提升0.5个百分点。这一说法让有大规模、准确数据积累的组织、企业有了抢占机器翻译市场制高点的机会。

但是,垂直级的机器翻译并非一蹴而就,哪怕是互联网巨头们,也未轻易地将触手伸入垂直级的机器翻译领域。

为了填补了这一领域的空白,中译语通率先推出MerCube,是全球第一个企业级机器翻译硬件。

在具体场景下,想要实现产品级应用的机器翻译系统,需要上千万级别的句对。另一个方面是目前数据集的不均衡问题。在语种上,英文为主导的数据集占比较多,而偏小语种的比如波斯语、土耳其语等数据集就很难找到。除了语言不均衡,数据集领域不均衡的问题也很严重。

机器翻译技术对大量数据的需求和实际市场上流通的存量数据的差距很大,这就给了在翻译界有深厚历史积累的公司发力的机会。

互联网公司的数据积累多来自C端用户,因此数据集不均衡、数据质量差的问题突出。而脱身传统行业的翻译公司,在翻译数据集的把握上有自己的优势——更精准、更多样的数据集。例如,中国翻译领域最大的语料数据库所有者——中译语通。据了解,这家脱胎于中国对外翻译有限公司的团队了拥有37个语种的翻译语料库,掌握超过五十亿句对平行语料,上百亿句单语语料。靠着在翻译领域的这一优势,中译语通这一以语言服务起家,迅速转型为人工智能和大数据的技术公司,有望与谷歌、微软等互联网巨头,在机器翻译服务领域分一杯羹。

机器翻译服务之痛

机器翻译由于技术的进步在处理能力上正迅速赶超人类,企业用户对机器翻译的认可度越来越高,但在服务形式上多年来却几乎一成不变。目前,to b端的翻译服务主要面临两个痛点:

首先在翻译形式上,以文本翻译为例,基于c端服务的延续性,多数文本翻译模式依然是10年前的对话框字句粘贴式翻译,根本无法满足大规模、短时间翻译的需求。

机器翻译都比人强了,为什么我还在复制粘贴查单词?

除此之外,多数企业和个人对数据安全意识的提高,也让他们对本地化翻译有了更高要求。

目前,主要to b端的翻译服务都需要被翻译内容上云,在Facebook数据泄漏丑闻及欧盟数据安全法生效的背景下,不少企业期待更本地化、安全的翻译服务。据中译语通相关研究报告显示,仅在中国,对大规模、本地化翻译服务的需求市场高达百亿级。而“国际市场应该会更大。比如说一带一路沿线国家,整个拓展出来应该是一个巨大的市场。”中译语通称。

从硬件入手,垂直领域的翻译服务升级

这样的调研结果让中译语通看到了to b端翻译市场服务升级的巨大潜力。今年五月份,中译语通开始尝试机器翻译上to b端新的服务方式,但这不是一件容易的事情。

机器翻译都比人强了,为什么我还在复制粘贴查单词?机器翻译都比人强了,为什么我还在复制粘贴查单词?

图:7月份的品牌战略发布会上,中译语通发布了MerCube企业级机器翻译服务器。MerCube产品性能表显示,MT G8单台处理能力可达到16000字/秒,MerCube ASR可实现将1小时的音视频在1分钟内识别、解析完成并导出文件。

“(开发这款产品的)契机更多还是市场的驱动,很多客户其实是主动来找我们,觉得这个机器翻译不错,想买这个(产品),想本地化部署。”

为了满足客户对安全性的要求,中译语通希望推出一款可以提供专属的私有化部署方式的产品,让信息在受控环境下运转,原文/译文本地化存储,解决用户的数据安全问题。

要本地化部属,首先对产品的硬件能力是一个巨大的考验。

(编辑:财气旺网 - 海宁网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读