行业资讯

Google机器学习应用分享基于机器学习并持续进化的翻译

Google机器学习应用分享:基于机器学习并持续进化的翻译

近期因为 Alpha Go 持续在围棋领域击败各界好手,人工智能议题又开始获得关注,当然人工智能并非新技术,但在机器学习技术于硬件、算法双方面逐趋成熟后,人工智能发展获得飞跃性成长, Google 为了让媒体对机器学习的应用有更多了解,也预计规划一系列定期讲座,每一季以一个相关议题进行探讨,而今天则首度以 Google 翻译为议题,探讨导入机器学习后带来的效益。

关于机器学习/深度学习可见先前报导:GTC 2015 :结合平行运算、模仿人类感知的深度学习,正酝酿一波人工智能

Google 总经理简立峰表示,人工智能并非新议题,早就开始被应用在各项领域,早期像是垃圾信辨识就已经导入人工智能,然而过去在算法与硬件发展限制下,人工智能发展一度碰壁,但随着 Google 开始导入机器学习后,停滞的齿轮又开始转动, Google 也将 TensorFlow 算法开放,促进人工智能与机器学习的发展。

简立峰表示,目前人工智能虽获得大幅成长,不过仍仅限于特定领域,人工智能能达到的领域在于能够被预测并且可学习的领域,例如垃圾邮件、围棋等,但像是难以被预测、难以判断知识领域,例如哲学、思考逻辑、感官等,就无法以人工智能实现。

目前人工智能以人类能力区分可简单分为三个层级,包括透过各种感测器达到超人类的超人级,与人类能力近似如影像辨识的类人级,以及低于人类能例如翻译的次人级。

在简立峰作为简短的人工智能发展论述后,接着由 Google 在美国总部分负责 Google 翻译的产品经理 Julie 针对目前 Google 翻译如何应用人工智能作介绍; Julie 表示,翻译服务是相当重要的功能,因为目前高达五成的网页内容是以英文撰写,但使用英文作为主要语言的使用者却不到两成,是故 Google 在推出翻译服务后也获得好评。

不过不知道在初期就开始使用 Google 翻译的使用者有没有发现, Google 翻译在 2015 年下半年后,精确度开始变高,更像是自然翻译的结果,这是因为在 2015 年 9 月开始导入机器学习( NMT )取代原本的词组式架构,且目前导入的成果超过预期,在 13.5 个月内达到当初预期 3 年才能提供的服务水准,截自今年 4 月已经能提供 26 种翻译语言。

目前 Google 翻译透过机器学习,约可在 2 到 3 周训练一个模型基础,学习内容超过一亿个案例,现阶段已经提供 103 个平方组的模型;同时 Google 翻译也为了加速模型产生,透过多语言模型交叉训练学习,把不同语言、相同语意归纳,使翻译训练能在两周内由 10 秒缩减到 0.2 秒。在透过机器学习后,最关键的是能够判断前后文的关系选择正确词汇,也因此能够提供更接近人工翻译的水准。

另一个结合多重机器学习应用的翻译,就是 Google 的即时镜头翻译,即时镜头翻译透过影像辨识、分析文字、翻译后再于屏幕上显像;为了提升文字图像辨识能力, Google 刻意提供与真实情况相同的模糊印刷文字、污渍、尘点等文字作为学习基础,也因此能达到高精确的即时镜头翻译品质。

Google 目前也打算在几项 Google 翻译领域持续强化,包括数字与日期,如人名等特殊名词以及简短与罕见查询字串等,尤其像是人名与特殊名词也是目前 Google 翻译常遇到但却无法正确翻译的情境;至于口语化语句目前难以翻译的主因,仍是因为无法提供充裕的学习样本,毕竟口语化语句平常较少用于常规网页内容撰写,当遇到此类特殊用法时,目前还是无法提供正确的翻译结果。

其次目前简体、繁体中文(包括与香港用语)仍归纳在相同的模型中,最主要的考量还是因为资料量,毕竟越充裕的资料量也能够获得越正确的结果,虽然各地的名词还是有所不同,不过借由机器学习的前后语意判断,在显示简体或是繁体语言时,也能更正确的显示简体或是繁体的翻译结果。

回应 0

你可能也会喜欢...