在全球学术界最具权威的机器翻译比赛上,腾讯微信AI团队获奖了,而且还是中英方向上第一名。
WMT 是机器翻译领域的国际顶级评测比赛之一,自2006年创办至今,WMT已经成功举办15届。
大赛每年都吸引了众多来自全球的企业、科研机构和高校所组成的顶尖团队,包括微软、Facebook、百度、金山、日本情报通信研究机构(NICT)。
首先,组委会根据中英、英中、中日等不同翻译任务提供测试集,参赛者在线提交机器翻译结果。
组委会将根据在国际上具有广泛认可度的BLEU自动评估指标对参赛者提交的机器译文和标准答案进行拟合计算,拟合程度高者排在前面。
其中「中文-英文」翻译任务是大赛历年来竞争最激烈的领域,也是最大的看点之一。
此次大赛竞争激烈,各参赛方共计提交近300次数据,最终微信AI团队经过多次角逐脱颖而出,成功占据自动评估指标的榜首,斩获桂冠。
同时,今年微信AI仅使用了官方提供的数据(也就是受限资源),超过了所有使用受限资源和无限资源的系统。
在本次大赛上,微信翻译在技术上以更深和更宽的Transformer结构(包括Self-attention和Average-attention)和自研的Deep Transition结构(DTMT)为基础,用融合领域内知识的数据增强方法迭代生成高质量的伪数据,并利用Self-Bleu的组合剪枝策略集成模型并利用集成模型的知识蒸馏单模型。
除了常规的交叉熵训练,还采用三种改进的训练方法来缓解偏差问题,包括改进的Scheduled Sampling训练方法、针对目标端输入的抗噪训练和最小化贝叶斯风险训练
目前,微信翻译服务场景已涵盖微信对话翻译、朋友圈翻译、微信扫一扫等,同时还为腾讯小微、微信对话开放平台、微信读书、QQ邮箱等提供翻译服务支持,后续会陆续运用于更多的场景。
不仅在2018、2019蝉联DSTC冠军,还在2019年获得RACE中高考题榜单第一名、DROP数学推理榜单第一名和QuAC多轮交互推理榜单第一名。
随后,今年的ACL 2020中,微信AI团队亦有7篇论文入选,覆盖机器翻译、信息抽取、对话系统等领域研究成果。
基于深度学习研发的微信智聆语音识别技术,每天处理超过4亿条语音,语音识别正确率达到97%,并在微信语音输入、语音转文字、王者荣耀、QQ音乐等产品中提供了技术支持。
而专注智能对话和NLP的微信智言,则以腾讯小微开放能力为核心,为除了家居硬件、PaaS、行业云和AI Bot等领域提供技术支持,让人与机器以最自然、最便捷的方式交流沟通。
在技术开源方面,微信AI开发自研并开源了Transformer推理引擎,这也是腾讯对外开源的第100个项目。
在未来,微信AI也将持续加大对人工智能领域的学习与投入,积极将技术升级运用在产品之中,并创新整合新型能力,基于微信平台生态带来覆盖更广的应用场景和更智能的产品体验,为12亿微信用户提供更优质的智能服务。
本文首发于:量子位。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。