Datawhale AI 夏令营

lookonce, datawhale
Back

Datawhale联合组织的一个活动,基于术语词典干预的机器翻译挑战赛(官网链接)。

简介

基于术语词典干预的机器翻译,就是选择以英文为源语言,中文为目标语言的机器翻译。需要基于提供的训练数据样本从多语言机器翻译模型进行构建与训练,并基于测试集以及术语词典,提供最终的翻译结果。

数据集

官方提供的数据有:

评价指标

使用自动评价指标BLUE-4(Bilingual Evaluation Understudy,双语评估替补)进行评价,大体上是机器翻译结果中的单词在参考译文中的占比,值越大,说明翻译效果越好。

主要内容

Baseline

baseline模型基于seq2seq实现机器翻译。

基本流程如下:

Transformer

基于循环或卷积神经网络网络的序列建模方法是机器翻译的经典方法,但是在建模长文本方面具有一定的局限性。

为了解决以上问题,transformer完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。在抽取每个单词的上下文特征时,transformer通过自注意力机制衡量上下文中每一个单词对当前单词的重要程度,此过程高度可并行化。

Transformer的主要组件包括编码器(Encoder)、解码器(Decoder)和注意力层。其核心是利用多头自注意力机制(Multi-Head Self-Attention),使每个位置的表示不仅依赖于当前位置,还能够直接获取其他位置的表示。基本架构如下:

结果

第一次跑baseline分数只有0.3048,调整了训练的样本数量、epoch、droupout参数,有略微提升,分数0.9639。

用transformer跑了一次,分数6.9018,模型训练太慢了,还没有做参数调整。

© lookonce.RSS