<acronym id="kiwyy"></acronym>
<acronym id="kiwyy"></acronym>
<tr id="kiwyy"><optgroup id="kiwyy"></optgroup></tr>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt>
<acronym id="kiwyy"></acronym>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt><rt id="kiwyy"></rt>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt>
<rt id="kiwyy"></rt>

ACL 2018|南加州大学:学习多语言表示的一种多任务方法

读芯术 2019/03/07 14:22

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深?#21462;?#26377;厚?#21462;?#26377;眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群,请加小编微信号: zhizhizhuji 。等你。

这是读芯术解读的第 129 篇论文

ACL 2018 Short Papers

学习多语言表示的一种多任务方法

A Multi-task Approach to Learning Multilingual Representations

南加州 大学

University of Southern California

本文是美国南加州大学发表于 ACL 2018 的工作,提出了一种学习多语言分布式文本表示的多任务建模方法,通过训练多语言skip-gram模型和跨语言句子相似度模型共同学习词和句子?#24230;搿?#25105;们的架构可?#20801;?#29992;单语料库和句子对齐的双语料库来学习多语言?#24230;耄?#35206;盖的词汇量明显大于单语料库。在一个标准的跨语言文档分类任务的实验结果表明,本方法显示出一定的竞争性,并且在有限的资源情况下依然有效。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

引言

学习文本的分布式表达,无论是在词、短语、句子还是文档层次上,都是近年来自然语言处理领域最广泛?#33455;?#30340;课题之一。词/句子/文?#30331;度?#35797;图利用分布式表示中存在的丰富的语义和语言信息,已经迅速成为更大、更复杂NLP系统中的基本组成部分。

目前关于分布式文本表示上下文的?#33455;?#20027;要集中在跨语言共享的多语言文本表示学习上。多语言?#24230;?#24320;辟了跨语言传递知识和构建复杂系统的可能性,?#35789;?#23545;于具有有限监督资源的语言。到目前为止,学习多语言?#24230;?#26368;流行的方法是训练多语言?#26159;度?#27169;型,?#32531;?#20351;用该模型通过合成来导出句子和文档表示。这些模型通常只在词或句子对齐的语料库上训练,并且合成模型通常是简单的预定义函数,例如?#26159;度?#30340;平均值或随?#26159;度?#19968;起学习的?#38382;?#21512;成模型。

本文通过训练多语言skip-gram模型和跨语言句子相似度模型来联合学习词和句子?#24230;搿?#25105;们的多语言skip-gram模型,透明地消耗由单语和句子对齐的双语语料库构成的对(词,上下文)。我们使用双向LSTM处理?#26159;度耄缓?#21462;LSTM输出的平均值,这可以看作上下?#21335;?#20851;的?#26159;度耄?#20197;产生句子?#24230;搿?#30001;于我们的多语言skip-gram和跨语言句子相似度模型是联合训练的,它们可以通过共享?#26159;度?#23618;相互通知,从而在训练时促进学习?#26159;度?#30340;组合性。此外,从句子相似性模型产生的梯度会影响平行语料库词汇以外的?#26159;度搿?

我们方法背后的主要动机是在并行语料库大小有限的低资源场景?#26657;?#23398;习高质量的多语言句子和文?#30331;度搿?#25105;们方法的主要创新之处在于利用共享?#26159;度?#23618;,来联合训练多语言skip-gram和跨语言句子相似性目标,该共享?#26159;度?#23618;允许来自句子相似性任务的梯度影响平行语料库之外的?#26159;度搿?#36890;过联合训练这两个目标,我们可以透明地使用单语和并行数据来学习多语言句子?#24230;搿?#22312;平均之前使用BiLSTM层来上下文化?#26159;度?#19982;联合多任务学习思想是正交的。我们发现,在大多数情况下,这个额外的层是有益的,这与最近关于学习句子和文?#30331;度?#30340;?#33455;?#32467;果一致。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

模型

本文模型使用端到端的共享?#26159;度?#23618;来联合优化多语言skip-gram和跨语言句子相似性目标。

多语言skip-gram模型 :多语言skip-gram模型通过从单语和跨语言上下文?#24615;?#27979;单?#19990;?#25193;展传统的skip-gram模型。单语上下文由与给定单词相邻的?#39318;?#25104;,如传统的skip-gram模型。另一方面,跨语言上下文由在平?#33455;?#23376;对?#26657;?#19982;给定源词对齐的目标词相邻的?#39318;?#25104;。下图显示了一个对齐示例,?#28210;?#19968;对对齐的单词被附加到它们的单语和双语上下文?#23567;?#23545;于一对语言L1和L2,利用从L1→L1和L2→L2方向上的单语邻居以及L1→L2和L2→L1方向上的跨语言邻居中采样的(单词、上下文词)对,通过优化传统的skip-gram目标来学习?#26159;度搿?#22312;我们的设置?#26657;?#36328;语言对是从平行语料库中抽样的,而单语对是从平行语料库和单语料库中抽样的。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

跨语言句子相似性 :我们用双向LSTM处理单?#26159;度耄缓?#21462;LSTM输出的平均值(如下图)。LSTM通过将每个单词的历史编码到其表示中?#35789;?#20986;(隐藏状态)上下文输入?#26159;度搿?#25105;们假设这比平均?#24230;?#35789;要好,因为句子通常具有复杂的语义结构,并且两个具有不同含义的句子可以具?#22411;?#20840;相同的词。设 知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法 表示我们的句子编码器,它把给定的单词序列 S ?#25104;?#21040; 知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法 中的连续向量。给定一对平行的句子 S T ,我们定义它们的距离为 知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法 。对于每一个平?#33455;?#23376;对,我们随机抽样 k 个否定句 知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法 并定义跨语言句子相似性损失如下:

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

在没有LSTM层的情况下,这种损失类似于BiCVM损失,除了我们还使用反向样本(T, S)来训练模型,因此每隔一个时期向模型显示每对句子。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

实验分析

我们在Europarl corpus v71上学习分布式表示。为了与?#21335;?#36827;行公正的比较,我们对英语-德语(en-de)、英语-西班牙语(en-es)和英语-法语(en-fr)语言对,使用前500K平?#33455;洹?#25105;们保留前90%进行训练,剩下的10%用于发展。我们还对Europarl corpus语料库的每种语言使用额外的500 K单语句子。这些句子与平行数据中的句子不重叠。

除了提出的联合多任务(JMT)模型,JMT-Sent-LSTM,我们还给出了ablation实验,?#28210;?#30465;略了LSTM层、多语言skip-gram目标或两者。JMT-Sent-Avg类似于所提出的模型,但不包括LSTM层。JMT-Sent-LSTM和JMT-Sent-Avg是这些模型的单一任务变体。

单任务模型只使用平行数据以跨语言句子相似性为目标端到端进行训练。我们还尝试在平行和单一数据上预先训练单?#26159;度耄?#24182;在跨语言句子相似性任务?#31995;?#25972;它们,但是并没有改善结果。多任务模型通过在两个任务之间交替进行训练。

多语言skip-gram图 使用学习率为0.01,10K步后指数衰减为0.98的随机梯度下降(1步是256个词对),512 个样本的负采样,大小为5的skip-gram上下文窗口。通过允许skip-gram目标与句子相似性目标并行收敛,?#26723;蛃kip-gram模型的学习速?#21097;?#26377;助于多任务场景。在每个步骤?#26657;?#25105;们对相同数量的单语和跨语单词对进行抽样,以制作一个mini-batch。

跨语言句子相似度 ?#21495;?#27425;大小为50个句子对。LSTM隐藏状态维?#20219;?28或512。在?#24230;?#23618;使用dropout为0.3。Hingeloss边缘m等于句子?#24230;?#22823;小。该模型使用Adam优化器进行训练,学习率为0.001,10K步后指数衰减为0.98(1步为50个句对)。

下表显示了我们模型的结果,并将它们与一些最先进的方法进行比较。?#26412;?#23376;?#24230;?#32500;数为512?#20445;?#25105;们的结果与?#21335;?#20013;的最佳结果接近。?#26412;?#23376;?#24230;?#32500;数为128?#20445;?#25105;们的JMT-Sent-LSTM模型的性能优于所有系统。具有LSTM层(Sent-LSTM和JMT-Sent-LSTM)的模型比没有一个LSTM的性能更好。联合多任务训练不断提高性能。数据消融实验(*nomono)的结果表明,在JMT设置中获得的增益部分归因于monolingual数据的添加,部分归因于多任务目标。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

变化的单语vs平行数据 :多任务体系结构背后的主要动机是在有限的资源场景中创建高质量的?#24230;搿?#19978;表的底部数据显示了当平行数据限制为100K句子时128维?#24230;?#30340;结果。该场景中的JMT-Sent-LSTM结果与上表中?#38382;?#29992;500K平行语句的结果相当。这些发现表明,JMT-Sent-LSTM模型通过挖掘额外的单语数据,?#35789;?#22312;有限的平行数据量下也能够产生高质量的?#24230;搿?#19979;表比较了在不同数据条件下的LSTM与JMT-Sent-LSTM的性能。JMT-Sent-LSTM产生一致的更好的?#24230;耄?#21482;要与平行数据量相比,附加的单语数据量既不太大也不太小——3-4倍的平行数据大小似乎是选择单语数据大小的一个很好的启发。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

多语vs双语模型 :下表比较了多语模型(en, es, de)和双语模型。表的前四行显示了多语系统的结果,?#28210;芯?#23376;编码器使用en-es和en-de平行数据以及每种语言的附加单语数据针对三种语言(en, es, de)进行训练。?#32531;?#20351;用从这个句子编码器获得的文档表示,来训练用于诸如en-de之类的语言对的分类器,?#28210;?#20998;类器在en文档上训练,?#32531;?#22312;de文档上测试。在这个场景?#26657;?#25105;们可以为诸如es-de之类的语言对构建分类器,尽管我们不能访问es-de平行数据,因为我们学习的?#24230;?#22312;三种语言之间共享。表中的底行显示了双语系统的结果,在该系统?#26657;?#25105;们为两种语言训练句子编码器,?#32531;?#20351;用该编码器训练一种语言的文档分类器,并在另一种语言上进行测试。在此场景?#26657;?#25105;们不能为不能访问平行数据的es-de等语言对构建分类器。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

当英语为源语言?#20445;?#22810;语模型?#20154;?#35821;模型表?#20540;?#26356;好,但在另一个方向上表?#20540;?#26356;差。我们认为这种差异是因为?#20998;?#25991;本原本是英文,后来?#29615;?#35793;成其他语言。对于没有平行数据的es-de对,多语言模型也显示了良好的结果。

由于分类实验着重于将语义信息保存在句子级的表示?#26657;?#25105;们还检查了生成的?#26159;度?#26159;否仍然有意义。为此,我们使用了JMT-Sent-LSTM模型。下图显示了一些样本词的t-SNE预测。尽管该模型没有使用任何德语和西班牙语平行数据,但它设法将具有相似含义的单词(transkribiert和transcribi)?#25104;?#24471;更近。作为反义词但仍具有相似含义的词彼此接近(cunnigly (en), honestly (en) and astucia (es))。多语言表示空?#28210;?#30340;最近邻通常具有跨语言?#21335;?#21516;形式。我们还可以看到,英语单词位于西班牙语和德语单词的中间,我们认为这是因为英语是其他两种语言的支点。

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

总结

本文结果表明,多语种单词和句子?#24230;?#30340;联合多任务学习是一个有前途的方向。我们认为,通过直接修改句子编码器结构,例如使用?#35757;﨤STM或批/层规范化,以及添加句子级辅助任务,如情感分类或自然语言?#35780;恚?#21487;以进一步改进句子?#24230;?#27169;型。我们计划在未来工作中继续探索这些方向,并评估本文方法在其他任务上的效果。

论?#21335;?#36733;链接:

http://aclweb.org/anthology/P18-2035

知识图谱,ACL 2018|南加州大学:学习多语言表示的一种多任务方法

读芯术
收藏 | 微信分享 微博分享 QQ分享 | 返回顶部
北京十一选五预测