<acronym id="kiwyy"></acronym>
<acronym id="kiwyy"></acronym>
<tr id="kiwyy"><optgroup id="kiwyy"></optgroup></tr>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt>
<acronym id="kiwyy"></acronym>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt><rt id="kiwyy"></rt>
<rt id="kiwyy"><optgroup id="kiwyy"></optgroup></rt>
<rt id="kiwyy"></rt>

ACL 2018|南加州大學:學習多語言表示的一種多任務方法

讀芯術 2019/03/07 14:22

AI前沿 人工智能視點


你和“懂AI”之間,只差了一篇論文

很多讀者給芯君后臺留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關系,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號: zhizhizhuji 。等你。

這是讀芯術解讀的第 129 篇論文

ACL 2018 Short Papers

學習多語言表示的一種多任務方法

A Multi-task Approach to Learning Multilingual Representations

南加州 大學

University of Southern California

本文是美國南加州大學發表于 ACL 2018 的工作,提出了一種學習多語言分布式文本表示的多任務建模方法,通過訓練多語言skip-gram模型和跨語言句子相似度模型共同學習詞和句子嵌入。我們的架構可以使用單語料庫和句子對齊的雙語料庫來學習多語言嵌入,覆蓋的詞匯量明顯大于單語料庫。在一個標準的跨語言文檔分類任務的實驗結果表明,本方法顯示出一定的競爭性,并且在有限的資源情況下依然有效。

引言

學習文本的分布式表達,無論是在詞、短語、句子還是文檔層次上,都是近年來自然語言處理領域最廣泛研究的課題之一。詞/句子/文檔嵌入試圖利用分布式表示中存在的豐富的語義和語言信息,已經迅速成為更大、更復雜NLP系統中的基本組成部分。

目前關于分布式文本表示上下文的研究主要集中在跨語言共享的多語言文本表示學習上。多語言嵌入開辟了跨語言傳遞知識和構建復雜系統的可能性,即使對于具有有限監督資源的語言。到目前為止,學習多語言嵌入最流行的方法是訓練多語言詞嵌入模型,然后使用該模型通過合成來導出句子和文檔表示。這些模型通常只在詞或句子對齊的語料庫上訓練,并且合成模型通常是簡單的預定義函數,例如詞嵌入的平均值或隨詞嵌入一起學習的參數合成模型。

本文通過訓練多語言skip-gram模型和跨語言句子相似度模型來聯合學習詞和句子嵌入。我們的多語言skip-gram模型,透明地消耗由單語和句子對齊的雙語語料庫構成的對(詞,上下文)。我們使用雙向LSTM處理詞嵌入,然后取LSTM輸出的平均值,這可以看作上下文相關的詞嵌入,以產生句子嵌入。由于我們的多語言skip-gram和跨語言句子相似度模型是聯合訓練的,它們可以通過共享詞嵌入層相互通知,從而在訓練時促進學習詞嵌入的組合性。此外,從句子相似性模型產生的梯度會影響平行語料庫詞匯以外的詞嵌入。

我們方法背后的主要動機是在并行語料庫大小有限的低資源場景中,學習高質量的多語言句子和文檔嵌入。我們方法的主要創新之處在于利用共享詞嵌入層,來聯合訓練多語言skip-gram和跨語言句子相似性目標,該共享詞嵌入層允許來自句子相似性任務的梯度影響平行語料庫之外的詞嵌入。通過聯合訓練這兩個目標,我們可以透明地使用單語和并行數據來學習多語言句子嵌入。在平均之前使用BiLSTM層來上下文化詞嵌入與聯合多任務學習思想是正交的。我們發現,在大多數情況下,這個額外的層是有益的,這與最近關于學習句子和文檔嵌入的研究結果一致。

模型

本文模型使用端到端的共享詞嵌入層來聯合優化多語言skip-gram和跨語言句子相似性目標。

多語言skip-gram模型 :多語言skip-gram模型通過從單語和跨語言上下文中預測單詞來擴展傳統的skip-gram模型。單語上下文由與給定單詞相鄰的詞組成,如傳統的skip-gram模型。另一方面,跨語言上下文由在平行句子對中,與給定源詞對齊的目標詞相鄰的詞組成。下圖顯示了一個對齊示例,其中一對對齊的單詞被附加到它們的單語和雙語上下文中。對于一對語言L1和L2,利用從L1→L1和L2→L2方向上的單語鄰居以及L1→L2和L2→L1方向上的跨語言鄰居中采樣的(單詞、上下文詞)對,通過優化傳統的skip-gram目標來學習詞嵌入。在我們的設置中,跨語言對是從平行語料庫中抽樣的,而單語對是從平行語料庫和單語料庫中抽樣的。

跨語言句子相似性 :我們用雙向LSTM處理單詞嵌入,然后取LSTM輸出的平均值(如下圖)。LSTM通過將每個單詞的歷史編碼到其表示中來輸出(隱藏狀態)上下文輸入詞嵌入。我們假設這比平均嵌入詞要好,因為句子通常具有復雜的語義結構,并且兩個具有不同含義的句子可以具有完全相同的詞。設 表示我們的句子編碼器,它把給定的單詞序列 S 映射到 中的連續向量。給定一對平行的句子 S T ,我們定義它們的距離為 。對于每一個平行句子對,我們隨機抽樣 k 個否定句 并定義跨語言句子相似性損失如下:

在沒有LSTM層的情況下,這種損失類似于BiCVM損失,除了我們還使用反向樣本(T, S)來訓練模型,因此每隔一個時期向模型顯示每對句子。

實驗分析

我們在Europarl corpus v71上學習分布式表示。為了與文獻進行公正的比較,我們對英語-德語(en-de)、英語-西班牙語(en-es)和英語-法語(en-fr)語言對,使用前500K平行句。我們保留前90%進行訓練,剩下的10%用于發展。我們還對Europarl corpus語料庫的每種語言使用額外的500 K單語句子。這些句子與平行數據中的句子不重疊。

除了提出的聯合多任務(JMT)模型,JMT-Sent-LSTM,我們還給出了ablation實驗,其中省略了LSTM層、多語言skip-gram目標或兩者。JMT-Sent-Avg類似于所提出的模型,但不包括LSTM層。JMT-Sent-LSTM和JMT-Sent-Avg是這些模型的單一任務變體。

單任務模型只使用平行數據以跨語言句子相似性為目標端到端進行訓練。我們還嘗試在平行和單一數據上預先訓練單詞嵌入,并在跨語言句子相似性任務上調整它們,但是并沒有改善結果。多任務模型通過在兩個任務之間交替進行訓練。

多語言skip-gram圖 使用學習率為0.01,10K步后指數衰減為0.98的隨機梯度下降(1步是256個詞對),512 個樣本的負采樣,大小為5的skip-gram上下文窗口。通過允許skip-gram目標與句子相似性目標并行收斂,降低skip-gram模型的學習速率,有助于多任務場景。在每個步驟中,我們對相同數量的單語和跨語單詞對進行抽樣,以制作一個mini-batch。

跨語言句子相似度 :批次大小為50個句子對。LSTM隱藏狀態維度為128或512。在嵌入層使用dropout為0.3。Hingeloss邊緣m等于句子嵌入大小。該模型使用Adam優化器進行訓練,學習率為0.001,10K步后指數衰減為0.98(1步為50個句對)。

下表顯示了我們模型的結果,并將它們與一些最先進的方法進行比較。當句子嵌入維數為512時,我們的結果與文獻中的最佳結果接近。當句子嵌入維數為128時,我們的JMT-Sent-LSTM模型的性能優于所有系統。具有LSTM層(Sent-LSTM和JMT-Sent-LSTM)的模型比沒有一個LSTM的性能更好。聯合多任務訓練不斷提高性能。數據消融實驗(*nomono)的結果表明,在JMT設置中獲得的增益部分歸因于monolingual數據的添加,部分歸因于多任務目標。

變化的單語vs平行數據 :多任務體系結構背后的主要動機是在有限的資源場景中創建高質量的嵌入。上表的底部數據顯示了當平行數據限制為100K句子時128維嵌入的結果。該場景中的JMT-Sent-LSTM結果與上表中段使用500K平行語句的結果相當。這些發現表明,JMT-Sent-LSTM模型通過挖掘額外的單語數據,即使在有限的平行數據量下也能夠產生高質量的嵌入。下表比較了在不同數據條件下的LSTM與JMT-Sent-LSTM的性能。JMT-Sent-LSTM產生一致的更好的嵌入,只要與平行數據量相比,附加的單語數據量既不太大也不太小——3-4倍的平行數據大小似乎是選擇單語數據大小的一個很好的啟發。

多語vs雙語模型 :下表比較了多語模型(en, es, de)和雙語模型。表的前四行顯示了多語系統的結果,其中句子編碼器使用en-es和en-de平行數據以及每種語言的附加單語數據針對三種語言(en, es, de)進行訓練。然后使用從這個句子編碼器獲得的文檔表示,來訓練用于諸如en-de之類的語言對的分類器,其中分類器在en文檔上訓練,然后在de文檔上測試。在這個場景中,我們可以為諸如es-de之類的語言對構建分類器,盡管我們不能訪問es-de平行數據,因為我們學習的嵌入在三種語言之間共享。表中的底行顯示了雙語系統的結果,在該系統中,我們為兩種語言訓練句子編碼器,然后使用該編碼器訓練一種語言的文檔分類器,并在另一種語言上進行測試。在此場景中,我們不能為不能訪問平行數據的es-de等語言對構建分類器。

當英語為源語言時,多語模型比雙語模型表現得更好,但在另一個方向上表現得更差。我們認為這種差異是因為歐洲文本原本是英文,后來被翻譯成其他語言。對于沒有平行數據的es-de對,多語言模型也顯示了良好的結果。

由于分類實驗著重于將語義信息保存在句子級的表示中,我們還檢查了生成的詞嵌入是否仍然有意義。為此,我們使用了JMT-Sent-LSTM模型。下圖顯示了一些樣本詞的t-SNE預測。盡管該模型沒有使用任何德語和西班牙語平行數據,但它設法將具有相似含義的單詞(transkribiert和transcribi)映射得更近。作為反義詞但仍具有相似含義的詞彼此接近(cunnigly (en), honestly (en) and astucia (es))。多語言表示空間中的最近鄰通常具有跨語言的相同形式。我們還可以看到,英語單詞位于西班牙語和德語單詞的中間,我們認為這是因為英語是其他兩種語言的支點。

總結

本文結果表明,多語種單詞和句子嵌入的聯合多任務學習是一個有前途的方向。我們認為,通過直接修改句子編碼器結構,例如使用堆疊LSTM或批/層規范化,以及添加句子級輔助任務,如情感分類或自然語言推理,可以進一步改進句子嵌入模型。我們計劃在未來工作中繼續探索這些方向,并評估本文方法在其他任務上的效果。

論文下載鏈接:

http://aclweb.org/anthology/P18-2035


本文來自新知號自媒體,不代表商業新知觀點和立場,轉載請注明來源。

若有侵權嫌疑,請聯系商業新知平臺管理員。
聯系方式:[email protected]

讀芯術
收藏 | 微信分享 微博分享 QQ分享 | 返回頂部
北京十一选五预测