孫宇沖 程曦葦 宋睿華,3,? 車萬翔 盧志武,3文繼榮,3
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.074
北京高校卓越青年科學(xué)家計(jì)劃(BJJWZYJH012019100020098)資助
2022-05-13;
2022-08-18
多模態(tài)與文本預(yù)訓(xùn)練模型的文本嵌入差異研究
孫宇沖1程曦葦2宋睿華1,3,?車萬翔4盧志武1,3文繼榮1,3
1.中國(guó)人民大學(xué)高瓴人工智能學(xué)院, 北京 100872; 2.中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院, 北京 100872; 3.北京智源人工智能研究院, 北京 100084; 4.哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部, 哈爾濱 150001; ?通信作者, E-mail: rsong@ruc.edu.cn
為了詳細(xì)地分析文本單模態(tài)預(yù)訓(xùn)練模型 RoBERTa 和圖文多模態(tài)預(yù)訓(xùn)練模型 WenLan 文本嵌入的差異, 提出兩種定量比較方法, 即在任一空間中, 使用距離一個(gè)詞最近的近鄰詞集合表示其語(yǔ)義, 進(jìn)而通過集合間的 Jaccard 相似度來分析兩個(gè)空間中詞的語(yǔ)義變化; 將每個(gè)詞與其近鄰詞組成詞對(duì), 分析詞對(duì)之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明, 圖文多模態(tài)預(yù)訓(xùn)練為更抽象的詞(如成功和愛情等)帶來更多的語(yǔ)義變化, 可以更好地區(qū)分反義詞, 發(fā)現(xiàn)更多的上下義詞, 而文本單模態(tài)預(yù)訓(xùn)練模型更擅長(zhǎng)發(fā)現(xiàn)同義詞。另外, 圖文多模態(tài)預(yù)訓(xùn)練模型能夠建立更廣泛的詞之間的相關(guān)關(guān)系。
多模態(tài)預(yù)訓(xùn)練; 文本表示; 文本嵌入分析
隨著預(yù)訓(xùn)練模型(如 BERT[1], GPT[2–3]和 RoBE-RTa[4]等)在諸多自然語(yǔ)言處理(NLP)任務(wù)中取得巨大成功, 研究人員將預(yù)訓(xùn)練的技術(shù)拓展到多模態(tài)領(lǐng)域, 并在圖文檢索、圖像描述和文本到圖像生成等多項(xiàng)跨模態(tài)任務(wù)中取得領(lǐng)先的效果[5–8]。CLIP[6]和WenLan[8]這兩種使用對(duì)比學(xué)習(xí)方法, 在大規(guī)模的圖像–文本數(shù)據(jù)對(duì)上進(jìn)行訓(xùn)練, 將文本和圖像分別編碼, 并在同一語(yǔ)義空間將其對(duì)齊。以往的研究主要關(guān)注提升多模態(tài)預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn), 很少分析多模態(tài)數(shù)據(jù)給文本嵌入帶來的變化。如果把單模態(tài)文本預(yù)訓(xùn)練視為通過“讀書”來達(dá)到對(duì)文字的理解, 那么多模態(tài)預(yù)訓(xùn)練則更像人類通過看和聽或?qū)憗磉_(dá)到對(duì)文字的認(rèn)識(shí)。研究這兩種預(yù)訓(xùn)練方式對(duì)文本嵌入的影響, 對(duì)探索人類大腦的編碼方式具有啟發(fā)意義, 也會(huì)為更好地利用多模態(tài)信息提供有價(jià)值的依據(jù)。
分布式假說認(rèn)為, 出現(xiàn)在相似上下文中的詞具有相似的語(yǔ)義[9–10]。基于這一假說, 早期的詞表示模型通過降維算法, 將詞共現(xiàn)矩陣變換為語(yǔ)義向 量[11], 使詞的語(yǔ)義關(guān)系可以通過其在語(yǔ)義空間中用向量表示的距離來體現(xiàn)。Word2Vec 通過基于上下文窗口的詞預(yù)測(cè)任務(wù)來學(xué)習(xí)詞的密集向量表示[12]。GloVe 詞向量通過語(yǔ)料中詞共現(xiàn)的全局統(tǒng)計(jì)信息來學(xué)習(xí)詞表示[13]。上述方法將一個(gè)詞表示為固定的向量, 無法解決一詞多義問題?;谏舷挛牡恼Z(yǔ)言模型使用上下文信息動(dòng)態(tài)地表示詞。例如, ELMO使用在大量語(yǔ)料上訓(xùn)練得到的基于雙向 LSTM (長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò))的語(yǔ)言模型來提取基于上下文的詞表示[14]?;?Transformer[15]的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型, 能夠?qū)W到更豐富的語(yǔ)義信息, 在多項(xiàng)NLP任務(wù)中取得最佳效果[1–3]。
盡管單模態(tài)的詞表示獲得很大的成功, 但該方法僅通過詞在語(yǔ)料中的共現(xiàn)關(guān)系來學(xué)習(xí)語(yǔ)義。這與人類學(xué)習(xí)語(yǔ)言的方式有很大的不同, 人在學(xué)習(xí)語(yǔ)言的過程中往往融入多模態(tài)的感知信息。
有研究嘗試將感知信息融入詞表示中。一種方式是使用人工構(gòu)建的詞屬性數(shù)據(jù)(例如蘋果–可食用, 輪胎–圓形的)來修正詞表示[16–17]。這些數(shù)據(jù)集規(guī)模有限, 只包含顯著的屬性。另一種方式是直接用多模態(tài)數(shù)據(jù)學(xué)習(xí)詞表示。這類研究大部分聚焦于視覺模態(tài), 因?yàn)橐曈X模態(tài)是人類學(xué)習(xí)語(yǔ)言時(shí)最主要的感知信息來源[18]。Bruni 等[19]將圖像中的“視覺單詞”[20]與文本中的詞相聯(lián)系, 證明在詞關(guān)聯(lián)性和詞聚類任務(wù)中, 多模態(tài)語(yǔ)義表示具有更好的效果。Kottur 等[21]將“詞袋模型”擴(kuò)展到預(yù)測(cè)視覺特征任務(wù)中。Xu 等[22]通過最大化圖像特征和對(duì)應(yīng)詞向量的相似度來學(xué)習(xí)多模態(tài)詞表示。Gupta 等[23]使用圖像數(shù)據(jù)集標(biāo)注的視覺共現(xiàn)關(guān)系來提升 GloVe 詞向量。
近期, 預(yù)訓(xùn)練也被用于視覺和語(yǔ)言的聯(lián)合學(xué)習(xí)[5–8,24–25]。早期的研究使用跨模態(tài)的 Transformer編碼器來表示圖像和文本[5,24], 這類模型(又稱為單塔模型或單流模型)為需要強(qiáng)模態(tài)交互的下游任務(wù)設(shè)計(jì)。一些研究使用對(duì)比學(xué)習(xí), 在一個(gè)多模態(tài)空間中將文本特征和圖像特征對(duì)齊[6,8,25], 這些模型(又稱雙塔模型或雙流模型)一般具有獨(dú)立的圖像編碼器和文本編碼器, 其中的文本編碼器可用于提取文本表示。
預(yù)訓(xùn)練的視覺+語(yǔ)言模型在很多跨模態(tài)的下游任務(wù)(如圖文檢索、圖像描述和文本生成圖像等)中取得很好的效果[4–8]。
評(píng)價(jià)詞表示質(zhì)量的方法有兩種: 內(nèi)部評(píng)價(jià)法和外部評(píng)價(jià)法[26–27]。內(nèi)部評(píng)價(jià)法關(guān)注詞表示的語(yǔ)義關(guān)系, 外部評(píng)價(jià)法關(guān)注將詞表示應(yīng)用于下游任務(wù)的效果。
內(nèi)部評(píng)價(jià)法一種內(nèi)部評(píng)價(jià)方法是通過計(jì)算模型預(yù)測(cè)的詞對(duì)相似度與人工標(biāo)注的詞對(duì)相似度之間的 Spearman 相關(guān)系數(shù)來評(píng)價(jià)[28], 常用的評(píng)測(cè)數(shù)據(jù)包括 MEN[19], SIMLEX-999[29]和 SimVerb-3500[26]。但是, 由于人工評(píng)測(cè)的主觀性以及相關(guān)程度定義不清晰, 這種方法受到質(zhì)疑[30]。另一種方法是使用詞聚類, 將詞分成幾個(gè)集合[28], BM[31]和 AP[32]是常用的用于聚類評(píng)價(jià)的數(shù)據(jù)集。除使用人工標(biāo)注的數(shù)據(jù)外, 還有一些方法使用神經(jīng)激活模式來評(píng)價(jià)詞表示, 但這些激活模式并不總與詞義相關(guān)[33]。
外部評(píng)價(jià)法一些 NLP 任務(wù)可以用來評(píng)價(jià)詞表示的能力, 在下游任務(wù)中表現(xiàn)好的詞表示被認(rèn)為有更好的質(zhì)量[27]。常用來評(píng)價(jià)詞表示的 NLP 任務(wù)有詞性標(biāo)注、命名實(shí)體識(shí)別、情感分析和文本分類 等[34]。在不同的下游任務(wù)中, 詞表示的表現(xiàn)并不總是正相關(guān), 因此外部評(píng)測(cè)法并不適合作為一種通用的詞表示質(zhì)量度量[35]。
預(yù)訓(xùn)練模型 BERT 使用堆疊的 Transformer 編碼器結(jié)構(gòu), 模型輸入是兩句拼在一起的文本, 它使用兩個(gè)預(yù)訓(xùn)練任務(wù): 1)掩碼語(yǔ)言模型, 基于上下文預(yù)測(cè)被遮蔽掉的單詞; 2)句子關(guān)系預(yù)測(cè), 預(yù)測(cè)兩個(gè)句子是否相連。RoBERTa 是 BERT 模型的改進(jìn)版本, 使用更多的訓(xùn)練語(yǔ)料, 并訓(xùn)練了更長(zhǎng)的時(shí)間。本文使用中文版 RoBERTa[36], 它使用 RoBERTa 的訓(xùn)練策略, 并結(jié)合全詞遮蔽策略的優(yōu)點(diǎn)。全詞遮蔽指屬于同一個(gè)漢語(yǔ)詞中的漢字都會(huì)被遮蔽掉。因?yàn)?RoBERTa-base 被用作 WenLan 的文本骨干網(wǎng)絡(luò), 因此本文使用中文版 RoBERTa-base。為了減少因訓(xùn)練數(shù)據(jù)不同造成的差異, 我們使用 WenLan 訓(xùn)練數(shù)據(jù)的文本部分(約 2200 萬條數(shù)據(jù)), 以 1×10–5的學(xué)習(xí)率, 使用掩碼語(yǔ)言模型對(duì)它進(jìn)行一輪微調(diào), 得到的模型記為 RoBERTa-ft。
我們選取 WenLan 作為圖文預(yù)訓(xùn)練的模型進(jìn)行分析, 圖 1 展示 WenLan 的基本結(jié)構(gòu)。
其中,T為存儲(chǔ)在T中的負(fù)樣本,為溫度系數(shù)。
類似地, 文到圖的對(duì)比學(xué)習(xí)損失為
其中,I為存儲(chǔ)在I中的負(fù)樣本??偟膿p失為=T2I+I2T。
本文使用 WenLan 的文本編碼器提取多模態(tài)的詞表示, 使用 RoBERTa-ft 提取單模態(tài)的詞表示, 將詞表示為兩組高維向量, 構(gòu)成兩個(gè)文本嵌入空間, 然后在每個(gè)空間中分別計(jì)算所有詞對(duì)的余弦相似度。圖 2 展示兩個(gè)空間中詞對(duì)相似度的分布。可以看到, RoBERTa-ft 和 WenLan 對(duì)應(yīng)的文本嵌入空間中, 詞對(duì)的平均相似度分別為 0.87 和 0.66, 不能直接比較相似度的數(shù)值; 兩個(gè)空間中詞對(duì)的相似度分布也明顯不同, WenLan 對(duì)應(yīng)的相似度分布近似正態(tài)分布, 而 RoBERTa-ft 對(duì)應(yīng)的相似度分布略左偏, 因此, 即使將相似度都標(biāo)準(zhǔn)化, 也不能相互比較。
圖1 WenLan模型結(jié)構(gòu)[8]
圖2 兩個(gè)空間中詞對(duì)相似性分布
預(yù)訓(xùn)練的目的是使模型學(xué)到的特征在高維空間有更好的分布, 使空間中一些詞的距離更近, 另外一些詞的距離更遠(yuǎn)。從語(yǔ)義的角度來看, 高維空間中與某一詞鄰近的詞應(yīng)當(dāng)具有揭示該詞含義的能力。據(jù)此, 本文提出一種基于-近鄰的方法來比較兩個(gè)模型的文本嵌入, 包含如下兩個(gè)步驟。
杰卡德相似度的取值范圍為[0, 1], 在兩個(gè)文本嵌入空間中, 詞 w 的語(yǔ)義變化越小, 杰卡德相似度越趨近1。
2)為了衡量詞對(duì)間關(guān)系的變化, 需要從文本嵌入空間提取詞對(duì)。在文本嵌入空間中, 距離詞w最近其個(gè)詞{1,2, …,v}構(gòu)成詞對(duì)。例如, “體育–贏球”、“體育–籃球運(yùn)動(dòng)”和“體育–國(guó)際裁判”等是WenLan文本嵌入空間里構(gòu)成的詞對(duì)。
我們使用Jieba分詞工具包①https://github.com/fxsjy/jieba對(duì)WenLan的文本訓(xùn)練數(shù)據(jù)進(jìn)行分詞, 最終保留在全部數(shù)據(jù)中出現(xiàn)次數(shù)超過50次的詞, 形成長(zhǎng)度為288000的詞表。使用預(yù)訓(xùn)練的模型抽取詞表示, 構(gòu)成文本嵌入空間。
3.1.1 單個(gè)詞表示變化實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
從圖3可以看出, 對(duì)于分析組, 即WenLan v.s. RoBERTa-ft, 直方圖中頻數(shù)峰值位于(0.05, 0.07), 呈右偏分布, 大部分詞對(duì)應(yīng)的杰卡德相似度低于0.2。對(duì)于對(duì)照組, 即RoBERTa-ft v.s. RoBERTa, 相似度分布近似一個(gè)峰值為0.4的鐘形。需要注意的是, 我們僅使用WenLan圖文數(shù)據(jù)集中文字部分對(duì)RoBERTa微調(diào), RoBERTa與RoBERTa-ft 結(jié)果的不同主要來自新增數(shù)據(jù)。WenLan與RoBERTa-ft使用相同的文本數(shù)據(jù), 此外還使用相應(yīng)的圖像數(shù)據(jù)做預(yù)訓(xùn)練。最終分布呈現(xiàn)出較大差異, 說明圖像信息在表示學(xué)習(xí)的過程中發(fā)揮出顯著的作用。
3.1.2 變化規(guī)律實(shí)驗(yàn)與結(jié)果
本文基于詞性(part of speech, POS), 分類統(tǒng)計(jì)兩個(gè)空間中詞表示的變化。對(duì)于普通名詞、動(dòng)詞、人名、地名、數(shù)詞、形容詞、組織名稱、時(shí)間詞、代詞、方位詞和數(shù)量詞這11類詞性類別, 分別計(jì)算各類詞的平均杰卡德相似度, 在分析組和對(duì)照組之間沒有觀察到明顯的區(qū)別。通過觀察詞表示在兩個(gè)空間發(fā)生較大變化的多個(gè)實(shí)例, 發(fā)現(xiàn)其中大部分是語(yǔ)義抽象的詞; 相反, 很多語(yǔ)義具象的詞則在兩個(gè)空間中變化較小。因此, 我們猜想多模態(tài)預(yù)訓(xùn)練對(duì)于詞語(yǔ)語(yǔ)義的影響與詞語(yǔ)的具象/抽象程度相關(guān)。
圖3 詞語(yǔ)義變化圖
Brysbaert等[39]對(duì)單詞的具象度進(jìn)行細(xì)致的定義, 并使用人工標(biāo)注的方法, 完成一個(gè)高質(zhì)量的數(shù)據(jù)集。該數(shù)據(jù)集主要包含英文名詞、動(dòng)詞和形容詞, 每個(gè)單詞由多名標(biāo)注者根據(jù)具象程度打分(1~ 5), 1分表示最為抽象, 5分則表示最為具象。通過 對(duì)多個(gè)標(biāo)注得分取平均, 得到最終具象度(Concre-teness), 它是一個(gè)[1, 5]區(qū)間的實(shí)數(shù)。由于本文比較的模型均采用中文訓(xùn)練, 因此將該標(biāo)注數(shù)據(jù)集中的英文詞翻譯為中文詞, 取最常用詞義, 與中文詞表相交, 最終獲得26000個(gè)詞。
表1列舉一些在WenLan和RoBERTa-ft文本嵌入空間中距離最近的詞。可以看出, 更具象的詞在兩個(gè)模型得到的重合詞更多, 而抽象詞所得的重合詞更少。我們將具體度得分以0.5分的間隔劃分區(qū)間, 對(duì)得分區(qū)間內(nèi)的所有詞對(duì)應(yīng)杰卡德相似度求平均, 統(tǒng)計(jì)結(jié)果如圖4所示。橫軸表示詞的具體度, 縱軸表示相對(duì)杰卡德相似度(以1.0~1.5區(qū)間的相似度為基準(zhǔn))??梢钥闯? 對(duì)于分析組, 隨著詞具體度得分上升, 相似度也明顯上升。對(duì)于對(duì)照組, 相似度則未發(fā)現(xiàn)明顯上升趨勢(shì)。相關(guān)性檢驗(yàn)結(jié)果表明, 分析組的相關(guān)系數(shù)約為0.32, 而對(duì)照組的相關(guān)系數(shù)為0.07。因此, 多模態(tài)預(yù)訓(xùn)練為抽象詞帶來更多的語(yǔ)義變化, 越抽象的詞, 語(yǔ)義變化越大。
圖4 詞語(yǔ)義變化與詞具體度的關(guān)系
3.2.1 利用已有標(biāo)注研究詞與詞之間的關(guān)系
我們選擇廣泛應(yīng)用的蘊(yùn)含豐富的關(guān)系種類的大規(guī)模知識(shí)圖譜ConceptNet[40]。為了確認(rèn)WenLan能否發(fā)現(xiàn)更多視覺相關(guān)詞對(duì), 我們還選擇擁有豐富物體及屬性標(biāo)簽的 Visual Genome數(shù)據(jù)集[41]和擁有圖片級(jí)標(biāo)簽的 ImageNet 數(shù)據(jù)集[42]作為有標(biāo)注數(shù)據(jù)集, 用來匹配詞對(duì)之間的視覺關(guān)系。
ConceptNet 中含 386000 種中文概念關(guān)系。剔除不被詞表包含、擁有數(shù)據(jù)記錄過少及記錄涵蓋過多噪聲的概念關(guān)系后, 共有 10 種概念關(guān)系被保留, 如表 2 所示。這 10 種關(guān)系中包含如同義詞、反義詞和“是”(上位詞)這些基本類型的關(guān)系, 以及如“被用于”、“導(dǎo)致某種結(jié)果”和混合多種類型的“其他相關(guān)”(除上述類型外的相關(guān))這些高級(jí)類型的關(guān)系。對(duì)于 Visual Genome 和 ImageNet, 受 Vaswani 等[15]的啟發(fā), 我們主要考慮兩種視覺關(guān)系。1)視覺語(yǔ)境(或視覺共現(xiàn))關(guān)系: 與文本中的語(yǔ)境類似, 我們將出現(xiàn)于同一圖像中的物體定義為該圖的語(yǔ)境, 曾多次共同出現(xiàn)在同一語(yǔ)境的物體對(duì)被認(rèn)為有視覺語(yǔ)境關(guān)系, 比如, 耳朵和頭飾。2)物體–上位詞關(guān)系: 對(duì)圖像中物體, 取 WordNet[43]中該物體的上位詞, 形成物體–上位詞關(guān)系的標(biāo)注數(shù)據(jù)。與 ConceptNet 的處理方法一致, 我們剔除詞表中不包含的詞所涉及的詞對(duì)。
表1 單個(gè)詞在兩個(gè)文本嵌入空間的語(yǔ)義變化舉例
說明: 粗體字為重合詞。
表2 兩個(gè)空間挖掘出的詞對(duì)與現(xiàn)有數(shù)據(jù)集中關(guān)系類型匹配的統(tǒng)計(jì)結(jié)果
說明: 總數(shù)是兩種空間挖掘到的具有該種關(guān)系類型的詞對(duì)并集大小; 表2數(shù)據(jù)以占比降序排列; 粗體字表示來自視覺數(shù)據(jù)集, 其余來自ConceptNet數(shù)據(jù)集。
對(duì)每一個(gè)詞, 分別通過 WenLan 和 RoBERTa-ft獲得鄰近詞對(duì)集(=50), 對(duì)出現(xiàn)在標(biāo)注數(shù)據(jù)集中的詞對(duì), 記錄其關(guān)系類型, 統(tǒng)計(jì)結(jié)果見表2。我們用與的比值來表示哪種模型在挖掘一種關(guān)系類型時(shí)更具優(yōu)勢(shì)。
根據(jù)表2, 與單模態(tài)RoBERTa-ft模型相比, 多模態(tài)WenLan模型更擅長(zhǎng)發(fā)現(xiàn)上下位詞關(guān)系(不論是來自視覺數(shù)據(jù)集的“物體–上位詞”關(guān)系, 還是來自ConceptNet 的“是”關(guān)系)。除少量知識(shí)介紹類文本外, 人們?cè)谖淖种刑岬揭粋€(gè)名詞時(shí), 通常不會(huì)贅述它們屬于哪個(gè)上位類別或包括哪些下位詞。例如, 在講武松打虎的故事時(shí), 通常不會(huì)插入“老虎是一種哺乳動(dòng)物”這樣的常識(shí)性文字。但是散落在互聯(lián)網(wǎng)的圖像–文本數(shù)據(jù)對(duì)中, 一張老虎的圖片可能常被用作展示老虎相關(guān)的文字內(nèi)容, 也可能在描述抽象的哺乳動(dòng)物時(shí)作為一個(gè)實(shí)例出現(xiàn)。“老虎”和“哺乳動(dòng)物”不必同時(shí)出現(xiàn)在一段文字里, 而通過老虎圖像和對(duì)比學(xué)習(xí)的優(yōu)化目標(biāo), 這兩個(gè)詞表示逐漸與老虎的視覺表示靠近, 因此它們因在WenLen空間中的距離相近而被挖掘出。
表2最后一行表明, 僅RoBERTa-ft發(fā)現(xiàn)的反義詞對(duì)數(shù)量是僅WenLan發(fā)現(xiàn)的7倍。但是, 由于文本上下文相似, 從Word2Vec到BERT(包括RoBE-RTa-ft在內(nèi)), 這些單模態(tài)模型普遍會(huì)使“成功–失敗”這類反義詞具有距離相近的表示向量。令人驚訝的是, 在融合視覺信息后, 這種情況獲得明顯的改善。
如圖5所示, 以反義詞“成功–失敗”為例, 在RoBERTa-ft對(duì)應(yīng)的單模態(tài)文本嵌入空間中有一簇與“失敗”相近的詞(如“挫敗”、“頹敗”和“潰敗”), 距離“成功”不遠(yuǎn)。在WenLan對(duì)應(yīng)的多模態(tài)文本嵌入空間中, 其距離被大大拉遠(yuǎn), 未進(jìn)入前50的近鄰。研究訓(xùn)練數(shù)據(jù)集發(fā)現(xiàn), “成功”和“失敗”在文本中出現(xiàn)時(shí), 上下文是相似的。與文本不同, 周圍文字帶有“成功”的圖像中, 大多色彩明亮, 并且具有積極的情感表達(dá)(如微笑); 周圍文字中帶有“失敗”的圖像中, 大多色調(diào)陰暗, 且具有消極的情感表達(dá)。視覺信息上的差異使WenLan通過對(duì)比學(xué)習(xí), 增大了“成功–失敗”這對(duì)詞在多模態(tài)特征空間中的距離。這表明, 多模態(tài)WenLan模型具有能夠拉遠(yuǎn)反義詞之間距離的優(yōu)勢(shì)。
圖5 “成功”在兩個(gè)空間中周圍的詞
綜上所述, 可以得出以下結(jié)論。
1)文本單模態(tài)模型RoBERTa-ft更擅長(zhǎng)發(fā)現(xiàn)同義詞對(duì)?!俺霈F(xiàn)在相似上下文中的詞具有相似的語(yǔ)義”這一假設(shè)對(duì)同義詞非常有效, 與僅WenLan發(fā)現(xiàn)相比, 僅RoBERTa-ft發(fā)現(xiàn)能貢獻(xiàn)兩倍多的同義詞。
2)RoBERTa-ft更擅長(zhǎng)發(fā)現(xiàn)有邏輯關(guān)聯(lián)的詞對(duì), 包括“導(dǎo)致某種結(jié)果”、“為第一子事件”、“具有某種能力”、“被用于”、“以某種目標(biāo)為動(dòng)力”和“其他相關(guān)”。這些關(guān)系更常見于文本, 較難用圖像表達(dá)。越難以用圖像表達(dá)的類別(如“以某種目標(biāo)為動(dòng)力”), RoBERTa-ft的貢獻(xiàn)比例越高。
3)RoBERTa-ft可以發(fā)現(xiàn)大量視覺語(yǔ)境關(guān)系詞對(duì)。雖然如“耳朵”和“頭飾”這樣的“視覺語(yǔ)境”類詞對(duì)是由Visual Genome和ImageNet視覺數(shù)據(jù)集中出現(xiàn)在同一張圖像中的物體構(gòu)成, 我們?cè)静孪攵嗄B(tài)模型會(huì)在這一類型上有優(yōu)勢(shì), 但事實(shí)上, 單模態(tài)模型的貢獻(xiàn)更多, 即47%比25%。這說明, 文字中也包含視覺場(chǎng)景的描寫, 讓人能夠身臨其境地理解作者想要描述的內(nèi)容。當(dāng)然, WenLan模型也貢獻(xiàn)了相當(dāng)多的視覺語(yǔ)境詞對(duì)。
3.2.2 基于人工標(biāo)注詞對(duì)關(guān)系的實(shí)驗(yàn)
用已有標(biāo)簽的數(shù)據(jù)集與兩個(gè)空間發(fā)現(xiàn)的近鄰詞對(duì)進(jìn)行匹配, 僅少部分詞對(duì)能夠匹配成功, 大量新發(fā)現(xiàn)的詞對(duì)之間的關(guān)系沒有被標(biāo)注。于是, 我們做了一個(gè)用戶研究, 對(duì)抽樣的詞對(duì)進(jìn)行人工標(biāo)注。
標(biāo)注4種類型后的統(tǒng)計(jì)結(jié)果如表3所示。我們分別計(jì)算4種關(guān)系的詞對(duì)在從不同特征空間抽樣而得詞對(duì)中所占的比例, 并比較比例間的差異, 還對(duì)差異的顯著性進(jìn)行檢驗(yàn)。統(tǒng)計(jì)結(jié)果表明, WenLan比RoBERTa-ft少發(fā)現(xiàn)35%的同義詞對(duì), 多發(fā)現(xiàn)7%的相關(guān)詞對(duì), 少發(fā)現(xiàn)47%的反義詞對(duì)。這與表2中的兩個(gè)事實(shí)一致: 文本單模態(tài)模型更擅長(zhǎng)發(fā)現(xiàn)同義詞對(duì), 多模態(tài)模型可以改善反義詞對(duì)在特征空間中距離過近的情況。此外, 與表2中“其他相關(guān)”的結(jié)果不同, 實(shí)驗(yàn)表明WenLan比RoBERTa-ft發(fā)現(xiàn)了更多的相關(guān)詞對(duì), 其中部分相關(guān)詞對(duì)甚至未被Con-ceptNet, Visual Genome和ImageNet涵蓋。
表3 兩個(gè)空間挖掘出的詞對(duì)與人工標(biāo)注關(guān)系類型的統(tǒng)計(jì)結(jié)果
為了在文本模型 RoBERTa 與多模態(tài)模型 Wen-Lan 的詞表示之間做出公平的有意義的比較, 本文采取-近鄰的方法, 將距離一個(gè)詞最近的個(gè)詞構(gòu)成集合, 使用集合來表示該詞的語(yǔ)義; 將文本嵌入空間中每個(gè)詞與其距離最近的個(gè)詞構(gòu)建成個(gè)詞對(duì), 進(jìn)而研究詞對(duì)間的關(guān)系。實(shí)驗(yàn)表明, WenLan改變了詞義, 對(duì)越抽象的詞, 改變?cè)矫黠@。視覺信息可以幫助 WenLan 建立更多的上下義聯(lián)系, 發(fā)現(xiàn)更少的反義詞; RoBERTa 則更傾向于發(fā)現(xiàn)同義詞。
多模態(tài)信息的引入讓文本表示發(fā)生改變, 因此下一步工作中擬探索將此變化更好地與文本預(yù)訓(xùn)練模型在監(jiān)督學(xué)習(xí)上的優(yōu)勢(shì)相結(jié)合。另外, 圖像和文本的強(qiáng)弱關(guān)系在很大程度上決定了多模態(tài)模型的特征空間特點(diǎn), 但目前沒有一個(gè)量化的方式可以刻畫圖文相關(guān)性的強(qiáng)度。我們計(jì)劃構(gòu)造一些強(qiáng)度漸變的圖文數(shù)據(jù)集來探索數(shù)據(jù)集對(duì)多模態(tài)模型, 特別是文本表示方面的影響和規(guī)律。
致謝 研究工作得到北京智源人工智能研究院的算力支持, 在此表示衷心感謝。
[1]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for langua-ge understanding // Proceedings of NAACL-HLT. Min-neapolis, 2019: 4171–4186
[2]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners [EB/OL]. (2019–02–14)[2022–04–15]. https://openai.com/blog/better-lang uage-models
[3]Radford A, Narasimhan K, Salimans T, et al. Im-proving language understanding by generative pre-training [EOB/OL]. (2018–06–11)[2022–04–15]. https:// openai.com/blog/language-unsupervised
[4]Liu Y, Ott M, Goyal N, et al. Roberta: a robust- ly optimized BERT pretraining approach [EB/OL]. (2019–07–26)[2022–04–15]. https://arxiv.org/abs/1907. 11692
[5]Li X, Yin X, Li C, et al. Oscar: object-semantics aligned pre-training for vision-language tasks // Pro-ceedings of ECCV. Cham, 2020: 121–137
[6]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision // Proceedings of ICML. New York, 2021: 8748–8763
[7]Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation // Proceedings of ICML. New York, 2021: 8821–8831
[8]Huo Y, Zhang M, Liu G, et al. WenLan: bridging vision and language by large-scale multi-modal pre-training [EB/OL]. (2021–03–11)[2022–04–15]. https:// arxiv.org/abs/2103.06561
[9]Harris Z S. Distributional structure. Word, 1954, 10 (2/3): 146–162
[10]Firth J R. A synopsis of linguistic theory, 1930–1955 // Studies in Linguistic Analysis. Oxford: The Philolo-gical Society, 1957: 1–32
[11]Lund K, Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 1996, 28(2): 203–208
[12]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space [EB/OL]. (2013–01–16)[2022–04–15]. https://arxiv.org/ abs/1301.3781
[13]Pennington J, Socher R, Manning C D. Glove: global vectors for word representation // Proceedings of EMNLP. Stroudsburg, 2014: 1532–1543
[14]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations // Proceedings of NAACL-HLT. Stroudsburg, 2018: 2227–2237
[15]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Proceedings of Advances in Neural Information Processing Systems, 2017: 6000–6010
[16]McRae K, Cree G S, Seidenberg M S, et al. Semantic feature production norms for a large set of living and nonliving things. Behavior Research Methods, 2005, 37(4): 547–559
[17]Silberer C, Ferrari V, Lapata M. Models of semantic representation with visual attributes // Proceedings of ACL. Stroudsburg, 2013: 572–582
[18]Regier T. The human semantic potential: spatial language and constrained connectionism. Cambridge: MIT Press, 1996
[19]Bruni E, Tran N K, Baroni M. Multimodal distribu-tional semantics. Journal of artificial intelligence research, 2014, 49: 1–47
[20]Bosch A, Zisserman A, Munoz X. Image classification using random forests and ferns // Proceedings of ICCV. Piscataway, 2007: 1–8
[21]Kottur S, Vedantam R, Moura J M F, et al. Visual word2vec (vis-w2v): learning visually grounded word embeddings using abstract scenes // Proceedings of CVPR. Piscataway, 2016: 4985–4994
[22]Xu R, Lu J, Xiong C, et al. Improving word rep-resentations via global visual context // NIPS Workshop on Learning Semantics. Cambridge, 2014: 9
[23]Gupta T, Schwing A, Hoiem D. ViCo: word embed-dings from visual co-occurrences // Proceedings of ICCV. Piscataway, 2019: 7425–7434
[24]Chen Y C, Li L, Yu L, et al. Uniter: universal image-text representation learning // Proceedings of ECCV. Cham, 2020: 104–120
[25]Jia C, Yang Y, Xia Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision // Proceedings of ICML. New York, 2021: 4904–4916
[26]Gerz D, Vuli? I, Hill F, et al. SimVerb-3500: a large-scale evaluation set of verb similarity // Proceedings of EMNLP. Stroudsburg, 2016: 2173–2182
[27]Bakarov A. A survey of word embeddings evaluation methods [EB/OL]. (2018–01–21)[2022–04–15]. https:// arxiv.org/abs/1801.09536
[28]Baroni M, Dinu G, Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors // Proceedings of ACL. Stroudsburg, 2014: 238–247
[29]Hill F, Reichart R, Korhonen A. SimLex-999: eva-luating semantic models with (genuine) similarity es-timation. Computational Linguistics, 2015, 41(4): 665–695
[30]Batchkarov M, Kober T, Reffin J, et al. A critique of word similarity as a method for evaluating distribu-tional semantic models // Proceedings of the 1st Workshop on Evaluating Vector-Space Representations for NLP. Stroudsburg, 2016: 7–12
[31]Baroni M, Murphy B, Barbu E, et al. Strudel: a corpus-based semantic model based on properties and types. Cognitive science, 2010, 34(2): 222–254
[32]Almuhareb A. Attributes in lexical acquisition [D]. Colchester: University of Essex, 2006
[33]Huth A G, De Heer W A, Griffiths T L, et al. Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 2016, 532: 453–458
[34]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch. Journal of Machine Learning Research, 2011, 12: 2493? 2537
[35]Schnabel T, Labutov I, Mimno D, et al. Evaluation methods for unsupervised word embeddings // Pro-ceedings of EMNLP. Stroudsburg, 2015: 298–307
[36]Cui Y, Che W, Liu T, et al. Revisiting pre-trained models for Chinese natural language processing // Findings of the Association for Computational Lin-guistics: EMNLP 2020. Stroudsburg, 2020: 657–668
[37]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual represen-tations // International Conference on Machine Lear-ning. Shangri-La, 2020: 1597–1607
[38]He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning // Procee-dings of CVPR. Piscataway, 2020: 9729–9738
[39]Brysbaert M, Warriner A B, Kuperman V. Concre-teness ratings for 40 thousand generally known Eng-lish word lemmas. Behavior Research Methods, 2014, 46(3): 904–911
[40]Speer R, Chin J, Havasi C. ConceptNet 5.5: an open multilingual graph of general knowledge // Procee-dings of AAAI. Menlo Park, 2017: 4444–4451
[41]Krishna R, Zhu Y, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 2017, 123(1): 32–73
[42]Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database // Proceedings of CVPR. Piscataway, 2009: 248–255
[43]Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39–41
Difference between Multi-modal vs. Text Pre-trained Models in Embedding Text
SUN Yuchong1, CHENG Xiwei2, SONG Ruihua1,3,?, CHE Wanxiang4, LU Zhiwu1,3, WEN Jirong1,3
1. Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872; 2. School of Statistics, Renmin University of China, Beijing 100872; 3. Beijing Academy of Artificial Intelligence, Beijing 100084; 4. Faculty of Computing, Harbin Institute of Technology, Harbin 150001; ? Corresponding author, E-mail: rsong@ruc.edu.cn
multi-modal pre-training; text representation; text embedding analysis