国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向電商的多模態(tài)商品檢索引擎設(shè)計

2022-07-15 09:54林榆森施自凱林世翔
智能計算機與應(yīng)用 2022年7期
關(guān)鍵詞:特征向量模態(tài)檢索

潘 巍,林榆森,施自凱,林世翔

(哈爾濱華德學(xué)院 數(shù)據(jù)科學(xué)與人工智能學(xué)院,哈爾濱 150025)

0 引 言

近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及人們對生活便利的需求,網(wǎng)購電商平臺得到了飛速的發(fā)展,網(wǎng)上消費和選購心儀商品成為大多數(shù)人的首選。當(dāng)前,隨著網(wǎng)購模式的快速普及,雖然電商平臺已經(jīng)儲備了海量的用戶商品購買行為數(shù)據(jù),但人們在網(wǎng)上購物時,若想在電商平臺中有效檢索出符合自身偏好的商品卻越來越難,該問題的存在使得電商平臺的現(xiàn)有檢索系統(tǒng)面臨著巨大挑戰(zhàn)。此外,經(jīng)常使用電商購物平臺(如淘寶,京東和亞馬遜)的用戶還會發(fā)現(xiàn),這些平臺僅支持語音搜索、文本搜索、圖片搜索等單模態(tài)檢索方式,不能滿足用戶精準定位的商品需求。

1 多模態(tài)商品檢索引擎需求分析

商品搜索引擎以多模態(tài)商品檢索條件數(shù)據(jù)作為輸入,并將這些數(shù)據(jù)和數(shù)據(jù)庫里的用戶行為信息一起提取特征,進行多模態(tài)融合得到融合后的特征向量,并把特征向量,構(gòu)建出一種全新的多模態(tài)個性化商品檢索引擎,主要應(yīng)用于電商的多模態(tài)商品檢索、商品個性化推薦和商品問答機器人。目的是為了提高檢索的準確度,提高用戶購物體驗的滿意度??梢哉f檢索引擎為用戶帶來了線上購物的極大便利,對相關(guān)的電商平臺帶來了巨大的盈利效益。

多模態(tài)的商品檢索引擎需要處理多種數(shù)據(jù)類型的數(shù)據(jù),如圖片,音頻和文本信息。如何將多模態(tài)數(shù)據(jù)進行特征表達和融合是其要解決的關(guān)鍵性問題。此外,在現(xiàn)有的電商商品交易系統(tǒng)中存在海量的多模態(tài)數(shù)據(jù),若能從中自動提取出商品特征,有效的檢索出用戶偏好的商品集合也是其有待解決的重要問題。相比傳統(tǒng)的機器學(xué)習(xí)方法,深度學(xué)習(xí)可通過多個隱含層的仿射變換來自動提取多種類型數(shù)據(jù)的特征,并且對于海量數(shù)據(jù)處理任務(wù)表現(xiàn)出極好的學(xué)習(xí)泛化能力。從而利用深度學(xué)習(xí)來構(gòu)建多模態(tài)的商品檢索引擎是最好的選擇。

2 基于深度學(xué)習(xí)的特征表示和提取技術(shù)

在多模態(tài)的商品檢索引擎中,主要提取文字、圖像和聲音數(shù)據(jù)的特征,并有效的將其融合。其特征提取可依賴于深度學(xué)習(xí)技術(shù)來完成。

2.1 基于深度學(xué)習(xí)模型的圖像處理技術(shù)

近年來,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),在圖像識別方面獲得了巨大的成功,其可以通過多層卷積操作來獲得圖像特征的深度表達,如ResNet、LeNet5、AlexNet、Inception Net等。Vision Transformer的提出,相較于卷積神經(jīng)網(wǎng)絡(luò)來說,使用了一種自注意力機制,該模型的學(xué)習(xí)能力超越了前面所提到的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。2021年3月,微軟公布了Swin Transformer模型,該模型使用移動窗口來計算多尺度的圖像特征,并減少了模型的計算復(fù)雜度。同年,美團和阿德萊德大學(xué)提出了Twins Transformer(Twins-PCPVT),其設(shè)計出空間自注意力機制,使其在圖像分類、目標檢測和語義分割任務(wù)上超越了Swin Transformer模型。Twins-PCPVT通過將PVT中的位置編碼替換為CPVT中提出的條件位置編碼CPE,使其在分類和下游任務(wù)上直接獲得大幅度的性能提升。尤其是在稠密任務(wù)上,由于條件編碼CPE支持輸入可變長度,使得對于圖像的處理上,可以靈活處理來自不同空間尺度的特征。

2.2 基于深度學(xué)習(xí)模型的音頻處理技術(shù)

眾所周知,早期的語音識別系統(tǒng)通常由兩部分組成:一是利用輸入的waveform,人為提取MFCC特征;二是通過分類模型來對聲音進行識別。隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,可以通過CNN、DNN、LSTM等深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來自動化提取特征,相對于非端對端模型,減少了工程的復(fù)雜度,并廣泛的應(yīng)用到語音識別中獲得了良好的效果。

2006年以來,雖然基于深度學(xué)習(xí)的CTC模型(如LSTM-CTC、RNN-CTC等)在語音識別聲學(xué)建模上獲得了巨大的成功,但該模型也存在如下問題:一是缺乏語言模型建模能力,不能整合語言模型進行聯(lián)合優(yōu)化;二是不能構(gòu)造模型輸出之間的依賴關(guān)系。針對CTC的不足,Alex Graves提出了RNN-T模型。RNN-T模型巧妙的將語言模型與聲學(xué)模型整合在一起,同時進行聯(lián)合優(yōu)化。2020年2月,谷歌團隊提出了Transformer Transducer。其是一款在RNN-T模型基礎(chǔ)上,把LSTM encoding替換為transformer encoders的模型,利用有限寬度的上下文時序信息,在基本不損失精度的條件下,可以滿足流式語音識別的要求,獲得了巨大成功。

2.3 基于深度學(xué)習(xí)模型的文本處理技術(shù)

近年來,NLP自然語言處理在文本識別方面獲得了巨大的成功,可以通過文本嵌入技術(shù)來獲得文本特征的深度表達。例如Skip-Gram、Word2vec和GloVe等等。基于深度學(xué)習(xí)的文本處理任務(wù)存在很多模型,如ABCNN、IndRNN和TextCNN模型等。在此基礎(chǔ)上,2017年谷歌公司提出了基于多頭注意力機制的Transformer的模型,該模型并沒有沿用典型的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而是通過多頭注意力來學(xué)習(xí)文本的語義,并在性能方面超越了其它模型。

2.4 多模態(tài)特征融合技術(shù)

眾所周知,對于多模態(tài)任務(wù),如VQA、視覺定位等,都需要融合兩個模態(tài)的特征。近年來,多模態(tài)融合最常用的方法是拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)。而多模態(tài)緊湊雙線性池(MCB)的作者認為,這些簡單的操作融合效果不如外積,不足以建模兩個模態(tài)間的復(fù)雜關(guān)系。MCB將外積的結(jié)果映射到低維空間中,使其計算更為方便。雙線性池化首先對特征提取,得到特征映射每個位置的特征向量進行向量外積計算,然后對所有位置外積計算的結(jié)果進行平均池化得到特征向量;最后經(jīng)過L2范數(shù)標準化得到最后的特征。

3 基于深度學(xué)習(xí)的多模態(tài)的商品檢索引擎

根據(jù)深度學(xué)習(xí)的特點,本文設(shè)計了一種全新的基于深度學(xué)習(xí)的多模態(tài)商品檢索引擎。其整體結(jié)構(gòu)框架如圖1所示。該引擎的工作流程如下:首先采用深度學(xué)習(xí)模型對用戶偏好信息中的文本和圖片信息進行特征提取,即對商品數(shù)據(jù)庫中的文本和圖片進行特征提取;然后對用戶輸入的檢索條件(如文本、音頻和圖片)信息進行特征提?。挥嬎銉煞N商品特征的相似度,選取相似度超過一定閾值的商品,組成用戶偏好商品集合;之后求得商品數(shù)據(jù)庫內(nèi)的商品信息和用戶檢索查詢之間的商品特征向量相似度,選取相似度超過一定閾值的商品組成用戶檢索查詢的商品集合。如果上述兩個集合有交集,在交集中根據(jù)商品特征相似度,選取前個商品作為多模態(tài)商品檢索的結(jié)果;否則,就將用戶檢索查詢的商品集合中根據(jù)商品特征相似度選取前個商品作為多模態(tài)商品檢索的結(jié)果。

圖1 多模態(tài)的商品檢索引擎結(jié)構(gòu)圖Fig.1 Structure diagram of multimodal commodity retrieval engine

多模態(tài)特征融合信息主要分為兩類:一類是對于用戶檢索的條件包含了音頻、文本和圖像的特征融合;還有一類是對于商品數(shù)據(jù)庫信息和用戶偏好信息的融合(如文本和圖像特征融合)。

關(guān)于音頻、文本和圖像的特征提取以及融合如圖2所示。首先采用LCMV算法對音頻進行增強,然后將音頻分成Refiner段,再把Refiner段帶入Transformer Transducer模型得到文本轉(zhuǎn)換信息;然后把這些文本信息和用戶檢索查詢的文本進行串聯(lián)拼接,再對拼接后的文本進行Skip-Gram嵌入分詞得到Tokenization,將其帶入Transformer模型得到文本的特征向量;之后圖像的處理也是如此,先將圖像進行分割成Patch Projection,再將其帶入Twins-PCPVT模型進行特征提取,得到圖像的特征向量;最后再將文本的特征向量和圖像的特征向量采用多頭注意力機制和全連接層的處理,得到了處理后的商品信息的文本和圖像的特征向量,再將這兩個特征向量帶入MCB模型進行融合。

圖2 多模態(tài)特征融合的結(jié)構(gòu)圖Fig.2 Structure diagram of multi-modal feature fusion

4 實驗及分析

本文選用KDD Cup 2020挑戰(zhàn)賽中的多模態(tài)商品數(shù)據(jù)集,該數(shù)據(jù)集中包含用戶文本檢索數(shù)據(jù)和圖像檢索數(shù)據(jù),從中選取10萬條數(shù)據(jù)作為實驗數(shù)據(jù)集,在此基礎(chǔ)上添加了用戶的偏好信息,并為數(shù)據(jù)集中50%的樣本添加了商品語音檢索信息,構(gòu)造出實驗所需的多模態(tài)商品數(shù)據(jù)集(MCDB)。實驗環(huán)境為Ubuntu13.04操作系統(tǒng),Intel i9 109000x處理器,內(nèi)存32G,GPU RTX3090 32G,硬板1T。實驗中使用Python3.6和Pytorch1.10深度學(xué)習(xí)框架編寫程序來實現(xiàn)模型并對上述模型進行訓(xùn)練。

為了驗證本文模型的有效性,選取具有代表性的文本檢索模型LSTM-DSSM和圖像檢索模型DELF與本文提出的多模態(tài)商品檢索模型MCFRNet模型進行運行時間效率對比實驗,實驗結(jié)果見表1。

表1 單模態(tài)與多模態(tài)商品檢索模型的時間效率Tab.1 Time efficiency of unimodal and multimodal commodity retrieval models s

表1中,MCFR-Net-1表示利用圖像和文本進行商品檢索的模型,MCFR-Net-2表示利用聲音和文本進行商品檢索的模型,MCFR-Net-3表示利用圖像、文本和聲音進行商品檢索的模型。在模型訓(xùn)練階段,隨機選取MCDB數(shù)據(jù)集上的80%樣本進行訓(xùn)練,其余的作為測試樣本。通過表1可以看出,本文提出的MCFR-Net模型相比LSTM-DSSM和DELF模型需要更多的訓(xùn)練時間才能使模型收斂,但對于測試樣本的平均測試時間不存在明顯差異。

根據(jù)檢索召回率對比LSTM-DSSM、DELF和MCFR-Net的性能,實驗結(jié)果見表2。

表2 單模態(tài)與多模態(tài)商品檢索模型的召回率Tab.2 Recall rate of unimodal and multimodal commodity retrieval models %

通過表2可以看出,隨著檢索排序結(jié)果數(shù)量的增加,各模型的檢索召回率都有明顯提升。DELF模型的性能要高于LSTM-DSSM模型,而本文提出的MCFR-Net系列模型的召回率明顯高于DELF和LSTM-DSSM,并且MCFR-Net-3模型的性能最好。

5 結(jié)束語

綜上所述,本文設(shè)計了一種全新的多模態(tài)商品檢索引擎,采用深度學(xué)習(xí)和特征融合技術(shù)實現(xiàn)了多模態(tài)數(shù)據(jù)同時應(yīng)用在一次搜索行為中。實驗證明,面對多種多樣的信息來源(如語音,圖像和文本)時,可以使用多模態(tài)檢索引擎模型來提升搜索的準確性,解決了單模態(tài)檢索模型特征表示能力有限和準確性較低的問題。

猜你喜歡
特征向量模態(tài)檢索
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
高中數(shù)學(xué)特征值和特征向量解題策略
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
通過實際案例談如何利用外文庫檢索提高檢索效率
瑞典專利數(shù)據(jù)庫的檢索技巧
三個高階微分方程的解法研究
模態(tài)可精確化方向的含糊性研究
英國知識產(chǎn)權(quán)局商標數(shù)據(jù)庫信息檢索
基于滑動擬合階次和統(tǒng)計方法的模態(tài)阻尼比辨識技術(shù)
氨基酸序列特征向量提取方法的探討
上虞市| 日喀则市| 郁南县| 工布江达县| 特克斯县| 科尔| 汉源县| 浮梁县| 靖州| 龙泉市| 榆中县| 唐河县| 那曲县| 太和县| 长葛市| 璧山县| 专栏| 临猗县| 三都| 汉中市| 高雄县| 吕梁市| 孟连| 和硕县| 和田县| 阳东县| 霍邱县| 清苑县| 荔波县| 淄博市| 卓资县| 陇川县| 丹东市| 德庆县| 广平县| 信阳市| 靖边县| 青海省| 湘西| 古浪县| 宝鸡市|