任海平
(浙江日報報業(yè)集團產(chǎn)品研發(fā)中心,浙江 杭州 310039)
隨著媒體大數(shù)據(jù)時代的到來,媒體用戶獲取信息的渠道變得越來越豐富,也越來越便利,而日益快速增長的新聞資源不僅給新聞出版行業(yè)發(fā)展帶來巨大的機遇,更帶來了前所未有的挑戰(zhàn)。這些挑戰(zhàn)是多層次、多方面的,本文聚焦其中的技術挑戰(zhàn)——如何高效利用海量新聞資源提升新聞制作水平,立足浙報集團媒體出版特色,利用深度學習的模型設計并實現(xiàn)智能寫稿輔助服務平臺。
要實現(xiàn)高質(zhì)量的智能寫稿輔助功能,關鍵技術難點是如何快速有效地從海量新聞文本中把與當前撰寫稿件相關的新聞資料匯聚起來,形成有價值的創(chuàng)作素材。由于這種匯聚要求在語義上是高度相關的,因此簡單利用關鍵詞搜索不僅費時費力,也無法取得匯聚的良好效果。利用機器學習的方法,實現(xiàn)新聞文本資源的自動聚類是一個較好的解決方案。傳統(tǒng)面向文本聚類的機器學習方法主要包括:基于決策樹、基于概率圖模型和基于向量空間等各類方法。然而,這些方法都屬于淺層模型,無法利用不斷增長的文本數(shù)據(jù)來提高聚類效果,甚至會下降。因此,本文采用深度學習的模型,實現(xiàn)新聞文本資源的高質(zhì)量聚類。具體而言,我們利用深度學習模型對文本進行層層特征提取并降維,最終獲得較為精練的文本特征代碼,使得在語義上相關度較高的文本代碼,在語義空間中的距離也是相近的,從而實現(xiàn)相關資料的匯聚。
在內(nèi)容創(chuàng)作過程中,利用訓練好的深度模型,系統(tǒng)可以動態(tài)提取當前稿件內(nèi)容(甚至只是一個標題),生成語義代碼,并快速從海量媒資庫中捕捉到與當前最為相關的文本素材,第一時間推送至寫稿平臺,供內(nèi)容創(chuàng)作者參考使用,這便是本文闡述的智能寫稿輔助服務。由此項技術衍生出“主題延展”“稿件背景”“自動摘要”甚至機器寫作等場景應用,讓內(nèi)容創(chuàng)作者真正享受到人工智能時代的紅利。
寫稿的智能內(nèi)容輔助的關鍵技術難點在于如何根據(jù)寫稿人當前錄入的部分內(nèi)容,在語義空間中生成相應的語義代碼(向量),并快速在媒質(zhì)庫中獲取和該語義代碼距離最為接近的相關文本資料。因此,這在機器學習領域中是一個典型的文本聚類問題,即利用高效的算法實現(xiàn)針對在人看來語義相近的文本在虛擬語義空間中也是距離相近的。
為此首先我們要對文本進行建模,目前最為常用的建模方式是“文檔-詞”矩陣(簡稱“D-T”矩陣):A=(aik),其中aik是矩陣中的元素,目前大多采用TF-IDF權重法。在此基礎上,本文利用深度學習模型從“D-T”矩陣中生成高質(zhì)量的語義特征代碼,利用這種代碼,可以高效地獲得和寫稿內(nèi)容相關文本資料。在闡述新方法之前,我們首先回顧一下傳統(tǒng)文本聚類的主要方法。
為實現(xiàn)有效的文本聚類,機器學習領域已經(jīng)做了長期的探索,并取得長足進展。從技術實現(xiàn)路線劃分,傳統(tǒng)文本聚類算法大致分為以下三種:
1.基于決策樹的模型
決策樹(Decision Tree)是一種利用樹狀結(jié)構(gòu)來描述一個決定和其產(chǎn)生結(jié)果的模型,并且在樹的結(jié)構(gòu)中,賦予每個結(jié)果一定的可能性。其中主要典型算法包括:ID5、C4.5、QUEST、PUBLIC等。決策樹的優(yōu)勢在于邏輯和規(guī)則的可解釋性,對于非大量的強數(shù)據(jù)集,結(jié)合領域?qū)<业慕?jīng)驗,決策樹可以取得較好的效果。
2.基于概率圖的模型
概率圖模型是文本挖掘中應用最為廣泛的一種模型,它的基本假設是不同的文本擁有不同詞的聯(lián)合概率分布,換句話說,不同詞的概率組合將產(chǎn)生不同類型的文本,其中典型模型包括:樸素貝葉斯分類器(Na?ve Bayes Classifier),pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)等。該類算法模型,能夠發(fā)展各種更加復雜的模型,并在新聞文本語義分析中做出很大的貢獻。
3.基于向量空間的模型
基于向量空間的模型立足“D-T”矩陣,每一行代表一個文檔,它在向量空間中為一個向量,每一個分量代表詞的權重。該類模型通過各種向量空間的變換來估算兩篇文本的相似度,其中典型模型包括:支持向量機(Support Vector Machine,SVM)、k個最鄰近(k-Nearest Neighbor,kNN)算法和支持向量聚類(Support Vector Clustering,SVC)模型等。
這三類算法模型均屬于淺層模型,其主要局限性體現(xiàn)在,它們無法充分利用不斷增長的文本大數(shù)據(jù)來提升其性能(甚至會下降),同時無法實現(xiàn)多層次隱含語義的高效分析。因此,本文采用深度學習的方法實現(xiàn)高效語義代碼的提取并聚類。
圖1
為充分利用媒資庫中海量的新聞文本數(shù)據(jù),提升聚類的效果,本文采用了深度學習模型,生成蘊含有效語義的文本代碼的基礎上,實現(xiàn)高質(zhì)量文本聚類。目前深度學習比較主流的模型有CNNs(Convolutional Neural Networks)、DGMs(Deep Generative Models) 和 RNNs(Recurrent Neural Networks)。由于文本聚類是非監(jiān)督學習,因此我們采用屬于DGMs中DBNs(Deep Belief Networks, DBNs),如圖1(b)所示。
圖1是基于DBN的文本聚類模型示意圖,(a)是RBM,用于逐層預訓練;(b)是DBN,為本文主模型[2000,800, 800, 256];(c)是在DBN精調(diào)過程中,展開的Deep Autoencoder。
DBNs是一種混合多層概率圖模型,它可以利用RBMs(Restricted Boltzmann Machines)實現(xiàn)層層預訓練(pre-training)來獲得多層次特征的提取。而RBM是一種基于能量的模型,預訓練的詳細過程可詳見Hinton的成果。
要提取文本的語義特征,并生成代碼,首先要利用首層RBM對文本進行采樣和建模。首先,我們利用傳統(tǒng)方法獲得文本“D-T”矩陣。由于每篇文本的長度不同,因此我們采用的方式是復制Softmax模型進行首層采樣和預訓練,具體采樣公式如下:
公式(1)(2)
其中vik,為第i篇文本的第k個分量,h(1)為第1隱藏層,{W(1),a(1),b(1),}為第1層RBM的參數(shù),g(x)=1/(1+exp(-x))為Logistic函數(shù)。在此基礎上,利用多層RBM分別對{h(1),h(2),h(3),}進行訓練,并在h(3)上獲得文本的特征代碼。此時的特征代碼還不是最優(yōu)化的,需要將DBN展開成為一個稱之為Deep Autoencoder的深度編碼器,并利用反向傳播(Backprogation)機制,獲得最優(yōu)化的代碼,如圖1(c)所示。這里反向出傳播的目標函數(shù)選擇交叉熵的偏差(cross-entropy error)函數(shù):
公式(3)
其中,vi(input)為第篇文本,vi(output)為第i篇文本通過層層采樣后的輸出,M為文本的數(shù)目。
深度編碼器對DBN的參數(shù)做進一步優(yōu)化之后,我們可以在深度模型的頂層h(3)獲得文本較高質(zhì)量的特征代碼,我們將該特征代碼存入媒資庫的每篇文稿的記錄中,并在智能寫稿輔助服務中,用于語義相關性的聚類和搜索。
在確立了上述理論和技術模型后,接下來就是如何將其應用于媒體內(nèi)容采編環(huán)節(jié),賦予更多的智能。為此,我們選擇了智能寫稿輔助服務作為切入點。在傳統(tǒng)的寫稿功能設計中往往只實現(xiàn)了一些常規(guī)性功能,如:發(fā)稿單欄設置、內(nèi)容編輯、文字修飾、字行統(tǒng)計、文章關聯(lián)、檢索等,這些功能只對成文方面提供了一定幫助。隨著媒體對內(nèi)容創(chuàng)作的數(shù)量、質(zhì)量、效率以及非同質(zhì)化要求越來越高,這些傳統(tǒng)功能早已無法滿足新的需求。創(chuàng)作者們渴望通過新技術手段來提升內(nèi)容策劃、內(nèi)容組織、背景資料查找以及關聯(lián)信息挖掘能力,為內(nèi)容“編碼”,實現(xiàn)知識增量,快速形成精品原創(chuàng)。
要形成有效的智能寫稿輔助服務,首先要構(gòu)建一套海量的、存放高質(zhì)量語義特征代碼的媒資庫,這也是內(nèi)容基礎。目前能為媒體所用的數(shù)據(jù)源非常廣泛,就以浙報集團“媒立方”項目而言,數(shù)據(jù)的采集分為了資源圈與分析圈,覆蓋了新聞、資訊、交互性內(nèi)容范疇,包括但不局限于集團采編資源、歷史媒資數(shù)據(jù)、全網(wǎng)重點新聞(如:媒體網(wǎng)站、政府門戶、微博、微信、論壇、新聞爆料、數(shù)字報、APP)以及民眾互動數(shù)據(jù)等,如圖2。
接下來就是對這些采集數(shù)據(jù)的清洗處理,包括脫敏(保留隱私性)、清理(保留有效數(shù)據(jù))、加標簽(分類)等前序工作,形成初始數(shù)據(jù)源(圖2-[S1])。若計算資源充足,還可對初始數(shù)據(jù)源按信息階段(信息發(fā)現(xiàn)、信息跟蹤、信息挖掘、信息推薦、信息評估)和信息性質(zhì)(速度、廣度、準度、深度、流行度)兩大需求方向進行二次結(jié)構(gòu)化預處理,形成初始數(shù)據(jù)源(圖2-[S2])。最后,利用深度學習模型,將預處理結(jié)果數(shù)據(jù)進行特征代碼計算、提取、存儲,形成真正可利用的優(yōu)質(zhì)信息,供智能寫稿服務使用。
根據(jù)實際應用需要,我們設計了兩類智能寫稿輔助服務:主題延展和背景資料,并在浙報集團“媒立方”項目的融合寫稿編輯器中應用,并取得了非常好的效果。
1.主題延展的實現(xiàn)與效果
主題延展可動態(tài)獲取當前稿件相似主題、相似內(nèi)容在其他媒體的報道文章。對于該場景設計,需要將智能輔助服務掛鉤內(nèi)容編輯的全過程,隨著創(chuàng)作內(nèi)容篇幅的越來越長,其文章主題也逐漸清晰,當完成整段內(nèi)容輸入,系統(tǒng)即可觸發(fā)機器深度學習算法服務,對當前已輸入內(nèi)容進行分析并抽取語義特征代碼。與此同時,該服務與后臺媒資庫海量語義特征碼進行匹配,當超過預設的匹配值后,系統(tǒng)便可獲取相似度最高的文章推送至用戶端。
對于相似主題文章的展示,我們在設計上應包括:標題、摘要、來源、發(fā)布時間,具體控制如表1所示。
表1 各要素設計說明
在“媒立方”項目融合編輯器設計中,我們?yōu)榫庉嬈鞯挠覀?cè)欄專門設計了智能輔助頁簽欄,可別小看這幾個頁簽,已經(jīng)成為記者編輯在內(nèi)容采編過程中不可或缺的助手。一旦創(chuàng)作者開始內(nèi)容寫作,“主題延展”服務便根據(jù)編輯器中的內(nèi)容進行智能分析,并實時地將匹配到的信息推送至編輯窗右側(cè)頁簽內(nèi),設計界面如圖3:
圖3:主題延展界面展示
(1)查閱結(jié)果:“主題延展”結(jié)果內(nèi)容以瀑布流式顯示,并分布在稿件編輯器右側(cè),用戶點擊任意一篇內(nèi)容即可打開查閱原文。對于長標題,只需將鼠標放置標題位置,便會彈出浮動信息窗,完整顯示標題內(nèi)容。當結(jié)果文章數(shù)過多并超出本頁,可單點擊“展開更多”進行全量查閱。
圖2:數(shù)據(jù)源采集與處理框架
(2)內(nèi)容選取:內(nèi)容選用方式在設計上要突出方便、快速,因此在本設計中,我們約定了鼠標拖拽方式,通過鼠標拖動即可將所選文章內(nèi)容、圖片、音視頻,插入至編輯器正文光標位置。
(3)主題延展內(nèi)容更新:每次觸發(fā)“主題延展”功能,均會對當前正文內(nèi)容進行一次深度學習,并同步更新“主題延展”結(jié)果內(nèi)容清單。內(nèi)容更新的觸發(fā)機制有很多種,可以在內(nèi)容增刪改查時觸發(fā),亦可在換行、換段以及保存時觸發(fā),為了最大程度避免影響寫作體驗,同時又能達到主題延展效果,最終我們選定了“回車換行”作為主要觸發(fā)機制。
2.稿件背景的實現(xiàn)與效果
“稿件背景”是從當前稿件內(nèi)容中抽取人名、地名、機構(gòu)名等關鍵詞,加以解釋,或列舉這些關鍵詞在歷史重要媒體報道中的描述,為內(nèi)容創(chuàng)作者提供稿件背景資料。同理,在該場景設計中,用戶在內(nèi)容創(chuàng)作到達一定篇幅后,系統(tǒng)會根據(jù)已輸入內(nèi)容觸發(fā)機器深度學習服務,確立人名、地名、機構(gòu)名等關鍵詞以及語義特征代碼,并與媒資庫海量語義特征碼進行匹配,獲取相似度最高的文章推送給用戶端,為內(nèi)容創(chuàng)作者提供文章相關的高價值信息。對于稿件背景結(jié)果的展示,在設計上包括:標題、摘要、來源、發(fā)布時間,展示控制與“主題延展”相同。但不同的是,稿件背景的核心匹配目標是文章關鍵詞,如:人名、地名、機構(gòu)名以及其他關鍵詞,通過不同組合的關鍵詞選擇,將會產(chǎn)生不同的背景資料呈現(xiàn)結(jié)果。
在“媒立方”項目融合編輯器設計中,我們同樣為編輯器的右側(cè)欄專門設計了“稿件背景”智能輔助頁簽。在內(nèi)容創(chuàng)作過程中,系統(tǒng)會自動從當前稿件中抽取人名、地名、機構(gòu)名等關鍵詞,并列舉這些關鍵詞在各類媒體報道中的詳細描述,為內(nèi)容創(chuàng)作者提供文章相關背景信息。例如:一篇稿件中引用了某一句詩歌、典故,通過背景資料就可以快速定位到這句詩歌、典故的完整原創(chuàng)內(nèi)容。設計界面如下:
圖4:稿件背景界面展示
“稿件背景”以瀑布流方式顯示關鍵詞所定位的原文內(nèi)容,用戶可在稿件編輯器右側(cè)“稿件背景”欄點擊查閱。各類關鍵詞間以“and”搜索關系約束,且同一類關鍵詞約束為單選,不同類關鍵詞允許多選。內(nèi)容選用方式、內(nèi)容更新與“主題延展”功能設計一致。
本文詳細闡述了基于深度學習的智能寫稿輔助服務的關鍵技術和設計方案,其出發(fā)點是讓機器(服務器計算資源)充分進入內(nèi)容信息源領域,幫助我們完成第一道最費時費力的數(shù)據(jù)收集和結(jié)構(gòu)化處理工作,讓海量的內(nèi)容資源庫成為真正有價值的知識庫。當然對算法模型的優(yōu)化與實踐還需要一個過程,可以預見,在不久的將來,通過人工智能深度學習,必然會帶來包含內(nèi)容生產(chǎn)要素在內(nèi)的衍生變化,甚至引發(fā)傳統(tǒng)信息流生產(chǎn)方式的顛覆。