祝亮
摘要:隨著內(nèi)容人工智能分發(fā)系統(tǒng)的不斷成熟,各社交新媒體平臺(tái)采用千人千面的分發(fā)機(jī)制,滿足了廣大用戶的線下興趣閱讀需求,讓不同年齡和階層的人群都成為自媒體文章的消費(fèi)者。在經(jīng)濟(jì)效益的驅(qū)動(dòng)下,越來越多的團(tuán)隊(duì)和個(gè)人在內(nèi)容創(chuàng)作上的持續(xù)增加投入,產(chǎn)生了巨量的自媒體文章。對自媒體文章的文本分類研究,在輿情監(jiān)控、廣告投放、情感分析和商業(yè)推薦上都有很重要的意義。用經(jīng)典的文本分類方案來做自媒體文章分類,存在很多挑戰(zhàn)。因此有必要對自媒體文章分類進(jìn)行針對性的探究,為自媒體文章提供更好的文本分類器以滿足進(jìn)一步的應(yīng)用。該文比較了經(jīng)典的貝葉斯算法和基于深度學(xué)習(xí)的CNN算法在自媒體文章分類上的性能差異,并引入了word2vec /FastText/Glove等詞向量工具來優(yōu)化CNN算法,通過實(shí)驗(yàn)驗(yàn)證了這種優(yōu)化帶來的效果優(yōu)勢。
關(guān)鍵詞:文本分類;CNN;深度學(xué)習(xí);word2vec;FastText;GloVe;貝葉斯
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)21-0097-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 背景介紹
近年來,移動(dòng)設(shè)備、大數(shù)據(jù)和人工智能不斷向消費(fèi)市場發(fā)展。大量的不同年齡不同階層的用戶,習(xí)慣于通過Web、H5、輕應(yīng)用(包括小程序/快應(yīng)用等)和App來獲取信息,甚至進(jìn)行重度學(xué)習(xí)。為了提高平臺(tái)用戶的黏性,各產(chǎn)品都采用了千人千面的智能推薦算法,主動(dòng)給用戶推送符合其興趣口味的內(nèi)容。這種智能內(nèi)容推送機(jī)制,進(jìn)一步解決了小眾領(lǐng)域創(chuàng)作者的內(nèi)容分發(fā)問題,刺激了作者的創(chuàng)作熱情。這種分發(fā)機(jī)制激勵(lì)了各垂直領(lǐng)域的創(chuàng)作者持續(xù)進(jìn)場,持續(xù)產(chǎn)生了海量的自媒體文章。為了對這些海量的自媒體文章進(jìn)行定量研究,需要對這些自媒體文章進(jìn)行NLP處理,例如常見的主題模型分析、無監(jiān)督的聚類和有監(jiān)督的文本分類技術(shù)處理。
在這里我們主要研究自媒體文章的文本分類問題。自媒體文章的寫作和內(nèi)容與傳統(tǒng)出版類媒體存在不小的差異。對于傳統(tǒng)媒體來說,自媒體的內(nèi)容有以下特點(diǎn):1)語言平民化,多用描述性的語言來表示概念;2)時(shí)效性強(qiáng),所有的受眾都可以是內(nèi)容的創(chuàng)作者,內(nèi)容中也可能存在較多未曾收錄的新詞和所謂的“網(wǎng)絡(luò)熱詞”和“梗”;3)內(nèi)容中純文本的成分可能很小,創(chuàng)作者用較多的表情、漫畫圖片等形式來表達(dá)情緒和觀點(diǎn),造成文字信息含量比較低;4)用語不夠規(guī)范,可信性可能比較低,文章質(zhì)量良莠不齊。
2 遇到的挑戰(zhàn)
由于這些業(yè)余的創(chuàng)作者并不全都經(jīng)過新聞和寫作訓(xùn)練,也沒有專業(yè)的審稿把關(guān)內(nèi)容,所以這些創(chuàng)作內(nèi)容和傳統(tǒng)新聞媒體文章的調(diào)性有很大差異。在傳統(tǒng)的新聞文本中,使用經(jīng)典的貝葉斯模型,加上一些語料選擇和技術(shù)性的改進(jìn),已經(jīng)可以訓(xùn)練出令人滿意的分類器[1]。但在自媒體環(huán)境下,文本分類算法面對很多新的情況:水平參差不齊的創(chuàng)作者不斷涌入導(dǎo)致文章質(zhì)量良莠不齊;偏向使用更多尚未穩(wěn)定收錄的新詞匯造成缺詞問題;短文本的比例過大等。導(dǎo)致文本分類的分類算法和評估算法都要面臨新的挑戰(zhàn)。貝葉斯分類器抽取的分類特征一般是文本中的出現(xiàn)詞匯,并認(rèn)為一段文本的不同詞匯的出現(xiàn)概率是滿足條件獨(dú)立性的假設(shè)的:詞匯A出現(xiàn)的概率和詞匯B出現(xiàn)的概率是相互獨(dú)立的。這個(gè)獨(dú)立性假設(shè)在自媒體文本中就存在比較嚴(yán)重的挑戰(zhàn)。盡管有一些通過原詞匯重新構(gòu)建特征的方法來改善這個(gè)問題[2],但這樣做會(huì)導(dǎo)致分類器的時(shí)間復(fù)雜度產(chǎn)生較大增幅。
另外,對于短文本的分類已經(jīng)有了一些可行的解決方案。張志飛等人使用LDA模型來分類微博短文本[3],取得了比傳統(tǒng)的VSM模型和基于主題相似度的模型更好的性能和效果。但其使用6步的方法去計(jì)算文本的相似度,在海量文章數(shù)據(jù)下會(huì)有一定程度的性能問題,對于口語化和不規(guī)范用語,也難以歸一化處理。 LDA的主要優(yōu)點(diǎn)是可以處理語義相對明確的短文本,也可以處理文本篇幅較長的問題,而且是無監(jiān)督的算法,可以處理大規(guī)模的文檔集合和語料庫[4]。但其問題是LDA方法采用了BoW詞袋模型,沒有考慮詞和詞之間的順序關(guān)系。這種簡化再加上無監(jiān)督算法帶來的不確定性,在實(shí)際的使用中也較難取得令人滿意的結(jié)果。
從上面的分析中不難看出,對于靈活多變的自媒體內(nèi)容,淺層學(xué)習(xí)建立的分類模型基礎(chǔ)上的分類器,在自媒體文章場景下的運(yùn)行性能雖然不錯(cuò),但實(shí)際效果是非常局限的。在新聞文本內(nèi)容分類任務(wù)上有極好表現(xiàn)的貝葉斯、SVM等淺層學(xué)習(xí)模型,在自媒體內(nèi)容上的分類效果往往難以達(dá)到實(shí)用水平。本文研究基于深度學(xué)習(xí)的模型來解決自媒體文本分類中的若干挑戰(zhàn)。
3 深度學(xué)習(xí)和文本分類相關(guān)技術(shù)問題
3.1 深度學(xué)習(xí)的優(yōu)勢
上文中我們提到,淺層學(xué)習(xí)建立的分類器在自媒體文本分類上的表現(xiàn)不夠穩(wěn)定。而深度學(xué)習(xí)方法可以在文本分類算法上提供一個(gè)全新的解決思路。
深度學(xué)習(xí)脫胎于機(jī)器學(xué)習(xí)的一個(gè)分支:人工神經(jīng)網(wǎng)絡(luò)(ANN)。人工神經(jīng)網(wǎng)絡(luò)最初是從生物神經(jīng)系統(tǒng)的研究中得到靈感的。在人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元和神經(jīng)元之間連起了一個(gè)與生物神經(jīng)系統(tǒng)類似的多層的網(wǎng)絡(luò)結(jié)構(gòu)。人工神經(jīng)網(wǎng)絡(luò)的判定過程,是將一個(gè)輸入經(jīng)過各層神經(jīng)元的運(yùn)算處理,最后得出一個(gè)輸出結(jié)果。人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,是將訓(xùn)練的樣本輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)架構(gòu),不斷對神經(jīng)元之間的鏈接的權(quán)值進(jìn)行修正的一個(gè)迭代的過程。
早期的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng),由于訓(xùn)練的時(shí)間復(fù)雜度要求遠(yuǎn)遠(yuǎn)高于計(jì)算機(jī)算力,所以幾乎沒有應(yīng)用價(jià)值。直到反向傳播算法(Backpropagation)[5]的發(fā)明,可以使用梯度下降法來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),讓訓(xùn)練過程可以在合理的時(shí)間內(nèi)完成收斂。人工神經(jīng)網(wǎng)絡(luò)才能較大規(guī)模地應(yīng)用于實(shí)際生產(chǎn)。在實(shí)際應(yīng)用中,淺層的人工神經(jīng)網(wǎng)絡(luò),通常表現(xiàn)為效果中規(guī)中矩,但模型的可解析性比較差。依然是很難于大規(guī)模應(yīng)用。