鄧丁朋 周亞建 池俊輝 李佳樂
摘 ?要: 短文本由于特征稀疏并且多歧義等特點,導致難以對其進行高效的分類。本文首先針對短文本的特點,介紹了短文本分類的研究現(xiàn)狀,其次對短本文分類涉及到的技術及相關理論進行了闡述,并對文本預處理技術、Word2vec以及LDA模型等文本表示方法進行了重點分析。最后總結了短文本分類未來的發(fā)展趨勢。
關鍵詞:?短文本分類;主題建模;分類器;文本表示
中圖分類號: TP391. 41????文獻標識碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.030
【Abstract】:?It is difficult to classify the short text efficiently because of its sparse features and multiple ambiguities.?In this paper, according to the characteristic of short text, this paper introduces the research status quo of short text classification. Second, the classification of involved technology and related theory are expounded, and the text pretreatment technology, Word2vec and LDA model focuses on text representation methods are analyzed. Finally, summarizes the trend of the development of short text classification.
【Key words】: Short text Classification; Topic modeling; Classifier; Text representation
0??引言
隨著社交網絡的迅速發(fā)展,每秒都會產生大量的數據,如Facebook、微博、Twitter、Instagram等[1],這些數據通常以短文本的形式出現(xiàn),包含各種用戶相關信息,如潛在需求、行為、興趣、意圖等。相對于長文本,短文本具有特征非常稀疏,并且存在高噪聲、上下文依賴性強等問題,導致短文本處理很難達到人們預期的要求。
而如何提取有用的知識將短文本數據應用于輔助決策[2]、話題跟蹤[3]、輿情監(jiān)測[4]、情感分析[5]和個性化推薦[6]等領域,是解決大數據時代下數據難以高效挖掘的途徑之一。同時新興的知識抽取技術也促進了計算語言學的迅速發(fā)展,如知識圖譜[7],神經網絡模型[8]等,這也對基于短文本的數據挖掘提供一個新的研究方向。
1??國內外研究現(xiàn)狀
對短文本進行向量化,構建合適的文本表示模型,是解決大規(guī)模數據環(huán)境下短文本數據挖掘的重要手段之一。而由Salton等人提出的向量空間模型(Vector Space Model,VSM)[9],已廣泛應用于各領域的詞表示之中,由于VSM把文檔作為一組特征項的隨機排列,因此也被稱為詞袋模型(Bag of Words, BoW),它通過把單詞表示成可計算的向量,大大提高了模型表示的效率,并在實際應用中也取得了不錯的效果。
在過去幾十年中,VSM模型由于其簡單、易于使用等特點,在普通文本的分類中發(fā)揮著重要的作用,并且取得了不錯的效果。但是對于短文本來說,由于樣本所包含的單詞少,并且具有歧義性,導致VSM不再直接適用短文本向量化表示中。近年來,很多學者都提出了一些巧妙的策略來構建適用于短文本分類的表示模型,挖掘短文本中蘊含的潛在信息。第一種觀點是使用基于搜索引擎(Search Engine,SE)的短文本分類方法[10],基于搜索引擎可以生成文本關鍵詞的集合,并且能夠讓原始特征詞和拓展特征詞之間具有高度相關性,從而將短文本轉化為長文本進行后續(xù)處理,提高分類準確率。但是這種方式與搜索引擎密切相關,分類結果的準確性很大程度上依賴于搜索引擎,并且,分類過程需要搜索引擎的參與,耗時長,不能實現(xiàn)短文本高效、快速地分類。第二種觀點則通過引入外部數據庫,如比較成熟的Wikipedia和CNKI等知識庫[11],通過知識庫一方面可以挖掘出單詞之間的語義、語序等關系,另一方面挖掘出詞語同義詞等信息,用于輔助分類。然而,由于拓展的效果由外部知識庫的質量決定,對于知識庫中沒有的關鍵詞,無法直接進行拓展,并且它的計算相對復雜,計算量較大,不具備對大規(guī)模短文本數據快速分類的能力。
在上述研究的基礎上,一些學者嘗試利用概率生成模型來提取短文本的潛在特征,如LSA模型(潛在語義分析)[12]、PLSA模型(概率潛在語義分析)[13]和LDA模型(隱含狄利克雷)[14]。和以往的方法相比,概率生成模型通過推理策略獲取短文本的主題特征,并將其與文檔的原始特征進行融合,從而實現(xiàn)較好的分類效果。例如,張志飛等人,提出一種基于主題相似度的方法[15],通過主題相似度判斷實現(xiàn)分類。Phan,Chen等人,利用LDA模型在Wikipedia上進行隱藏主題挖掘[16],通過挖掘出隱含主題來完成短文本擴展。該擴展過程雖然能夠減少文本稀疏給分類帶來的影響,但是其耗時長,分類效果仍取決于所建立語料庫的質量,并且這種模型的構建仍然停留在文本層面,沒有將短文本語義信息考慮到分類模型之中,因此不能大規(guī)模的使用。
Mikolov等人在2013年提出了計算詞向量的Word2vec模型[17],作為比較流行的文本建模方法,隨著Google的開源,目前也被越來越多的研究者使用,在分詞[18]、分類[19]、句法依賴分析[20]等領域得到了廣泛的應用。如汪靜、羅浪等人提出的基于Word2Vec的中文短文本分類方法[21],通過引入詞性來改進特征權重計算方法,并且在復旦大學語料庫中取得了不錯的效果。
目前針對短文本分類,文本表示方法正由單一詞向量表示轉變成使用語義信息融合、主題模型拓展等方法,一方面通過抽取文本的語義信息實現(xiàn)更全面的語義表達,另一方面通過使用關鍵詞拓展的方法,將短文本轉化為長文本,從而解決短文本表示、處理上的難題。隨著計算機算力的提升以及神經網絡的發(fā)展,以Word2vec為基礎的神經網絡模型與短文本表示相結合也是目前研究的一個方向。
2??短文本分類相關技術與理論基礎
短文本分類按照流程一般分為文本預處理、文本向量化表示以及分類器選擇等階段。在各個階段均有不同的流程。文本預處理階段,主要是對文本進行去噪,剔除文本中的標點以及停用詞等,其次通過分詞算法對文本進行切分操作。文本表示階段的主要工作是得到文本分詞后的集合,通過文本特征選取算法以及詞向量表示等相關算法,將文本表示為歐式空間中的向量。最后通過選擇合適的分類器,如樸素貝葉斯、SVM等分類器,把樣本劃分到正確的類別中。本文主要對文本預處理、文本表示模型進行綜述。
2.1??文本預處理
文本預處理作為文本向量化的基礎,是實現(xiàn)分類不可或缺的步驟,通過分詞可以將文本切割成單詞集合,并提取出關鍵詞集合。目前,比較成熟的如jieba分詞、中科院ICTCLAS分詞等中文分詞工具,經過開發(fā)者的迭代,在分詞方面都已經達到了很好的效果。
在數據預處理階段,主要工作是去除對文本分類過程無意義的詞以及標點等,這些詞在文檔中通常都會大量出現(xiàn),如“為”,“的”,“這些”,“由”,“我”等詞。這些詞由于不具備深層次的語義信息,甚至它的加入還會引入噪聲,并且對于向量化表示研究也沒有幫助,間接導致分類性能的下降。因此,需要在數據預處理階段對這些詞進行去除,進一步的提高特征選取的效率以及準確率。
除了去除相關停用詞之外,還需要根據詞頻信息來進行去噪。在研究中我們可以發(fā)現(xiàn),文檔中的高頻詞和低頻詞同樣不能表達出文本的特征[22]。對于高頻詞,每篇文檔出現(xiàn)的概率相差不大,如虛詞、語氣助詞等,因此不具備實際的參考價值,低頻詞由于詞語出現(xiàn)的頻率太低,不能表達出文檔的特征,因此也需要舍棄。所以通過文檔頻率和逆文檔頻率等方式來設定相關的閾值,實現(xiàn)對文本詞語的二次篩選,是文本預處理關鍵步驟之一。
2.2??文本表示模型
如何表示非結構化的文本數據,構建適用于短文本分類的向量表示方法,是實現(xiàn)短文本準確分類的理論基礎。
在向量空間模型(VSM)中,通過將文本轉化為能夠計算的詞向量表示,使其能在歐式空間中進行數學處理。這種方式不僅可以減少問題的復雜性,還可以進行各種運算。與VSM不同,Word2vec則通過將每一個詞映射為一個向量,從而抽取出詞與詞之間的語義關系。該模型有兩個主要實現(xiàn):CBOW模型和Skip-Gram模型(如圖1所示),這兩個模型都是基于詞的信息進行預測,因此需要針對不同的場景來選取。目前模型在語義抽取、詞義表達等方面也得到了廣泛的應用。
LDA模型則是一個文檔主題抽取模型,其假設文本都是由各個不同的主題組成的,LDA通過抽取文本中潛在的主題,來實現(xiàn)對文本的分析與表達。如圖2所示,各參數的含義如表1所示。
在LDA模型中,詞的生成過程包括兩個步驟。第一步是從主題集中選擇一個主題,第二步是根據所選主題下的的主題詞分布來選擇一個詞。其中產生t概率的公示可以描述為(1):
3??結語
本文介紹了短文本分類的概念、研究現(xiàn)狀與發(fā)展趨勢以及相關的理論和技術。綜述了現(xiàn)有的研究和解決方法,并對常見的文本建模方法如VSM模型、Word2vec以及LDA模型等方法進行了介紹,其在實際應用中也取得了不錯的效果。總結了短文本分類的發(fā)展趨勢,如下:
(1)由于短文本的稀疏性,如何在短文本中加入特征,對其進行拓展,從而將短文本問題轉化為熟悉的長文本問題,是目前研究的一個熱點之一,該方法能有效的解決短文本表示過程中的稀疏性問題。
(2)基于深度學習理論,將短文本的學習由單一模式轉化為多維模式,通過學習句子的語法結構、上下文依賴等信息,從而提高文本的語義表達能力,實現(xiàn)對文本的理解由淺層分析轉向深度融合,是目前研究發(fā)展的一個趨勢。
(3)將主題模型引入短文本建模也是目前發(fā)展的趨勢之一,主題模型具有堅實的理論基礎,通過在算法中引入主題模型能很好的解決隱藏信息丟失、詞語歧義等問題。
參考文獻
Issa, Naiem T, Byers, Stephen W, Dakshanamurthy, Sivanesan.?Big data: the next frontier for innovation in therapeutics and healthcare[J]. Expert Rev Clin Pharmacol, 2015,7(3):?293-?298.
Murray, Karen, Yasso, Sabrina, et al. Journey of Excellence: Implementing a Shared Decision-Making Model[J]. American?Journal of Nursing, 2016, 116.
黃暢,?郭文忠,?郭昆.?基于雙向量模型的自適應微博話題追蹤方法[J].?小型微型計算機系統(tǒng),?2019,?40(06): 1203-?1209.
Johannes V. Lochter,Rafael F. Zanetti,Dominik Reller,Tiago A. Almeida. Short text opinion detection using ensemble of classifiers and semantic indexing[J]. Expert Systems With Applications,2016,62(1): 243–249.
Kilimci, Z. and ?lhan Omurca, S. Extended Feature Spaces Based Classifier Ensembles for Sentiment Analysis of Short Texts. Information Technology And Control, 2018,?47(3):?457-470.
Zhou, W. and Han, W. Personalized recommendation via user preference matching. Information Processing & Management, 2019,?56(3): 955-968.
李濤等. 知識圖譜的發(fā)展與構建[J].?南京理工大學學報(自然科學版).?2017,?41(1): 22-34.
萬圣賢, 蘭艷艷, 郭嘉豐, 等. 用于文本分類的局部化雙向長短時記憶[J]. 中文信息學報, 2017, 31(3):?62-68.
Salton G. A vector space model for auto- matic indexing [J]. Communications of the ACM, 1975, 18(11) : 613-620.
Yih W,Meek C. Improving similarity measures for short segments of text[C]// Proceedings of the 22nd Conference on Artificial Intel- ligence. Menlo Park: AAAI Press,?2007: 1489-1494.
王榮波. 基于Wikipedia的短文本語義相關度計算方法[J].計算機應用于軟件.?2015, 32(1): 82-85.
Dumais ST. Latent semantic analysis. Annual Review of Information Science and Technology[J], 2015, 38(1):?188- 230.
Christos H. Papadimitriou,Prabhakar Raghavan,Hisao Tamaki,?Santosh Vempala. Latent Semantic Indexing: A Probabilistic Analysis[J]. Journal of Computer and System Sciences,?2000,?61(2):?217-235.
Blei DM, Ng AY, Jordan MI. ?Latent dirichlet allocation[J].?Machine Learning Research Archive,2003, 3(Jan):?993–1022.
張志飛. 基于LDA主題模型的短文本分類方法[J]. 計算機應用, 2013, 33(6): 1597-1590.
Mengen Chen, Xiaoming Jin, Dou Shen. Short Text Classification Improved by Learning Multi-Granularity Topics[C]// IJCAI 2011, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Spain: AAAI Press , 2011:?1776–1781.
Mikolov T, Sutskever I, Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems,?2013: 3111-3119..
王飛, 譚新等. 一種基Word2Vec的訓練效果優(yōu)化策略研究[J]. 計算機應用與軟件, 2018(1): 97-102.
王勤勤, 張玉紅, 李培培,?等. 基于word2vec的跨領域情感分類方法[J]. 計算機應用研究, 2018, 35(10): 50-53.
王紅斌, 郜洪奎. 基于word2vec和依存分析的事件識別研究[J]. 軟件, 2017(06): 70-73.
汪靜, 羅浪, 王德強. 基于Word2Vec的中文短文本分類問題研究[J]. 計算機系統(tǒng)應用, 2018, 7(05): 211-217.
王浩然. 基于詞向量的短文本主題建模研究[D].?吉林: 吉林大學計算機科學與技術學院, 2017.