杜曉黎,錢嶺,張海文,楊希
(中移(蘇州)軟件技術(shù)有限公司/中國(guó)移動(dòng)蘇州研發(fā)中心,蘇州 215163)
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)*
杜曉黎,錢嶺,張海文,楊希
(中移(蘇州)軟件技術(shù)有限公司/中國(guó)移動(dòng)蘇州研發(fā)中心,蘇州 215163)
本文提出了一種基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)。系統(tǒng)使用網(wǎng)絡(luò)爬蟲(chóng)采集互聯(lián)網(wǎng)新聞、微信公眾號(hào)、博客、論壇、APP、微博、報(bào)紙、視頻等信息,結(jié)合中國(guó)移動(dòng)自有DPI數(shù)據(jù),采用情感分析等多種自然語(yǔ)言處理算法實(shí)現(xiàn)數(shù)據(jù)融合分析處理,建立不同類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,挖掘更多數(shù)據(jù)價(jià)值,且系統(tǒng)使用多租戶模式實(shí)現(xiàn)底層數(shù)據(jù)共享和用戶輿情信息隔離,大量節(jié)省硬件存儲(chǔ)成本,也讓用戶體驗(yàn)個(gè)性化輿情。
互聯(lián)網(wǎng)采集;數(shù)據(jù)融合;輿情;多租戶;自然語(yǔ)言
工業(yè)3.0是信息化的時(shí)代,信息的快速傳播和發(fā)展推進(jìn)了互聯(lián)網(wǎng)的廣泛應(yīng)用,也讓大數(shù)據(jù)成為這一時(shí)代的最熱主題之一,互聯(lián)網(wǎng)以及大數(shù)據(jù)給人們生活帶來(lái)前所未有的體驗(yàn),人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來(lái)的便捷生活時(shí),也面臨著海量激增的信息,為了實(shí)施有效數(shù)據(jù)治理,實(shí)時(shí)監(jiān)測(cè)輿論傾向,引導(dǎo)正確輿論走向,大量輿情系統(tǒng)涌現(xiàn)。
本文提出了一種基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng),系統(tǒng)實(shí)現(xiàn)了互聯(lián)網(wǎng)新聞、微信公眾號(hào)信息、博客、論壇、APP、微博以及中國(guó)移動(dòng)脫敏DPI(Deep Packet Inspection)等數(shù)據(jù)的融合,利用自然語(yǔ)言處理算法,挖掘出融合數(shù)據(jù)更多價(jià)值,且提出了一種多租戶架構(gòu)實(shí)現(xiàn)數(shù)據(jù)共享和用戶信息隔離,大量節(jié)省硬件存儲(chǔ)成本,且讓用戶體驗(yàn)個(gè)性化輿情。
2.1 系統(tǒng)架構(gòu)
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng),是蘇研自研基于大數(shù)據(jù)平臺(tái)的“移智”系列產(chǎn)品。系統(tǒng)基于大數(shù)據(jù)平臺(tái)采集互聯(lián)網(wǎng)新聞、論壇、微博等信息,也可融合移動(dòng)DPI數(shù)據(jù)等第三方應(yīng)用數(shù)據(jù),因此系統(tǒng)具有數(shù)據(jù)采集層;將采集到的數(shù)據(jù)放入消息通道,系統(tǒng)實(shí)時(shí)監(jiān)測(cè)消息通道是否有最新未處理數(shù)據(jù),如果有則進(jìn)行情感分析、垃圾信息過(guò)濾、專題匹配、預(yù)警推送等數(shù)據(jù)處理,同時(shí)將信息建立索引,因此系統(tǒng)應(yīng)該具備業(yè)務(wù)邏輯層;系統(tǒng)將處理后數(shù)據(jù)存入數(shù)據(jù)庫(kù),并進(jìn)行日志記錄、配置文件管理,因此需要具備數(shù)據(jù)存儲(chǔ)層;系統(tǒng)需要實(shí)現(xiàn)輿情預(yù)警、輿情報(bào)告、輿情分析、用戶畫(huà)像等功能,因此系統(tǒng)應(yīng)該具備應(yīng)用展示層。由于系統(tǒng)面向互聯(lián)網(wǎng)用戶,需要進(jìn)行統(tǒng)一用戶管理、角色權(quán)限管理、套餐管理、多租戶管理等功能,因此系統(tǒng)需要具備運(yùn)營(yíng)管理平臺(tái)。根據(jù)以上的需求,本文提出了如圖1所示的系統(tǒng)架構(gòu)圖。
從圖1可以看出,本文設(shè)計(jì)的系統(tǒng)架構(gòu)分為:數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、業(yè)務(wù)邏輯層、應(yīng)用展示層、運(yùn)營(yíng)管理。數(shù)據(jù)采集層負(fù)責(zé)互聯(lián)網(wǎng)數(shù)據(jù)的采集,通過(guò)使用爬蟲(chóng)調(diào)度機(jī)制實(shí)時(shí)調(diào)度通用網(wǎng)絡(luò)爬蟲(chóng)、定制化網(wǎng)絡(luò)爬蟲(chóng)、元搜索技術(shù)實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的實(shí)時(shí)爬取,將爬取后的數(shù)據(jù)放入消息通道(Kafka)中;業(yè)務(wù)邏輯層主要進(jìn)行數(shù)據(jù)處理、信息檢索,數(shù)據(jù)處理使用Spark技術(shù),將熱點(diǎn)分析、情感分析、輿情預(yù)警、垃圾信息過(guò)濾等算法以及專題匹配、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)存取等處理邏輯模塊獨(dú)立運(yùn)行在Spark中,實(shí)時(shí)從消息通道讀取數(shù)據(jù)進(jìn)行處理,將處理后數(shù)據(jù)存入數(shù)據(jù)庫(kù);信息檢索使用solr作為底層技術(shù),實(shí)現(xiàn)索引建立、關(guān)鍵字搜索和信息篩選等功能;數(shù)據(jù)存儲(chǔ)層負(fù)責(zé)數(shù)據(jù)的存儲(chǔ),使用hbase存儲(chǔ)原數(shù)據(jù)、日志數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等,mysql存儲(chǔ)用戶信息、關(guān)系邏輯數(shù)據(jù),使用redis實(shí)現(xiàn)緩存、去重等內(nèi)存存儲(chǔ),以及日志信息、配置信息的存儲(chǔ);應(yīng)用展示層主要實(shí)現(xiàn)系統(tǒng)功能可視化,包括輿情預(yù)警、輿情推送、輿情上報(bào)以及分析、溯源、用戶畫(huà)像等;運(yùn)營(yíng)管理主要負(fù)責(zé)對(duì)用戶的角色權(quán)限、應(yīng)用套餐、使用日志、用戶信息進(jìn)行管理,實(shí)現(xiàn)多租戶管理,不同用戶可共享底層數(shù)據(jù),從而節(jié)省硬件存儲(chǔ)和運(yùn)維,用戶輿情數(shù)據(jù)隔離,從而實(shí)現(xiàn)用戶輿情個(gè)性化展示。這樣的系統(tǒng)結(jié)構(gòu),使得系統(tǒng)層次清晰,模塊獨(dú)立,易于擴(kuò)展與維護(hù)。
2.2 系統(tǒng)功能
本文使用基于互聯(lián)網(wǎng)大數(shù)據(jù)的爬蟲(chóng)進(jìn)行數(shù)據(jù)采集,將采集到的數(shù)據(jù)進(jìn)行清洗、過(guò)濾以及數(shù)據(jù)處理后存入數(shù)據(jù)庫(kù);用戶通過(guò)賬號(hào)密碼登陸系統(tǒng)后,可以根據(jù)自己關(guān)注的輿情類型進(jìn)行專題設(shè)置,每個(gè)專題中需要設(shè)置關(guān)注輿情的關(guān)鍵詞、不希望看到的信息的排除詞、信息來(lái)源類型、以及關(guān)注輿情的區(qū)域網(wǎng)址等,系統(tǒng)根據(jù)用戶設(shè)置的輿情專題將采集到的互聯(lián)網(wǎng)信息進(jìn)行匹配與過(guò)濾,將符合用戶需求的信息放入用戶設(shè)置的輿情專題中,如果有些信息對(duì)用戶可能產(chǎn)生不好的負(fù)面影響,將及時(shí)進(jìn)行輿情預(yù)警;另外系統(tǒng)可以進(jìn)行輿情上報(bào)、輿情推送、實(shí)時(shí)熱點(diǎn)分析、輿情傳播分析、自動(dòng)輿情報(bào)告以及可結(jié)合DPI數(shù)據(jù)得出用戶畫(huà)像等功能。
圖1 系統(tǒng)架構(gòu)圖
根據(jù)上述設(shè)計(jì)思想,本文設(shè)計(jì)了如圖2所示的功能模塊圖。
輿情預(yù)警:根據(jù)用戶設(shè)置的輿情專題,如果發(fā)現(xiàn)對(duì)用戶可能產(chǎn)生較嚴(yán)重負(fù)面影響的信息,及時(shí)通過(guò)Web平臺(tái)、短信、郵件進(jìn)行實(shí)時(shí)預(yù)警,用戶可自定義預(yù)警級(jí)別(即信息對(duì)用戶的負(fù)面影響是輕微、較重、嚴(yán)重)和預(yù)警方式(Web平臺(tái)、短信、郵件)。預(yù)警分為智能預(yù)警和關(guān)鍵詞預(yù)警。智能預(yù)警用戶只需要設(shè)置專題,系統(tǒng)會(huì)自動(dòng)根據(jù)用戶設(shè)置的專題實(shí)現(xiàn)預(yù)警;關(guān)鍵詞預(yù)警需要用戶設(shè)置的專題中設(shè)置預(yù)警關(guān)鍵詞,只要該專題中的信息包含設(shè)置的預(yù)警關(guān)鍵詞,將實(shí)時(shí)自動(dòng)預(yù)警。
輿情上報(bào):系統(tǒng)實(shí)現(xiàn)了用戶分級(jí)別,下級(jí)用戶可以在系統(tǒng)中將緊急信息實(shí)時(shí)上報(bào)上級(jí)。
輿情推送:上級(jí)用戶可以在系統(tǒng)中通過(guò)V網(wǎng)通和短信方式將重要信息下發(fā)給特定的下級(jí)用戶。
實(shí)時(shí)熱點(diǎn):根據(jù)用戶設(shè)置的專題,實(shí)時(shí)進(jìn)行熱點(diǎn)信息分析、熱詞分析、熱門網(wǎng)站分析。
專題分析:分析每個(gè)輿情專題發(fā)展趨勢(shì)、信息情感分布、來(lái)源分布。
輿情傳播分析:分析每篇信息在互聯(lián)網(wǎng)上傳播溯源、傳播熱力圖以及在每個(gè)區(qū)域上的瀏覽量分析。
用戶畫(huà)像:結(jié)合DPI信息,實(shí)現(xiàn)輿情專題在每個(gè)區(qū)域中的用戶性別分布、年齡結(jié)構(gòu)、區(qū)域分布等用戶畫(huà)像。
輿情報(bào)告:系統(tǒng)可自動(dòng)生成輿情分析報(bào)告,報(bào)告分為日?qǐng)?bào)、周報(bào)、月報(bào),包括每個(gè)專題重點(diǎn)輿情信息、輿情信源統(tǒng)計(jì)、情感分布、每日信息發(fā)展趨勢(shì)、主要媒體分布、區(qū)域分布、熱詞、熱門信息、預(yù)警新聞、預(yù)警微博等信息。
3.1 數(shù)據(jù)融合
數(shù)據(jù)融合是本系統(tǒng)的亮點(diǎn),也是中國(guó)移動(dòng)脫敏DPI數(shù)據(jù)的重要應(yīng)用。n維的信息產(chǎn)生n量級(jí)的價(jià)值,然而n維的信息融合則可以產(chǎn)生n2量級(jí)的價(jià)值。
用戶在系統(tǒng)中設(shè)置關(guān)注輿情的關(guān)鍵詞等信息,系統(tǒng)利用大數(shù)據(jù)平臺(tái)進(jìn)行互聯(lián)網(wǎng)新聞、微博、論壇、博客、APP、微信公眾號(hào)、報(bào)紙、視頻等數(shù)據(jù)的采集,將采集后的信息與用戶輿情專題進(jìn)行匹配,匹配得到的數(shù)據(jù)以及中國(guó)移動(dòng)脫敏DPI數(shù)據(jù)進(jìn)行融合分析和統(tǒng)計(jì),挖掘更深的信息價(jià)值。用戶畫(huà)像即互聯(lián)網(wǎng)數(shù)據(jù)與中國(guó)移動(dòng)脫敏DPI數(shù)據(jù)緊密融合的最佳應(yīng)用,可以幫助用戶更深入的了解所關(guān)注輿情中的事件傳播模型、區(qū)域分布、人員分布等情況。
用戶畫(huà)像是互聯(lián)網(wǎng)輿情信息結(jié)合中國(guó)移動(dòng)脫敏DPI數(shù)據(jù)分析所得。用戶畫(huà)像描繪了在每個(gè)輿情專題中的信息在網(wǎng)絡(luò)上的傳播模型、對(duì)專題信息感興趣的用戶的性別分布和占比、用戶年齡結(jié)構(gòu)以及專題在每個(gè)區(qū)域中用戶數(shù)量。
用戶畫(huà)像算法與用戶設(shè)置業(yè)務(wù)緊密相關(guān),首先用戶需要設(shè)置專題,建立專題關(guān)鍵詞、專題匹配和過(guò)濾規(guī)則,根據(jù)用戶設(shè)置好的專題進(jìn)行信息的匹配。
傳播模型和熱力圖:結(jié)合中國(guó)移動(dòng)脫敏DPI信息,查看專題中每篇信息的瀏覽等操作日志,從而分析出每篇信息在互聯(lián)網(wǎng)上的傳播模型以及互聯(lián)網(wǎng)中的閱讀瀏覽熱度。
3.2 多租戶管理
多租戶管理主要實(shí)現(xiàn)數(shù)據(jù)共享和用戶信息隔離。輿情應(yīng)用雖然越來(lái)越個(gè)性化,但是每個(gè)用戶的底層數(shù)據(jù)來(lái)源、數(shù)據(jù)類型以及數(shù)據(jù)詳情基本相同,不同的是上層應(yīng)用展示,而底層數(shù)據(jù)往往數(shù)量巨大,每個(gè)用戶都存儲(chǔ)獨(dú)立的數(shù)據(jù)需要大量的硬件存儲(chǔ)資源以及系統(tǒng)維護(hù),因此本文在數(shù)據(jù)存儲(chǔ)中實(shí)現(xiàn)了數(shù)據(jù)共享,將所有的互聯(lián)網(wǎng)信息、中國(guó)移動(dòng)脫敏DPI信息使用共同的存儲(chǔ)系統(tǒng)。
圖2 系統(tǒng)功能模塊圖
系統(tǒng)使用共享數(shù)據(jù)庫(kù)和共享數(shù)據(jù)架構(gòu)的模式實(shí)現(xiàn)多租戶管理。不同的租戶可擁有獨(dú)立的個(gè)性化的輿情應(yīng)用,用戶信息隔離,互不影響。且系統(tǒng)實(shí)現(xiàn)了根據(jù)每個(gè)用戶實(shí)際的信息量計(jì)算資源使用量,大大減少了用戶成本。
3.3 核心處理算法:情感分析
輿情預(yù)警是基于互聯(lián)網(wǎng)大數(shù)據(jù)的輿情分析系統(tǒng)最核心的功能,信息的情感分析判別是輿情預(yù)警的最重要組成部分。有效的對(duì)信息的情感傾向進(jìn)行分析判別,能夠更好的向用戶預(yù)警信息情報(bào)。
文本情感分析也即文本情感傾向衡量,情感傾向衡量包括:情感傾向方向和情感傾向度。無(wú)論哪種情感分析方法,其基本原理都是先進(jìn)行文本切割轉(zhuǎn)換,然后情感定位,再聚合。
常見(jiàn)的情感分析分為兩種:基于詞典的情感分析方法和機(jī)器學(xué)習(xí)情感分析方法。
基于詞典的情感分析方法過(guò)渡依賴詞典,而中文詞典并沒(méi)有類似于英文SentiWordNet完善而開(kāi)源的情感詞典,且中文具有可以單字、多字成詞的特殊性,導(dǎo)致建立完善的中文情感詞典的難度非常大。所以單純基于中文情感詞典的情感分析算法效果都不是很理想。
使用機(jī)器學(xué)習(xí)方法進(jìn)行情感分析,無(wú)論是全監(jiān)督還是半監(jiān)督方法都需要人工標(biāo)注的語(yǔ)料作為訓(xùn)練模型,人工標(biāo)注的效果因人而異,無(wú)法統(tǒng)一判斷,且如果語(yǔ)料覆蓋面不全(一般而言,對(duì)于層出不窮的新聞來(lái)說(shuō),無(wú)法做到覆蓋面全)模型將無(wú)法適用于新的信息情感分析;機(jī)器學(xué)習(xí)的方法也存在可擴(kuò)展性差、適應(yīng)新詞能力較差的特點(diǎn),因此需要頻繁的對(duì)模型進(jìn)行訓(xùn)練與更新。
由于以上問(wèn)題,本文提出了一種融合詞典和機(jī)器學(xué)習(xí)的中文信息情感分析算法,算法由預(yù)處理模塊、詞典與統(tǒng)計(jì)計(jì)算模塊、機(jī)器學(xué)習(xí)分類模塊、特征融合模塊構(gòu)成,圖3為情感分析算法總體流程圖。
3.3.1 新聞?lì)A(yù)處理:情感詞典的擴(kuò)展
詞典算法依賴于情感詞典,而互聯(lián)網(wǎng)新詞每天都有更新,因此現(xiàn)有情感詞典并不是很有效且準(zhǔn)確性不高,需要對(duì)詞典進(jìn)行擴(kuò)展。情感詞典通常包括:基礎(chǔ)情感詞典、拓展情感詞典、領(lǐng)域情感詞典?;A(chǔ)情感詞典通常使用知網(wǎng)情感詞典和臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典;拓展情感詞典其實(shí)就是把基礎(chǔ)情感詞典通過(guò)同義詞詞典找到情感詞的同義詞,可以使用哈工大的同義詞詞林;領(lǐng)域詞典即某個(gè)領(lǐng)域特有的感情詞,該部分即為情感詞典擴(kuò)展的重點(diǎn)。詞典擴(kuò)展通常有兩種方法:一,互信息方法,所謂互信息是指,如果在文本中詞A與正向情感詞共現(xiàn)的頻率比與負(fù)向情感詞共現(xiàn)的頻率大,則認(rèn)為詞A為正向情感詞。二,通過(guò)計(jì)算相似度,即如果詞A與正向情感詞的相似度大于與負(fù)向情感詞的相似度,則認(rèn)為詞A為正向情感詞。相似度算法更傾向于字面的相似性,而互信息方法更重于統(tǒng)計(jì)和語(yǔ)義理解,因此本文使用互信息的方法來(lái)對(duì)情感詞典進(jìn)行擴(kuò)展。
3.3.2 預(yù)測(cè)時(shí)預(yù)處理:文本切分處理
預(yù)處理模塊將新聞文本進(jìn)行預(yù)處理,為詞典模塊以及機(jī)器學(xué)習(xí)模塊提供有效的輸入數(shù)據(jù)。
詞典算法預(yù)處理:通過(guò)標(biāo)點(diǎn)符號(hào)對(duì)新聞?wù)Z料進(jìn)行切分,分別對(duì)每一句話進(jìn)行解析形成規(guī)范語(yǔ)料:通過(guò)檢查文本中的換行符,中文標(biāo)點(diǎn)符號(hào)(比如句號(hào),感嘆號(hào)等)進(jìn)行分句。對(duì)每一個(gè)分句進(jìn)行中文分詞,標(biāo)注詞性。
機(jī)器學(xué)習(xí)算法預(yù)處理:對(duì)已有規(guī)范語(yǔ)料剔除一些垃圾詞(也即對(duì)情感分析沒(méi)有作用的詞語(yǔ),以減少機(jī)器學(xué)習(xí)算法的特征維度):在詞典算法預(yù)處理的基礎(chǔ)上,根據(jù)詞性篩選掉一些地名,人名以及一些沒(méi)有情感屬性的名詞、副詞。
3.3.3 總體流程
如圖3所示,算法按以下流程處理:
(1)對(duì)新聞進(jìn)行預(yù)處理,獲得分句sentence。
(2)對(duì)每一個(gè)分句進(jìn)行分詞,獲得單詞及其詞性。
(3)利用詞典算法對(duì)分句后的單詞進(jìn)行處理獲得詞典特征D1。
(4)利用統(tǒng)計(jì)方法對(duì)已有分詞結(jié)果進(jìn)行統(tǒng)計(jì)獲得統(tǒng)計(jì)特征S1、S2、S3。
(5)利用LR算法分詞結(jié)果轉(zhuǎn)換成的詞向量進(jìn)行預(yù)測(cè)獲得 LR1﹑LR2、LR3。
(6)利用SVM算法對(duì)分詞結(jié)果轉(zhuǎn)換成的詞向量進(jìn)行預(yù)測(cè)獲得SVM1、SVM2、SVM3。
(7)利用以上算法得到的所有特征作為輸入,利用RF算法對(duì)情感值進(jìn)行預(yù)測(cè),獲得新聞在正中負(fù)3個(gè)情感上的概率,得到最終情感分析結(jié)果。
3.3.4 測(cè)試結(jié)果
算法準(zhǔn)確率:本算法已經(jīng)實(shí)際應(yīng)用于輿情系統(tǒng)中,采用開(kāi)放的數(shù)據(jù)和方法進(jìn)行測(cè)試,準(zhǔn)確率已經(jīng)達(dá)到80%以上,并且成功申請(qǐng)專利。
圖3 情感分析算法總體流程圖
基于數(shù)據(jù)融合的互聯(lián)網(wǎng)輿情分析系統(tǒng)是本公司基于大數(shù)據(jù)平臺(tái)自研的“移智”系列產(chǎn)品,實(shí)現(xiàn)了對(duì)互聯(lián)網(wǎng)輿情信息進(jìn)行收集、追蹤、監(jiān)控、溯源和預(yù)警的功能。平臺(tái)利用實(shí)時(shí)數(shù)據(jù)采集和精準(zhǔn)的自然語(yǔ)言處理技術(shù),幫助各級(jí)政府以及大型企業(yè)對(duì)網(wǎng)絡(luò)輿情信息及時(shí)監(jiān)控預(yù)警,實(shí)現(xiàn)對(duì)影響面大、可能導(dǎo)致事件升級(jí)的網(wǎng)絡(luò)輿情信息第一時(shí)間獲知、第一時(shí)間上報(bào)、第一時(shí)間處理。為政府、企業(yè)、或者新聞媒體等機(jī)構(gòu)提供輿情的實(shí)時(shí)監(jiān)測(cè)、多維度圖表分析展示、實(shí)時(shí)預(yù)警、報(bào)告生成等功能。
[1] 李光敏, 張行文, 張磊, 等. 面向網(wǎng)絡(luò)輿情的評(píng)論文本情感分析研究[J]. 情報(bào)雜志, 2014.
[2] 陸文星, 王燕飛. 中文文本情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012.
[3] 葉強(qiáng), 張紫瓊, 羅振雄. 面向互聯(lián)網(wǎng)評(píng)論情感分析額中文主觀性自動(dòng)判別方法研究[J]. 信息系統(tǒng)學(xué)報(bào), 2007.
An internet public sentiment analysis system based on data fusion
DU Xiao-li, QIAN Ling, ZHANG Hai-wen, YANG Xi
(China Mobile (Suzhou) Software Technology Co., Ltd./China Mobile Suzhou R & D Center, Suzhou 215163, China)
This paper proposes an Internet public sentiment analysis system based on data fusion. The news, WeChat public information, blog, forum, APP, micro-blog, newspapers, video which collected from the Internet by web crawler and DPI which from the China Mobile had been used to achieve data fusion and data analysis by using multiple Natural Language Processing algorithms such as the sentiment analysis algorithm. Multi-tenant had been used to achieve the data sharing and information isolation, which can improve resource utilization and allow user to experience personalized public opinion.
internet Web crawler; data fusion; public sentiment; multi-tenant; natural language processing
TN929.5
A
1008-5599(2017)07-0026-05
2017-06-21
* 中國(guó)移動(dòng)集團(tuán)級(jí)一類科技創(chuàng)新成果,原成果名稱為《互聯(lián)網(wǎng)輿情分析系統(tǒng)》。
電信工程技術(shù)與標(biāo)準(zhǔn)化2017年7期