王娟,馬薇,劉一丹,白涌如
(機(jī)械工業(yè)信息中心,100043 北京)
當(dāng)前,輿情信息呈幾何倍數(shù)增長(zhǎng),輿情發(fā)展復(fù)雜多變。面對(duì)這種形勢(shì),行業(yè)協(xié)會(huì)作為行業(yè)的權(quán)威組織,要及時(shí)跟蹤影響行業(yè)的重大輿情事件,主動(dòng)在輿論焦點(diǎn)問(wèn)題發(fā)聲,引導(dǎo)輿論走向,把握輿論發(fā)展趨勢(shì),增強(qiáng)行業(yè)協(xié)會(huì)的工作能力和服務(wù)水平。行業(yè)協(xié)會(huì)要從行業(yè)發(fā)展需要出發(fā),建設(shè)網(wǎng)絡(luò)輿情公共服務(wù)平臺(tái),集中輿情工作的相關(guān)資源,形成行業(yè)輿情監(jiān)測(cè)分析的合力,更好地服務(wù)于行業(yè)會(huì)員企業(yè)。
行業(yè)協(xié)會(huì)開(kāi)展網(wǎng)絡(luò)輿情工作一般采用購(gòu)買(mǎi)云服務(wù)方式,通常采用SaaS模式,購(gòu)買(mǎi)服務(wù)后無(wú)須部署,服務(wù)商在云端提供7×24小時(shí)的監(jiān)測(cè),自動(dòng)生成各種分析報(bào)告和數(shù)據(jù)報(bào)告,及時(shí)發(fā)現(xiàn)相關(guān)輿情,實(shí)現(xiàn)自動(dòng)預(yù)警。部分有實(shí)力的協(xié)會(huì)建設(shè)了網(wǎng)絡(luò)輿情系統(tǒng),實(shí)現(xiàn)監(jiān)測(cè)范圍可維護(hù),用戶(hù)分組可維護(hù),信息加工模板可維護(hù)。大部分行業(yè)協(xié)會(huì)由于在網(wǎng)絡(luò)輿情監(jiān)測(cè)方面投入有限,采集能力不足,信息加工利用程度低。很多協(xié)會(huì)購(gòu)買(mǎi)的僅僅是新聞搜索,不能及時(shí)甄別發(fā)現(xiàn)行業(yè)的重大事件以及輿情風(fēng)險(xiǎn)。
文本挖掘是指對(duì)文本進(jìn)行聚類(lèi)、分類(lèi)、抽取摘要、情感分析等。文本挖掘也就是自然語(yǔ)言處理,是人工智能的一個(gè)分支,其核心目的在于讓機(jī)器理解人類(lèi)語(yǔ)言。大數(shù)據(jù)時(shí)代,經(jīng)過(guò)大量“訓(xùn)練”后的計(jì)算機(jī)可以代替人類(lèi)解決重復(fù)枯燥的巨量文本文檔處理任務(wù),例如眾多行業(yè)的智能問(wèn)答、機(jī)器翻譯、文本分類(lèi)、文本摘要、標(biāo)簽提取、情感分析、主題模型等方面。文本挖掘技術(shù)的基礎(chǔ)應(yīng)用分為四類(lèi)。第一類(lèi)是抽取,指計(jì)算機(jī)識(shí)別關(guān)鍵要素,自動(dòng)解析文本,從文本中提取出要素并進(jìn)行結(jié)構(gòu)化處理。第二類(lèi)是劃分,指計(jì)算機(jī)基于相似性算法的聚類(lèi)技術(shù),自動(dòng)進(jìn)行歸類(lèi),可自動(dòng)為該類(lèi)生成主題詞,也可對(duì)典型的評(píng)論意見(jiàn)等各種觀(guān)點(diǎn)進(jìn)行識(shí)別和劃分。第三類(lèi)是轉(zhuǎn)換,指計(jì)算機(jī)把文本轉(zhuǎn)換成更正確的語(yǔ)言方式,幫助人們發(fā)現(xiàn)文本中的錯(cuò)誤并修改。第四類(lèi)是合成,指計(jì)算機(jī)按照結(jié)構(gòu)化的要素組合設(shè)計(jì),實(shí)現(xiàn)新的文本生成。
由于行業(yè)協(xié)會(huì)擁有較多的下級(jí)分會(huì)機(jī)構(gòu)、行業(yè)大中型企業(yè)會(huì)員,因此構(gòu)建基于SaaS的網(wǎng)絡(luò)輿情服務(wù)平臺(tái)是較為經(jīng)濟(jì)的方案。SaaS平臺(tái)是互聯(lián)網(wǎng)軟件服務(wù)模式,相較于傳統(tǒng)開(kāi)發(fā)專(zhuān)用系統(tǒng)的方式,優(yōu)勢(shì)非常明顯。一是節(jié)約經(jīng)費(fèi)。協(xié)會(huì)內(nèi)的下級(jí)分會(huì)機(jī)構(gòu)、行業(yè)大中型企業(yè)不需要每家都投資建設(shè)單獨(dú)系統(tǒng),而是集中協(xié)會(huì)內(nèi)有意向的機(jī)構(gòu),一次投入、一組人馬就可以開(kāi)發(fā)建設(shè),達(dá)到資源共享、效益最佳。二是更加專(zhuān)業(yè)。因?yàn)樾袠I(yè)協(xié)會(huì)具有行業(yè)屬性,其下級(jí)分會(huì)機(jī)構(gòu)、行業(yè)大中型企業(yè)會(huì)員在平臺(tái)開(kāi)發(fā)建設(shè)和投產(chǎn)應(yīng)用過(guò)程中,在行業(yè)特征方面具有高度的關(guān)聯(lián)性,這有助于文本數(shù)據(jù)的處理和機(jī)器學(xué)習(xí)的加快改進(jìn),有利于平臺(tái)的能力優(yōu)化。三是采用平臺(tái)方式,系統(tǒng)的安全性和數(shù)據(jù)的安全性都有望提高,同時(shí)也避免了應(yīng)用程序的漏洞或者惡意特權(quán)用戶(hù)泄漏敏感信息。相較于云服務(wù)方式,行業(yè)協(xié)會(huì)因?yàn)橄录?jí)分會(huì)機(jī)構(gòu)、行業(yè)大中型企業(yè)會(huì)員用戶(hù)較多,這種情況更加適合采用SaaS方式,對(duì)所有下屬單位、分支機(jī)構(gòu)的應(yīng)用需求都提供充分支持,通過(guò)提供協(xié)會(huì)內(nèi)部一站式服務(wù),有效歸集本協(xié)會(huì)內(nèi)的全部輿情信息采集、監(jiān)測(cè)分析的人力和財(cái)力資源,實(shí)現(xiàn)監(jiān)測(cè)范圍的共性集中、用戶(hù)需求特征的共性分組和集中管理、共性信息加工模板需求地集中處理等。
行業(yè)協(xié)會(huì)網(wǎng)絡(luò)輿情服務(wù)平臺(tái)設(shè)計(jì)原則有三點(diǎn)。一是在搜集輿情信息時(shí)盡可能關(guān)注更多的渠道,在確保信息源的權(quán)威性的同時(shí),要重點(diǎn)關(guān)注與專(zhuān)業(yè)有關(guān)的渠道,拓寬信息搜集的廣度。只有信息來(lái)源越廣泛,掌握的事實(shí)越多,才能更加完整獲得信息。二是要特別重視關(guān)鍵詞的設(shè)置。行業(yè)一般都有眾多的專(zhuān)用詞匯、特定機(jī)構(gòu),要注意這些詞匯的歸納整理和使用。同時(shí),無(wú)論是借助輿情工具來(lái)檢索,還是自主瀏覽不同平臺(tái),都需要及時(shí)更新和納入新的關(guān)鍵詞,不斷采集更為及時(shí)有效的信息。第三是要貼近行業(yè)協(xié)會(huì)會(huì)員單位的實(shí)際需求,既要保證充分發(fā)揮出輿情監(jiān)測(cè)各項(xiàng)技術(shù)的作用,也要充分體現(xiàn)出行業(yè)工作的經(jīng)驗(yàn)積累和共性特征,深度融合,相互促進(jìn)。
行業(yè)協(xié)會(huì)網(wǎng)絡(luò)輿情服務(wù)平臺(tái)計(jì)劃部署在公有云,包括輿情采集服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、輿情分析服務(wù)器和應(yīng)用服務(wù)器。系統(tǒng)框架包括云基礎(chǔ)環(huán)境層、數(shù)據(jù)存儲(chǔ)層、技術(shù)支撐層、應(yīng)用支撐層和輿情數(shù)據(jù)分析平臺(tái)。其中支撐層提供輿情數(shù)據(jù)采集、集成、治理、分析、應(yīng)用的各類(lèi)基礎(chǔ)技術(shù)支撐服務(wù)。應(yīng)用層匯集行業(yè)輿情數(shù)據(jù)資源,進(jìn)行加工處理,提供行業(yè)輿情數(shù)據(jù)分析服務(wù),搭建行業(yè)輿情服務(wù)門(mén)戶(hù)以及拓展其他應(yīng)用服務(wù)。
平臺(tái)建設(shè)目標(biāo)是采用SaaS模式,為行業(yè)協(xié)會(huì)及其下屬專(zhuān)業(yè)協(xié)會(huì)、行業(yè)重點(diǎn)企業(yè)提供互聯(lián)網(wǎng)輿情監(jiān)測(cè)及智能分析服務(wù)。通過(guò)調(diào)研行業(yè)協(xié)會(huì)、會(huì)員單位及行業(yè)相關(guān)機(jī)構(gòu)的需求,考慮到行業(yè)特征因素,梳理輿情大數(shù)據(jù)應(yīng)用業(yè)務(wù)場(chǎng)景,規(guī)劃業(yè)務(wù)模型。按照業(yè)務(wù)模型,明確業(yè)務(wù)數(shù)據(jù)來(lái)源、數(shù)據(jù)標(biāo)準(zhǔn)、治理規(guī)則、整合方式、計(jì)算模型、分析模型、應(yīng)用模型等數(shù)據(jù)規(guī)劃。
按照數(shù)據(jù)規(guī)劃,梳理各類(lèi)業(yè)務(wù)的輿情數(shù)據(jù)來(lái)源,明確來(lái)源主體、數(shù)據(jù)形式、集成方式、集成頻度、ETL規(guī)則、目標(biāo)位置、可信度等信息。此外,根據(jù)調(diào)研情況,協(xié)會(huì)現(xiàn)有已建成在運(yùn)行數(shù)據(jù)中心,數(shù)據(jù)存儲(chǔ)系統(tǒng)無(wú)須新建。
數(shù)據(jù)采集過(guò)程是先確定采集對(duì)象,其數(shù)據(jù)源可能包括“政府網(wǎng)站”“行業(yè)網(wǎng)站”“期刊雜志”“社交媒體”“相關(guān)系統(tǒng)”“外購(gòu)數(shù)據(jù)”等。采集工具包括API、網(wǎng)絡(luò)爬蟲(chóng)兩種。數(shù)據(jù)采集和數(shù)據(jù)治理負(fù)責(zé)將不同數(shù)據(jù)源的輿情數(shù)據(jù)進(jìn)行采集、匯聚、抽取、治理,最終為監(jiān)測(cè)業(yè)務(wù)提供輿情數(shù)據(jù)支撐。采集過(guò)程包括數(shù)據(jù)清洗、文件格式重定義、排量設(shè)置等預(yù)處理,由采集工具、程序編制或人工進(jìn)行篩選,根據(jù)采集目的和采集對(duì)象對(duì)信息進(jìn)行句義分析、風(fēng)險(xiǎn)定級(jí)和等級(jí)判斷,人工設(shè)置審核規(guī)則,再自定義關(guān)鍵詞、設(shè)置相關(guān)性排序、閱讀行為記錄,采集原始數(shù)據(jù)并發(fā)布。數(shù)據(jù)采集業(yè)務(wù)系統(tǒng)可劃分為統(tǒng)計(jì)報(bào)表管理、圖表分析管理、輿情報(bào)告管理等多個(gè)系統(tǒng)。
平臺(tái)支持針對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)的挖掘方法,包括正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語(yǔ)義信息抽取、文本分類(lèi)、情感分析、語(yǔ)義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類(lèi)等常見(jiàn)文本挖掘方法,基于以上基本方法提供文本精準(zhǔn)檢索服務(wù)、新詞發(fā)現(xiàn)功能、詞頻統(tǒng)計(jì)功能、分類(lèi)過(guò)濾功能、文檔去重功能、自動(dòng)摘要功能、文本聚類(lèi)及熱點(diǎn)分析功能等。其中文本聚類(lèi)是基于相似性算法的自動(dòng)聚類(lèi)技術(shù),自動(dòng)對(duì)大量無(wú)類(lèi)別的文檔進(jìn)行歸類(lèi),把內(nèi)容相近的文檔歸為一類(lèi),并自動(dòng)為該類(lèi)生成標(biāo)題和主題詞。
基于上述方法和功能,平臺(tái)面向機(jī)構(gòu)用戶(hù)提供文本挖掘功能,包括:輿情檢索,指按時(shí)間軸、關(guān)注點(diǎn)、熱門(mén)度、點(diǎn)擊率、搜索量等進(jìn)行多角度、多維度輿情的信息瀏覽;輿情標(biāo)簽,指常用標(biāo)簽和自定義標(biāo)簽的分類(lèi)功能,如詞云分類(lèi)、地域分類(lèi)、行業(yè)分類(lèi)等;輿情來(lái)源,指發(fā)現(xiàn)網(wǎng)絡(luò)輿情話(huà)題的源頭;數(shù)據(jù)分析,指可視化的數(shù)據(jù)維度展現(xiàn);數(shù)據(jù)報(bào)告,指數(shù)據(jù)分析結(jié)果生成報(bào)告。提供的服務(wù)功能有訂閱、推薦、熱點(diǎn)、線(xiàn)索、觀(guān)點(diǎn)、傾向、報(bào)警、分析、報(bào)告、詞云等。根據(jù)用戶(hù)需要,可增加“人物關(guān)注”功能,指監(jiān)測(cè)跟蹤網(wǎng)絡(luò)輿情對(duì)行業(yè)知名專(zhuān)家、企業(yè)家等重要人物的關(guān)注和評(píng)論,實(shí)時(shí)掌握專(zhuān)家觀(guān)點(diǎn)、活動(dòng)、相關(guān)信息。可增加“輿情評(píng)價(jià)”功能,指跟蹤監(jiān)測(cè)網(wǎng)絡(luò)輿論對(duì)機(jī)構(gòu)自身的關(guān)注和評(píng)論,掌握看法口碑等趨勢(shì)變化和負(fù)面預(yù)警,提升機(jī)構(gòu)的影響力、知名度和美譽(yù)度。可增加“內(nèi)參快報(bào)”功能,指面向行業(yè)高層領(lǐng)導(dǎo),就高層領(lǐng)導(dǎo)關(guān)心的重大事件、行業(yè)突發(fā)性的重大事件、輿情系統(tǒng)監(jiān)測(cè)中發(fā)現(xiàn)的突發(fā)事件進(jìn)行及時(shí)分析,提供初步研判報(bào)告,向高層領(lǐng)導(dǎo)提供專(zhuān)報(bào)。對(duì)行業(yè)出臺(tái)的重大政策進(jìn)行長(zhǎng)期跟蹤監(jiān)測(cè),提供政策傳播率、政策知曉度、政策獲得感、政策實(shí)施效果評(píng)價(jià)等方面的信息反饋,定期向高層領(lǐng)導(dǎo)提供專(zhuān)報(bào)。
可適時(shí)開(kāi)發(fā)移動(dòng)端App,與PC端無(wú)縫連接,擴(kuò)大平臺(tái)應(yīng)用的時(shí)空范圍。隨著參與平臺(tái)的機(jī)構(gòu)不斷增多、平臺(tái)采集信息的范圍不斷擴(kuò)大、平臺(tái)的輿情成果不斷增多,借助文本技術(shù)和數(shù)據(jù)建模,平臺(tái)還可以進(jìn)一步擴(kuò)充應(yīng)用場(chǎng)景。如競(jìng)品分析、精準(zhǔn)營(yíng)銷(xiāo)、市場(chǎng)研究、客戶(hù)滿(mǎn)意度分析、事件輿情評(píng)估、新產(chǎn)品推廣等。