屠要峰,錢煜明
(中興通訊股份有限公司南京研發(fā)中心 南京 210012)
互聯(lián)網(wǎng)的迅速發(fā)展為當(dāng)代信息傳播提供了一條全新的途徑,對傳統(tǒng)的信息傳播方式(報紙、電視等)產(chǎn)生了強大的沖擊。尤其是Web2.0技術(shù)的出現(xiàn)和不斷發(fā)展,使得互聯(lián)網(wǎng)信息傳播方式在時間、空間、效率方面漸漸確立了明顯的優(yōu)勢地位。Web已經(jīng)成為現(xiàn)代社會各種信息的載體,而且此載體的信息量是海量的,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)數(shù)據(jù)顯示,如今全網(wǎng)數(shù)據(jù)已達 180萬 PB(1P=250),而且 90%是非結(jié)構(gòu)化的數(shù)據(jù),2015年將達到800萬PB[1],這些數(shù)據(jù)涉及新聞、招聘、廣告、會議、技術(shù)信息、社交網(wǎng)絡(luò)、論壇等各方面。
互聯(lián)網(wǎng)在快捷、方便地傳播海量信息的同時,也帶來了相應(yīng)的問題,如信息超載、信息不完整、信息形式不一致等。因此,通用的信息檢索技術(shù)得到了迅速發(fā)展,如Google、百度,其采用關(guān)鍵詞為基礎(chǔ),幫助用戶獲取相應(yīng)的信息。搜索引擎只是部分緩解了信息檢索的問題,并沒有解決信息分析、信息處理的問題。同時,信息檢索需要用戶實時參與,對于信息的聚合、自動發(fā)現(xiàn)等不能實現(xiàn)自動化、智能化處理[2]。如何實現(xiàn)互聯(lián)網(wǎng)海量數(shù)據(jù)自動采集、聚合、智能分析、自動推送等是業(yè)界主要的研究方向。如:蘋果公司Siri智能機器人實現(xiàn)了根據(jù)用戶需求進行智能分析和處理,但是并未實現(xiàn)信息的自動推送,僅應(yīng)用在移動終端領(lǐng)域。RSS信息訂閱解決了部分信息聚合的問題,但存在信息源缺乏、單一、信息源需要人工處理等問題。
目前,Web信息采集技術(shù)廣泛應(yīng)用在Web數(shù)據(jù)挖掘、搜索引擎、電子商務(wù)、頁面有效性分析等領(lǐng)域,所應(yīng)用到的領(lǐng)域不同,其信息采集技術(shù)也各有不同[2]。隨著文本挖掘、情感分析、個性化推薦、云計算技術(shù)的發(fā)展,使得Web海量信息采集、智能分析等有了新的解決方案。本文提出了基于云計算技術(shù)構(gòu)建海量數(shù)據(jù)的信息云系統(tǒng),此系統(tǒng)采用信息自動聚合、智能分析、智能預(yù)測、自動推送技術(shù)完成整個信息處理的自動化和智能化,根據(jù)用戶的標(biāo)簽自動挖掘出對用戶有價值的信息并主動推送給用戶。
如前面所述,智能信息云系統(tǒng)是為用戶提供信息的自動聚合、智能分析、智能預(yù)測、自動推送結(jié)果給用戶的系統(tǒng),其主要通過采集互聯(lián)網(wǎng)信息,并對信息進行聚合、分析,最終根據(jù)用戶的需求完成個性化的信息推送和呈現(xiàn),為用戶或企業(yè)提供決策支持,使得散亂、公開的信息管理更加智能化、標(biāo)準(zhǔn)化、精細化和可視化。
智能信息云系統(tǒng)是離線的非實時系統(tǒng),其核心業(yè)務(wù)過程包含信息獲取、信息訓(xùn)練和信息博弈3個部分。
(1)信息獲取
信息獲取主要是識別出用戶輸入的信息,并根據(jù)用戶在本系統(tǒng)的歷史行為,將用戶輸入信息轉(zhuǎn)換為對信息源的訂閱指令,系統(tǒng)根據(jù)獲取的訂閱指令自動到互聯(lián)網(wǎng)上定向爬取相關(guān)的內(nèi)容。
(2)信息訓(xùn)練
信息訓(xùn)練的過程就是對信息進行聚合和加工的過程,涉及數(shù)據(jù)凈化、數(shù)據(jù)去重、主題發(fā)現(xiàn)等,經(jīng)過系統(tǒng)處理后的數(shù)據(jù)基本是符合用戶要求的結(jié)構(gòu)化和可視化的數(shù)據(jù),但是這些信息不一定能完全符合用戶的期望,為了校正訓(xùn)練信息的期望度,系統(tǒng)自動監(jiān)測用戶對信息的使用行為,并根據(jù)用戶的使用行為對信息進行回歸處理。整個過程是一個自學(xué)習(xí)的過程,通過大量的數(shù)據(jù)構(gòu)建自反饋的訓(xùn)練集,就能識別出用戶關(guān)心的、期望度最高的信息。
(3)信息博弈
系統(tǒng)根據(jù)用戶訂閱策略會爬取海量的數(shù)據(jù),希望將有價值的信息提供給用戶,并不是將海量的信息充斥用戶的屏幕,讓用戶自己再花大量的時間進行處理。系統(tǒng)需要提供多層次的信息過濾手段,信息與信息之間是需要博弈的,通過不停的訓(xùn)練,會對信息進行打分,將高價值的信息推送給相應(yīng)的用戶。
智能信息云系統(tǒng)采用分層、分系統(tǒng)的設(shè)計思路和組件化的設(shè)計理念,總體架構(gòu)如圖1所示,智能信息云系統(tǒng)主要由信息分析引擎、智能處理引擎、人機交互3部分組成。
(1)信息分析引擎
信息分析引擎是本系統(tǒng)的主要功能子系統(tǒng),提供數(shù)據(jù)采集、智能分析等功能,是本系統(tǒng)信息處理的工具箱,為智能處理引擎提供相應(yīng)的分析能力,包含數(shù)據(jù)采集層、海量數(shù)據(jù)存儲層、智能分析層。
其中,數(shù)據(jù)采集層完成從互聯(lián)網(wǎng)采集非結(jié)構(gòu)化數(shù)據(jù)。接入Web1.0靜態(tài)的網(wǎng)絡(luò)數(shù)據(jù),如招聘網(wǎng)站、文檔共享網(wǎng)站、新聞網(wǎng)站、論壇等;接入社交網(wǎng)絡(luò)數(shù)據(jù)主要是微博、社交網(wǎng)等;接入企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù),如用戶數(shù)據(jù)等。數(shù)據(jù)采集層根據(jù)用戶的訂閱信息進行定向采集,并將采集到的數(shù)據(jù)上傳到分布式文件系統(tǒng)。
智能分析層主要完成對采集的數(shù)據(jù)的處理、分析、挖掘等數(shù)據(jù)分析功能,包含數(shù)據(jù)加工、文本挖掘、社交網(wǎng)絡(luò)分析、個性化推薦4個模塊。智能分析層根據(jù)采集的數(shù)據(jù)以及用戶的訂閱需求對數(shù)據(jù)進行加工處理,完成數(shù)據(jù)到知識的處理過程。
(2)智能處理引擎
智能處理引擎提供語義分析、圖分析、邏輯推理、專家知識庫等功能,采用人工智能相關(guān)算法完成。根據(jù)用戶輸入的信息,結(jié)合專家知識庫、用戶畫像庫,完成對用戶以及用戶需要的信息的準(zhǔn)確定位。
(3)人機交互
人機交互主要完成用戶和信息之間的友好交互過程,本系統(tǒng)提供自動化的推送服務(wù),對于一次訂閱進行增量推送,只要存在用戶感興趣的信息即推送,推送方式支持郵件、微博、頁面查詢等方式。同時,對于企業(yè)用戶,本系統(tǒng)提供統(tǒng)計報表、KPI分析、趨勢預(yù)測等可視化功能,能很好地完成支撐企業(yè)對信息的掌控。
網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則,將分布在不同服務(wù)器和數(shù)據(jù)中心的網(wǎng)頁爬取下來,存儲在本地供本地程序使用。目前,主流的搜索引擎會采用網(wǎng)絡(luò)爬蟲的模式,擴展自己的網(wǎng)頁庫和索引庫。網(wǎng)絡(luò)爬蟲的工作原理:從一個初始的種子URL集合出發(fā),從中獲取一個URL,下載網(wǎng)頁,從此網(wǎng)頁中抽取所有的URL,并將新的URL添加到URL集合中;然后,爬蟲從URL集中獲取另一個URL重復(fù)以上的過程,直到爬蟲達到某種停止標(biāo)準(zhǔn)為止[3]。
網(wǎng)絡(luò)爬蟲的原理是如此簡單,然而設(shè)計一個高性能的網(wǎng)絡(luò)爬蟲是一個挑戰(zhàn)性的工作,一個高性能、可靠的網(wǎng)絡(luò)爬蟲需要考慮以下幾方面。
(1)可伸縮性
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)頁資源會成倍增長,網(wǎng)絡(luò)爬蟲要能適應(yīng)海量數(shù)據(jù)的爬取,并且可以通過增加硬件資源使得爬取性能得以線性提高,并且對爬蟲的程序是透明的。
(2)分布式
集中式單機架構(gòu)已經(jīng)不能滿足當(dāng)前互聯(lián)網(wǎng)的規(guī)模,目前百度、Google等均采用了并行分布式的技術(shù)來解決目前海量數(shù)據(jù)的爬取問題。因此,支持分布式的爬行是當(dāng)前網(wǎng)絡(luò)爬蟲首要解決的問題。
(3)可擴展
爬取的網(wǎng)頁對象千差萬別,尤其是隨著移動互聯(lián)網(wǎng)的發(fā)展,一些社交網(wǎng)站、微博等Web2.0網(wǎng)站的出現(xiàn),需要新的爬取方法才可以獲取網(wǎng)站內(nèi)容,因此在設(shè)計網(wǎng)絡(luò)爬蟲時要考慮通用網(wǎng)頁、垂直網(wǎng)站、特殊網(wǎng)站等多樣性的問題。
(4)爬行策略
海量信息的爬取要有一定的爬取策略,需要考慮重新爬取策略、爬取調(diào)度策略、更新爬取策略、爬取平衡策略等,設(shè)計的網(wǎng)絡(luò)爬蟲要根據(jù)系統(tǒng)的需求和目標(biāo)權(quán)衡選擇相應(yīng)的策略,要保證信息爬取成功以及爬取符合要求的信息。
本文根據(jù)系統(tǒng)需求對網(wǎng)絡(luò)爬蟲進行了個性化的設(shè)計,由調(diào)度控制器、通用網(wǎng)絡(luò)爬取、社交網(wǎng)絡(luò)爬蟲3大子系統(tǒng)組成,整個系統(tǒng)基于云計算平臺Hadoop完成,實現(xiàn)了分布式和并行化,如圖2所示。其中,調(diào)度控制器由智能處理引擎調(diào)度,根據(jù)用戶的訂閱指令,調(diào)度相應(yīng)的爬取策略等。社交網(wǎng)絡(luò)是比較特殊的一類網(wǎng)站,其內(nèi)容的爬取需要采用相應(yīng)網(wǎng)站提供的API進行信息的獲取。
智能處理引擎可以認為是本系統(tǒng)的大腦,它的功能如下:
·分析輸入的用戶請求;
·構(gòu)建任務(wù),并調(diào)度任務(wù)的執(zhí)行;
·對輸出結(jié)果反饋分析,發(fā)現(xiàn)用戶隱含的分析條件,對任務(wù)進行修正;
·記住特定用戶的搜索和分析習(xí)慣,提供個性化的默認分析。
智能處理引擎的基本工作模型如圖3所示。
本系統(tǒng)的使用者為普通的用戶而非專業(yè)技術(shù)人員,因此通過智能處理引擎實現(xiàn)了用戶友好的自然語言接口,如一位HR招聘負責(zé)人提出:“幫我找出最近嵌入式開發(fā)人員的招聘情況?!笔紫仁沁M行自然語言語義分析,找出本句話中的關(guān)鍵詞,分別是“嵌入式開發(fā)人員”和“招聘”。在預(yù)先定義好的Web分類元數(shù)據(jù)中,招聘是一個key。“招聘”說明了數(shù)據(jù)來源,“嵌入式開發(fā)人員”說明了數(shù)據(jù)范圍。之后,系統(tǒng)會下達3個任務(wù):一個是給定向網(wǎng)絡(luò)爬蟲,爬取所有“招聘”網(wǎng)站包含“嵌入式”關(guān)鍵詞的信息;一個給搜索引擎,在已獲取的數(shù)據(jù)集內(nèi),搜索“招聘”和“嵌入式”關(guān)鍵詞;另外一個是數(shù)據(jù)分析任務(wù),待爬蟲將相關(guān)數(shù)據(jù)爬取回來以后,將數(shù)據(jù)按照“嵌入式”以及“嵌入式”的同義詞如embedded、Android、uclinux等進行過濾分析。得到列表向用戶進行推送。用戶訪問系統(tǒng)獲取到任務(wù)執(zhí)行結(jié)果后,可以進一步反饋,如“按地理位置做統(tǒng)計”、“按公司做統(tǒng)計”等,結(jié)果會修正原有的統(tǒng)計任務(wù),生成新的統(tǒng)計任務(wù),并將這個關(guān)鍵詞“地理位置”添加到使用者的畫像庫,用戶使用這個偏好達到一定閾值后,用戶提交類似的新任務(wù)時就會自動增加這一偏好統(tǒng)計。
信息結(jié)果的評分將從多個緯度對查詢或數(shù)據(jù)分析的結(jié)果進行分析。
(1)單詞相關(guān)性評分(S)
指維護一個詞庫以及根據(jù)之前大量的網(wǎng)頁內(nèi)容對詞庫進行分析,構(gòu)建出一個單詞關(guān)系網(wǎng)絡(luò)。計算每兩個單詞在同一句話中出現(xiàn)的概率。根據(jù)關(guān)鍵詞,查詢出與該關(guān)鍵詞相關(guān)的單詞列表,并計算文本中是否存在各關(guān)聯(lián)詞。單詞關(guān)聯(lián)評分標(biāo)準(zhǔn)如圖4所示。
(2)完全匹配度評分(V)
任務(wù)中的各個關(guān)鍵詞,在文章中均有引用,則評分最高。
(3)噪聲信息罰分 (E)
文章中如果大量出現(xiàn)與核心關(guān)聯(lián)次無關(guān)的廣告詞等將被罰分。
每篇文章按照3種評分規(guī)則進行統(tǒng)一積分,并按積分多少進行排序。
除了文章本身的因素,還引入人為反饋機制,監(jiān)控每位使用者閱讀每個詳情頁的時間,來判斷該信息的價值。來源網(wǎng)站價值=Σ(網(wǎng)頁價值)。網(wǎng)站價值越高,則來源于該網(wǎng)站的網(wǎng)頁價值也越高。
設(shè)u=噪音罰分權(quán)重,α=相關(guān)匹配度權(quán)重,β=完全匹配度權(quán)重,γ=來源網(wǎng)站價值,則信任度 f=α×Stotal+β×Vtotal-u×Etotal+γ× Mtotal。
文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識過程,同時運用這些知識更好地組織信息以便用于決策參考。文本挖掘主要是處理大量非結(jié)構(gòu)化、半機構(gòu)化的文本數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)無法處理這些模糊、無固定形式、缺乏機器可理解的含義的文本數(shù)據(jù)。
文本挖掘有不同于傳統(tǒng)數(shù)據(jù)挖掘的處理流程,其主要的處理過程是對大量文檔集合的內(nèi)容進行預(yù)處理、特征提取、分詞、文本摘要、主題發(fā)現(xiàn)、文本聚類、文本分類等。圖5給出了文本挖掘的一般處理過程[4]。
(1)文本預(yù)處理
目前,對文本挖掘的一般處理途徑就是把非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,再利用現(xiàn)有的挖掘技術(shù)進行挖掘,而文本預(yù)處理就是把文本數(shù)據(jù)進行結(jié)構(gòu)化的過程,包含的技術(shù)有中文分詞、實體識別、詞頻統(tǒng)計、特征提取等技術(shù)。
·中文分詞
中文分詞是文本挖掘的基礎(chǔ),屬于自然語言處理技術(shù)的范疇。目前,中文分詞算法有:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法[5]。在目前階段基于字符串的匹配的機械式分詞方法在業(yè)界被廣泛使用,有 ICTCLAS、IK、Paoding等分詞項目。
·實體識別
實體識別主要是識別出文本中的人名、地名等專有名稱和有意義的時間、日期等數(shù)量短語并加以歸類。實體識別技術(shù)是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。實體識別的主要技術(shù)方法有:基于規(guī)則和詞典的方法、基于統(tǒng)計的方法、二者結(jié)合的方法等。本系統(tǒng)采用基于統(tǒng)計的方法,模型采用隱馬爾科夫模型進行訓(xùn)練和識別。
·特征提取
特征提取是文本分類、文本聚類等文本式挖掘算法高效應(yīng)用的前提,文本的高維特征向量對于文本挖掘算法未必全是重要、有意義的,因此特征提取就需要對文本的高維特征進行降維,一般采用的方法有文檔頻率法、信息增益法、互信息法、卡方校驗法等方法。
(2)挖掘分析
文檔轉(zhuǎn)換為向量形式并經(jīng)過特征選擇以后,就可以進行挖掘分析了,一般的挖掘分析技術(shù)包含文本分類、文本聚類、文本摘要提取、文本關(guān)聯(lián)分析和趨勢預(yù)測等技術(shù)。
本系統(tǒng)在設(shè)計文本挖掘的功能中,對以下方面進行了重點考慮:分布式并行,基于云計算平臺Hadoop;結(jié)合用戶使用效果,對挖掘模型進行評價;對整個文本挖掘模塊采用了可插拔的組件化設(shè)計思路,保證系統(tǒng)能方便地接入新的挖掘算法。
文本情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。按照處理文本的粒度情感分析分為詞語級、短語級、句子級、篇章級或文章集合級;按照處理文本的類別分為基于新聞評論的情感分析和基于產(chǎn)品平臺的情感分析[6]。
圖6是本系統(tǒng)對評論進行情感分析的流程。
整個情感分析包含兩個情感分析算法:基于Hownet算法的情感分析算法和基于PageRank算法的情感分析算法。
(1)基于Hownet算法的情感分析算法
基于Hownet算法的情感分析算法主要思想:假設(shè)有k對基準(zhǔn)詞,每對基準(zhǔn)詞包含一個褒義詞和一個貶義詞。褒義基準(zhǔn)詞表示為key_p,貶義基準(zhǔn)詞表示key_n,單詞w的語義傾向值orientation(w)表示,以0作為默認閾值,最終傾向值大于閾值為褒義,小于閾值為貶義。orientation(w)數(shù)值大小代表用戶對w的褒貶程度。單詞w的褒貶程度定義計算式為:
最后根據(jù)計算后的褒貶程度和閾值進行比較,得到詞匯的極性判斷。
(2)基于PageRank算法的情感分析算法
基于PageRank算法的情感分析算法的主要思想:定義圖G=
個性化推薦是根據(jù)用戶的興趣特點、行為向用戶推薦用戶感興趣的信息或產(chǎn)品。個性化推薦解決的問題就是如何在海量信息中發(fā)現(xiàn)用戶感興趣的信息。其形式化的描述為:假設(shè)U是系統(tǒng)中所有用戶(user)的集合,I是系統(tǒng)中所有可以推薦給用戶的對象(item)的集合,如電影、書籍、視頻等。在實際的應(yīng)用之中,U和I的規(guī)模通常都很大,如電子商務(wù)網(wǎng)站Amazon之中的圖書多達200萬本。定義f(u,i)為衡量某推薦對象i對于目標(biāo)用戶u的效用大小的函數(shù)。則個性化推薦系統(tǒng)要解決的問題就是在對象集合I中找到對任意一目標(biāo)用戶u效用最大的對象 i,即:
為了實現(xiàn)個性化推薦的目的,如何選取合適的推薦算法來設(shè)計效用函數(shù)f是推薦系統(tǒng)的核心問題。
常用的推薦算法一般被分為以下3種類別:基于內(nèi)容的推薦(content based)、協(xié)同過濾推薦(collaborative filtering)和組合推薦?;趦?nèi)容的推薦是以項的基本特征和對用戶興趣的描述作為推薦的基礎(chǔ),通過一種比較項之間相似性的方法來給用戶做推薦[4]。協(xié)同過濾推薦,主要是依據(jù)這樣一個前提假設(shè):有著相似歷史記錄的用戶,可以認為他們有著相似的愛好,從而可以把與目標(biāo)用戶相似的用戶喜愛的項推薦給目標(biāo)用戶[3]。而組合推薦框架是為了綜合以上兩種方法的優(yōu)點。
本系統(tǒng)采用的個性化推薦采用組合推薦的方式實現(xiàn)的,同時結(jié)合文本挖掘的結(jié)果,作為推薦公式的因子。
本文從以下3個方面來分析智能信息云的應(yīng)用特點,應(yīng)用并不局限以下3個場景。
(1)政府部門
隨著信息網(wǎng)絡(luò)技術(shù)的快速發(fā)展,Web2.0時代和媒體社會來臨了,借助互聯(lián)網(wǎng)得以反映和體現(xiàn)的輿情也越來越豐富,借助本系統(tǒng)對互聯(lián)網(wǎng)海量信息自動爬取、自動分類聚類、主題檢測、專題聚焦、話題發(fā)現(xiàn)追蹤、傾向性分析,實現(xiàn)對網(wǎng)絡(luò)輿情的感知、輿情態(tài)勢分析、輿情關(guān)聯(lián)主題發(fā)現(xiàn)和分析等,形成簡報、報告、圖表等各種可視化結(jié)果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
(2)企業(yè)
對于企業(yè)來說,情報已經(jīng)成為繼資金、技術(shù)、人才之后的第4種生產(chǎn)要素,在這個充滿競爭和挑戰(zhàn)的時代,誰擁有了充分的、準(zhǔn)確的情報,誰就能夠在決策中立于不敗之地。據(jù)可靠統(tǒng)計,互聯(lián)網(wǎng)上公開的信息占據(jù)了行業(yè)信息的90%以上,如何利用好這些信息,也是企業(yè)亟需解決的問題。本系統(tǒng)能有效地提升企業(yè)的競情能力,幫助企業(yè)采集、分析其所需要的信息。如可以在第一時間收集并自動反饋微博上對該企業(yè)產(chǎn)品的批評或負面評價等信息,能夠幫助企業(yè)完成業(yè)界新產(chǎn)品發(fā)布的統(tǒng)計分析等。
(3)個人用戶
目前個人用戶在互聯(lián)網(wǎng)上尋找自己感興趣的信息,一般都是采用關(guān)鍵字的搜索方式獲取,但是這種方式對個人用戶有以下要求:很準(zhǔn)確地用關(guān)鍵詞描述出自己想要的信息;對于搜索引擎返回的大量、繁瑣的信息網(wǎng)站進行查看、分析、過濾等;必須要自己手工觸發(fā)搜索引擎。本系統(tǒng)可以只需要用戶采用自然語言的方式就可以自動獲取其關(guān)注的高價值信息,并可以實時地郵件或者短信推送信息,達到一次訂閱多次使用的效果。如用戶關(guān)注招聘信息,本系統(tǒng)會實時推送互聯(lián)網(wǎng)上符合用戶期望條件的最新招聘信息。
隨著計算機技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,個人和企業(yè)都陷入了浩瀚的信息海洋,如何從海量的數(shù)據(jù)中挖掘出有價值的信息,一直是業(yè)界亟需解決的難題。本文提出了一種基于云計算技術(shù)構(gòu)建海量數(shù)據(jù)的信息云系統(tǒng)方法,并對所采用的關(guān)鍵技術(shù)進行了闡述,本系統(tǒng)在人工智能和文本挖掘等技術(shù)知識基礎(chǔ)上,創(chuàng)新性地提出了文本挖掘與自然語言、邏輯推理相結(jié)合的方法實現(xiàn)信息的智能處理,并利用現(xiàn)有通信技術(shù)完成用戶個性化的信息推送。本系統(tǒng)可以擴展應(yīng)用到個人、企業(yè)、政府機構(gòu)等多種場景進行信息分析和決策支持。
1 社交網(wǎng)絡(luò)對大數(shù)據(jù)的解構(gòu).http://www.ciotimes.com/infrastructure/sjk/62379.html
2 何恒昌.Web挖掘中信息采集技術(shù)研究與實現(xiàn).北京物資學(xué)院碩士學(xué)位畢業(yè)論文,2010
3 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述.計算機應(yīng)用研究,2007,24(10):26~29
4 袁金鵬,朱東華,李毅等.文本挖掘技術(shù)研究進展.計算機應(yīng)用研究,2006,23(2):1~4
5 許高建,胡學(xué)鋼,王慶人.文本挖掘中的中文分詞算法研究及實現(xiàn).計算機技術(shù)與發(fā)展,2007,17(12):122~124