国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的應用

2017-04-14 00:51朱振立
電子測試 2017年20期
關鍵詞:信息檢索文檔數(shù)據(jù)挖掘

朱振立

(河北省公安消防總隊,河北石家莊,050081)

數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的應用

朱振立

(河北省公安消防總隊,河北石家莊,050081)

隨著移動互聯(lián)網(wǎng)的普及應用,如何更高效的進行網(wǎng)絡信息檢索來獲取需要的信息便顯得愈發(fā)重要。本文在廓清數(shù)據(jù)挖掘相關概念的基礎上,對數(shù)據(jù)挖掘在網(wǎng)絡信息檢索中的應用進行了重點分析和討論。

數(shù)據(jù)挖掘;網(wǎng)絡信息檢索;應用

0 引言

隨著互聯(lián)網(wǎng)的日益蓬勃發(fā)展,如何從廣袤的網(wǎng)絡信息海洋中提取出有價值的信息、模式和關系,逐漸成為了一門新的領域——數(shù)據(jù)挖掘。作為一門交叉學科,數(shù)據(jù)挖掘融合了信息檢索、互聯(lián)網(wǎng)、數(shù)據(jù)庫、機器學習、自然語言處理等不同的學科,用多樣技術完成具體的數(shù)據(jù)挖掘應用。常見的應用有:垂直搜索、推薦系統(tǒng)、智能問答、機器翻譯、輿情監(jiān)測、情報收集等等,可謂是深入到了我們?nèi)粘I畹姆椒矫婷妗?/p>

1 數(shù)據(jù)挖掘的相關概念

據(jù)不完全統(tǒng)計,現(xiàn)在Web 網(wǎng)站的數(shù)量已經(jīng)突破10億大關,有近1000 億個頁面,數(shù)據(jù)總量約10 萬億PB。而所謂數(shù)據(jù)挖掘,究其根本,就是要從浩如煙海的數(shù)據(jù)中歸納提取總結出我們所需要的知識。數(shù)據(jù)挖掘是從多個學科領域發(fā)展而來的學科,包括但不限于:統(tǒng)計學、人工智能、機器學習、模式識別、數(shù)據(jù)庫系統(tǒng)等等。

數(shù)據(jù)挖掘的任務主要包括兩類,一類是基于一些變量預測其他變量的未知值或未來值,稱為預測型任務,常用的技術是分類(Classification),回歸(Regression)和偏差分析(Deviation Detection)。另一類是發(fā)現(xiàn)描述數(shù)據(jù)的人們可解釋的模式,稱為描述型任務,常用的技術是聚類(Clustering),關聯(lián)規(guī)則挖掘(Association Rule Discovery)和摘要(Summarization)。

為了完成上述任務,整個數(shù)據(jù)挖掘的流程為:獲取數(shù)據(jù)—選擇數(shù)據(jù)—預處理數(shù)據(jù)—數(shù)據(jù)規(guī)整 —數(shù)據(jù)挖掘—模式識別。不同階段會使用不同的技術,但一定要把整個流程走通,數(shù)據(jù)挖掘才有意義。

網(wǎng)絡信息檢索其實是一個很大的主題,但是核心問題其實并不復雜,一是如何去表示信息,二是在這樣的基礎上如何去檢索信息。具體的評價標準是“效果”和“效率”。效果指的是如何準確匹配查詢信息,一般來說會基于檢索模型進行。效率指的是如何快速返回檢索結果,一般來說是基于索引進行的。

2 數(shù)據(jù)挖掘在網(wǎng)絡信息檢索中的應用

2.1 內(nèi)容挖掘

在這個信息爆炸的年代,人們非常需要一個過濾和篩選信息的工具,搜索引擎原來承擔了這個角色,但隨著信息的增多,越來越多的冗余、片面和雜質(zhì)出現(xiàn)了,很多時候我們搜出來了結果,還是不知道要選什么。而且隨著智能手機的普及,傳統(tǒng)的長文章已經(jīng)不適合這樣的新瀏覽模式,也需要發(fā)展挖掘出一些新東西。

內(nèi)容挖掘便是指從網(wǎng)絡中存在的各類發(fā)布內(nèi)容、數(shù)據(jù)、文檔進行挖掘,由于網(wǎng)絡中所包含的信息形式多樣,為了能更全面、更準確的進行數(shù)據(jù)挖掘,一般情況下便采用的是文本挖掘的形式。先將文檔通過自動或手動的方式表現(xiàn)出來,兩種方式各有優(yōu)缺點,手動通常依靠人工進行標注,效果比較可靠,效率較高,但耗費的時間及人力成本較高,無法大批量使用。自動方法最有代表性的是詞袋(Bag of Words)技術,即使用文檔中出現(xiàn)的詞的集合來表示一篇文檔。但容易產(chǎn)生信息缺失的情況。隨后建立文檔索引,這里一個比較有代表性的工具就是Lucene,現(xiàn)在互聯(lián)網(wǎng)上廣為應用的Elasticsearch和Solr都是基于 Lucene的。最后再進行文檔檢索,文檔檢索的思路也很簡單:如果一篇文檔與一個查詢相似,那么該文檔與查詢相關。相似性一般根據(jù)字符串匹配來判定,比方說相似的詞匯或相同的語義。

現(xiàn)在最常用的是向量空間模型(Vector Space Model),其思路是文檔與查詢都是高維空間中的一個向量。用戶自由輸入文本也是一個向量,利用向量空間的相似性進行查詢。

2.2 鏈接挖掘

除了頁面的內(nèi)容本身,超鏈接其實也能提供非常多有價值的信息。一條從頁面A指向頁面B的鏈接表明A與B相關且A 推薦/引用/投票/贊成B。Google 當年最重要的PageRank 算法,其實就是這個問題的最初且最成功的解決方案。

PageRank 采用隨機游走(Random Walk)模型對網(wǎng)頁按照流行度或權威性進行排序,簡單來說就是為圖中的每個節(jié)點 vi計算一個PageRank 值 π(vi),可以看作用戶隨機點擊鏈接將會到達特定網(wǎng)頁的可能性。頁面節(jié)點的PageRank與其父節(jié)點的Rank值成正比,但與其父節(jié)點的出度(out-degree)成反比。除了PageRank外,還有一些網(wǎng)頁排序的算法,比如 Learning to Rank,就是基于學習的方法,比較常見的有 RankSVM、RankNet、ListNet等等。

2.3 觀點挖掘

情感分析與觀點挖掘主要應用于產(chǎn)品比較與推薦、個人與機構聲譽分析、電視節(jié)目滿意度分析、互聯(lián)網(wǎng)輿情分析和反恐與維穩(wěn)。目前很多互聯(lián)網(wǎng)平臺(如淘寶、大眾點評)都已經(jīng)利用這種技術幫助提取用戶評價中的關鍵詞以提供更好的用戶體驗。

觀點挖掘基本的框架主要由這幾方面組成:應用層:情感檢索,情感摘要,情感問答;核心層:情感要素抽取,情感傾向性分析,主客觀分析/觀點文本識別;基礎層:NLP 基本模塊,情感資源收集與標注;來源:產(chǎn)品評論,電影評論,新聞評論,博客,微博。

2.3.1 觀點挖掘分類

而具體應用中,會將文本按照所表達的總體情感進行分類,可能的分類主要有如下三種,一般會從詞、句子、文檔三中粒度來進行分析。主客觀分析/觀點文本識別:客觀:反映關于世界的事實信息;主觀:反映個人情感、信念等。傾向性分析(可看作主客觀分析的細粒度處理):對包含觀點的文本進行傾向性判斷。情緒分析:憤怒、高興、喜好、悲哀、吃驚等等。

2.3.2 觀點挖掘任務

而對于觀點挖掘來說,一個觀點表示為一個五元組:目標對象,目標對象特征,觀點的情感值,觀點持有者,觀點表達時間。實際上,觀點抽取任務是很困難的,我們重點關注兩個子任務:特征抽取與聚類(aspect extraction and grouping),抽取對象的所有特征表達,并將同義特征表達聚類。每個特征類表示了關于該對象的獨一無二的某個特征;特征情感分類(aspect sentiment classification),確定觀點針對每個特征的情感傾向:正面、負面、中性。

3 小結

隨著網(wǎng)絡信息量的增大,如何讓數(shù)據(jù)挖掘更加容易拓展效率更高,如何去挖掘有上下文關系的網(wǎng)絡信息,如何從復雜、異構、網(wǎng)絡化數(shù)據(jù)中挖掘復雜知識及掘高質(zhì)量數(shù)據(jù),并保證網(wǎng)絡信息的安全性和隱私,都是未來數(shù)據(jù)挖掘在網(wǎng)絡信息檢索應用中需要努力的方向。

[1]董慧,唐敏.數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的應用[J].情報雜志,2010, 29(b06):153-156.

[2]胡錦成.Web文本數(shù)據(jù)挖掘關鍵技術及其在網(wǎng)絡檢索中的應用[J].河北工程技術高等??茖W校學報, 2005, 10(2):42-44.

Data mining and its application in network information retrieval

Zhu Zhenli
(Hebei provincial public security fire brigade, Shijiazhuang Hebei, 050081)

With the popularity of mobile Internet applications, it becomes increasingly important to more efficient network information retrieval to obtain the needed information Based mining related concepts in the clearance data, data mining is analyzed and discussed in the application of network information retrieval

data mining; network information retrieval; application

猜你喜歡
信息檢索文檔數(shù)據(jù)挖掘
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
基于RI碼計算的Word復制文檔鑒別
醫(yī)學期刊編輯中文獻信息檢索的應用
基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
教學型大學《信息檢索》公選課的設計與實施