国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語言處理在網站分類中的應用

2018-05-22 01:17:54中國信息通信研究院產業(yè)與規(guī)劃研究所工程師
信息通信技術與政策 2018年5期

李 曼 中國信息通信研究院產業(yè)與規(guī)劃研究所工程師

1 引言

為了防止在網上從事非法的網站經營活動,打擊不良互聯(lián)網信息的傳播,2005年,工信部(原信息產業(yè)部)公開發(fā)布《非經營性互聯(lián)網信息服務備案管理辦法》(第33號令),要求從事非經營性互聯(lián)網信息服務的網站進行備案登記。據中國互聯(lián)網協(xié)會和國家互聯(lián)網應急中心聯(lián)合發(fā)布的《互聯(lián)網行業(yè)運行指數——中國網站》報告統(tǒng)計,截至2017年年底,我國網站數量達到526.06萬個。網站備案信息是分析信息產業(yè)發(fā)展水平,區(qū)域、行業(yè)信息化水平的重要數據來源之一。但是,由于網站備案機制本身的限制以及歷史數據質量等原因,網站備案信息存在滯后性、準確率低、信息缺失、信息顆粒度大等問題。由于網站數量龐大,通過自動化的方法解決這些問題滿足數據需求是關鍵。

2 需求分析

2.1 問題描述

本文要解決的是網站分類問題,即根據實際業(yè)務需求將多個網站按照一定的標準進行分類。例如,按照行業(yè)劃分為農業(yè)、制造業(yè)、資源、能源的生產和供應、建筑業(yè)、交通郵電、信息傳輸、計算機服務和軟件業(yè)、金融地產租賃、生活服務、教育科研、文體娛樂、公共服務等11類。

2.1 輸入

(1)網站地址列表信息:S={Si},1≤i≤N,其中N表示網站總數、Si表示第i個網站的網站地址。

(2)目標分類信息:C={Ck},1≤k≤M,其中M表示總類別數、Ck表示第k個分類。目標分類信息就是分類參考的標準。

2.2 輸出

分類結果:每個網站對應的目標分類SC={SCi}={Si->C(i)},1≤i≤N,C(i)?C,其中 C(i)表示網站 Si對應的分類。

3 基于自然語言處理的網站分類方法

3.1 總體思路

網站分類是一種利用文本信息的分類問題,其關鍵點主要在于網站特征提取、網站分類算法、訓練集獲取3個方面。在網站特征提取方面,由于網站地址中攜帶的信息量較少,考慮將網站內容作為網站的特征用于網站分類,將網站首頁的關鍵詞作為量化特征。在網站分類算法方面,通常選擇常用的分類算法,但需要根據網站特征定義兩個樣本之間的距離。在訓練集獲取方面,由于沒有現(xiàn)成的訓練集,采用人工標識的方法會耗費大量人力,本文采用分類映射法,即將具備訓練集的細顆粒度分類映射到目標分類,從而可以間接獲取到訓練集。

3.2 網站特征提取

選取網站首頁內容(以下稱“網頁文檔”)的關鍵詞作為網站特征,具體可以采用TF-IDF(Term Frequency-Inverse Document Frequency)方法計算得到。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。其主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。從計算公式來講,TF-IDF=TF×IDF,TF(Term Frequency)表示詞頻,如果一個詞出現(xiàn)在文檔里的頻次越高,則認為該詞越重要,IDF(Inverse Document Frequency)表示逆向文件頻率,如果一個詞出現(xiàn)在文檔的數量越多,則認為該詞越不重要。

采用TF-IDF方法提取網站特征的具體步驟包括統(tǒng)計詞頻、計算TF-IDF值、特征值標準化3個方面。

(1)統(tǒng)計詞頻。通過網頁文檔分詞處理得到網站的詞頻,網站Si的網頁文檔詞頻wordfreqi={(wordij,freqij)},1≤j≤WNi,其中WNi表示網站Si的網頁文檔包含的不同詞語數。

(2)計算TF-IDF值。利用TF-IDF方法計算每個網頁文檔中每個關鍵詞的TF-IDF值,并在按照TF-IDF值在文檔內進行排序,可以根據關鍵詞個數或TF-IDF值大小選取前KWNi個作為網頁文檔的關鍵詞,得到tfidfi={(keywordij,tfidfij)},1≤j≤KWNi,KWNi表示網站Si的網頁文檔關鍵詞的個數。

(3)特征值標準化。將上一步計算得到的TFIDF值進行單位化tij=tfidfij/sqrt(Sj(tfidfij)^2),得到最終的網站特征值ti={(keywordij,wij)},1≤j≤KWNi。

3.3 網站分類算法

本文網站分類算法采用K最近鄰(kNN,k-NearestNeighbor)。kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的k個樣本的類別來決定待分樣本所屬的類別。

kNN算法中需要找到最鄰近的k個樣本,因此我們要定義兩個樣本之間的距離。定義距離的核心思想是如果兩個網頁文檔具有相同的關鍵詞越多,關鍵詞權重分布越接近,則認為兩個文檔越相似,文檔距離越近。具體公式如下:

其中,ti、tj分別是兩個網頁文檔的特征值向量,N(i)、N(j)分別網頁文檔中的關鍵詞數量。

3.4 訓練集獲取

本文采用分類映射法間接獲取訓練集。分類映射法的核心思想是若已知分類方式C1、C2,其中C1的分類顆粒度比C2小,則對目標集進行C2分類時可以采用C1的訓練集。因此,考慮使用公開的細顆粒度網站分類目錄,作為分類算法的訓練數據。

定義目標分類是C2,也就是最終需要的分類方式,把相對細顆粒度的分類C1叫做中間分類,也就是我們根據C1的訓練集訓練模型得到的分類。采用分類映射法后,我們的網站分類在模型訓練過程和模型分類過程均需要進行相應的調整。

(1)模型訓練過程調整。采用C2的訓練集數據得到分類模型。

(2)模型分類過程調整。根據分類模型得到每個網站的中間分類C2,然后根據C2與C1的唯一映射關系得到每個網站的目標分類C1。

4 應用實現(xiàn)

網站分類作為一種大數據分析應用,具有典型的6個環(huán)節(jié)(見圖1),分別是數據采集、數據清洗、數據存儲、數據處理、數據分析、可視化,其中數據采集是確定數據源并且從數據源獲取數據,數據清洗是對數據采集的原始數據中不規(guī)范的內容進行過濾、清洗,數據存儲是通過關系型數據庫、文本數據等不同形式將數據存儲起來,數據處理是數據的基本處理,主要是為了下一步的數據分析做準備,數據分析是為了實現(xiàn)最終的分析目標而進行的業(yè)務層面的數據分析,可視化是應用最終的輸出,可根據業(yè)務實際需求選擇不同的展現(xiàn)方式。本節(jié)主要從這6個環(huán)節(jié)介紹利用前文提出的網站分類方法實現(xiàn)的一個應用案例:針對某省7萬多個備案網站按照行業(yè)分類,共分類11個類別。

4.1 數據采集

(1)網站列表數據。網站列表數據由需求方提供。

(2)網站頁面文檔數據。網站頁面文檔數據通過網站地址爬取所有網站首頁內容(即網頁文檔)獲得。

(3)訓練集數據。訓練集數據經過兩步獲得。首先找到訓練集數據源,然后采用爬蟲的方法獲取訓練集數據,包括網站列表、網站頁面內容以及網站對應的分類。

圖1 網站分類6個環(huán)節(jié)

4.2 數據清洗

(1)網站地址數據清洗。針對網站地址的不規(guī)范情況進行處理,例如將網站的多個網址拆分、將網址統(tǒng)一為以“http://”開頭、去除網址收尾空白符等。

(2)網頁文檔數據清洗。針對數據采集環(huán)節(jié)中獲得的網頁文檔進行內容清洗、提取,具體包括去除網頁文檔中的標簽符、去除首尾空白符、對于無法訪問的網頁進行標記、選擇網頁文檔中的Keyword、Title、Description以及全文內容作為有效內容等。

(3)訓練數據清洗。與網站內容數據做相同方式的清洗。

4.3 數據存儲

采用MySql數據庫存儲數據。目標網站、訓練網站數據分別存儲在Site目標網站表、Sitetrain訓練網站表。

4.4 數據處理

利用中文信息處理方法對網頁文檔進行分詞,統(tǒng)計詞頻。下面以山貓電影(http://www.bobmao.com)為例,其網頁文檔見表1。

(1)中文分詞。使用中文分詞器lucene對網頁文檔進行分詞,根據業(yè)務需求配置自定義詞庫、停用詞,得到網頁文檔的分詞結果,具體參見表2。

(2)統(tǒng)計詞頻。根據網頁文檔分詞結果統(tǒng)計詞頻,具體參見表3。

表1 網頁文檔示例

表2 分詞結果示例

4.5 數據分析

(1)計算特征值。根據前一環(huán)節(jié)詞頻統(tǒng)計結果,進行標準化處理得到特征值,具體參見表4。

(2)進行分類。設置參數k,根據前文中樣本間距離的定義,采用kNN算法進行分類,得到中間分類結果C2。

表3 詞頻統(tǒng)計示例

表4 特征值示例

表5 分類映射關系(部分)

4.6 可視化

(1)定義分類映射關系。根據經驗定義中間分類到目標分類的映射關系,具體參見表5。

(2)輸出結果。根據分類映射法,將中間分類映射到目標分類,以表格形式輸出分類結果。

5 結束語

本文提出了一種基于自然語言處理的網站分類方法,在網站特征提取、網站分類算法以及訓練集獲取等關鍵問題上進行了分析,最后給出基于該方法的應用實現(xiàn)。隨著大數據技術和概念的普及,人們的大數據意識也在不斷提升,將會發(fā)掘出更多的應用場景。

參考文獻

[1]盧衛(wèi)等.互聯(lián)網行業(yè)運行指數報告——中國網站[EB/OL].北京:中國互聯(lián)網協(xié)會,國家計算機網絡應急技術處理協(xié)調中心,2018[2018-01-09].http://index.isc.org.cn/.

[2]中華人民共和國信息產業(yè)部.非經營性互聯(lián)網信息服務備案管理辦法[EB/OL].北京:中華人民共和國信息產業(yè)部令(第33號),2005[2005-02-08].http://www.gov.cn/gongbao/content/2005/content_93018.htm.

[3]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009(z1):167-170,180.

[4]張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005(8):171-172,185.

台州市| 宿迁市| 淮滨县| 林州市| 沁源县| 陕西省| 石家庄市| 定陶县| 巫山县| 绿春县| 新竹县| 高阳县| 信丰县| 宜阳县| 汨罗市| 信阳市| 安徽省| 溆浦县| 东台市| 古浪县| 梧州市| 饶河县| 通辽市| 通渭县| 临高县| 陈巴尔虎旗| 固阳县| 安宁市| 大冶市| 集贤县| 耒阳市| 布尔津县| 三门峡市| 岳普湖县| 东安县| 巴中市| 连山| 渭源县| 古浪县| 苗栗县| 什邡市|