劉 勘,朱芳芳
中南財經(jīng)政法大學(xué) 信息與安全工程學(xué)院,武漢 430073
基于潛在語義索引的科技文獻主題挖掘
劉 勘,朱芳芳
中南財經(jīng)政法大學(xué) 信息與安全工程學(xué)院,武漢 430073
目前,科技文獻的數(shù)量正呈爆炸式增長,這給科技文獻的有效檢索帶來了巨大的挑戰(zhàn),人們花費在文獻檢索上的時間越來越多,卻仍然感到很難快速精確地檢索到所需要的科技文獻。本文引入主題建模的思想,通過對初次檢索的科技文獻集建立詞匯-文獻矩陣,引入潛在語義索引(Latent Semantic Indexing,LSI)方法來降低矩陣的維度,以發(fā)掘這些文獻所蘊含的潛在主題,用戶進而可以根據(jù)這些主題查找所需文獻,大大提高文獻檢索的效率和準(zhǔn)確度。
1983年Gerard Salton和Michael J.McGill[1]提出的LSI是目前常用的潛在主題建模方法。Scott Deerwester等[2]將LSI方法用于檢索分析,假設(shè)文本中的詞與詞之間存在某種潛在的語義結(jié)構(gòu),采用統(tǒng)計方法尋找這些潛在的語義結(jié)構(gòu),用來表示詞、文本和用戶檢索信息,從而達到消除詞與詞之間的相關(guān)性、化簡文本向量的目的。Thomas Hofmann[3]提出的Probabilistic Latent Semantic Indexing是一種基于混合分解的概率統(tǒng)計模型,可用于信息檢索、信息過濾和自然語言處理。Padhraic Smyth[4]提出并行的自動文件索引方法。David Blei等[5]提出的LDA是一種生成離散數(shù)據(jù)集合的三級分層貝葉斯模型。這些主題挖掘方法的中心思想是將從文本提取的主題詞集中的每個詞作為一個主題有限混合模型,而每個主題是無限混合的潛在主題的概率模型,這樣可以通過主題概率建模,將文本映射到主題空間中,得到文本與主題的關(guān)系。
國內(nèi)最早使用LSI進行索引的是化學(xué)資源導(dǎo)航系統(tǒng)ChIN,這是一個基于概念的全文檢索系統(tǒng)[6]。之后被不斷地改進應(yīng)用于文本摘要[7-8]、文本分類[9-12]、文本聚類[13]、文本分析[14-16]等各種領(lǐng)域,并且應(yīng)用范圍不斷增加。各種知識如SVM[10]和Rough[11]等被用來改進LSI得到更好的表示文本的模型。
但是,利用LSI進行主題挖掘時也存在一定的問題:一是LSI主要采用單值分解過程來降維,而LSI中矩陣表示文本時本身存在巨大的稀疏性,如果采用簡單的權(quán)重表示特征詞會使對分類貢獻大的語義可能由于奇異值較小而被過濾;二是LSI挖掘主題時,新加入的文本無法直接計算,挖掘出來的主題不夠緊湊,而且可讀性不高,用戶很難根據(jù)挖掘出來的主題來進行文獻分類檢索。
為了克服以上問題,減小LSI對科技文獻主題挖掘的影響,本文采用一種改進的方法對科技文獻的主題進行挖掘??萍嘉墨I本身的結(jié)構(gòu)是基本固定的,一般由標(biāo)題、摘要、關(guān)鍵詞、正文和結(jié)論組成,考慮到各個特征詞出現(xiàn)的位置不同而對文獻重要性貢獻的不同,采用位置加權(quán)的方法計算權(quán)重,避免了重要特征詞可能被過濾的可能性。同時,根據(jù)Frobenius理論來對稀疏的文本矩陣進行降維,避免了奇異值分解算法的復(fù)雜性,也增強了文本挖掘計算的緊湊性。
3.1 主要思路
本文對科技文獻進行主題挖掘主要分為三個部分,分別是數(shù)據(jù)預(yù)處理、構(gòu)造矩陣和矩陣降維。首先對科技文獻集進行預(yù)處理,刪除無效字符后進行分詞,去除停用詞,構(gòu)造出詞條庫。構(gòu)造矩陣時要先計算詞條庫中特征詞的權(quán)重,然后根據(jù)計算出來的權(quán)重構(gòu)造詞匯-文獻矩陣。矩陣降維時采用改進的LSI算法,先是用線性組合的方法來表示詞匯-文獻矩陣A和詞匯-主題矩陣X和主題-文獻矩陣Y的關(guān)系。主題-文獻矩陣Y開始是隨機生成的,然后分別固定矩陣Y和矩陣 X,循環(huán)計算最后得到穩(wěn)定的矩陣X和矩陣Y,此時的主題-文獻矩陣Y中的每一列就代表了某篇科技文獻的所有主題的概率分布,將其降序排列就可得到這篇科技文獻面向各主題的重要程度,取出排在前面的n個主題(一般n取3~8)即為該文獻的主題詞。具體流程圖如圖1所示。
圖1 科技文獻主題挖掘流程示意圖
3.2 預(yù)處理
數(shù)據(jù)預(yù)處理要進行的操作包括文本字符處理、分詞、去除停用詞、構(gòu)造詞條庫等步驟。
3.2.1 字符處理
存儲在數(shù)據(jù)庫中科技文獻的結(jié)構(gòu)和格式都是有規(guī)則的,并沒有異常值,在進行數(shù)據(jù)預(yù)處理的時候,不需要對文獻進行規(guī)格化處理操作,直接進行數(shù)據(jù)清洗操作。去掉不可以作為特征詞的字符、數(shù)字、連字符和標(biāo)點。
3.2.2 分詞
分詞是將文獻矩陣化處理特有的預(yù)處理步驟,為了提取科技文獻中的文本特征詞,把文獻中的文字切分成有意義的詞,提供給后續(xù)數(shù)據(jù)處理使用。
3.2.3 去除停用詞
停用詞是指在科技文獻中出現(xiàn)頻率太高,但攜帶信息較少,對科技文獻主題挖掘沒有貢獻或者貢獻太小的詞。比如“的,是”等,這時需要對照停用詞表消除這些表現(xiàn)力不強的停用詞。去除停用詞可以節(jié)省存儲空間,降低計算量,使文本特征詞更精煉準(zhǔn)確。
3.2.4 構(gòu)造詞條庫
經(jīng)過上述操作后,對所有科技文獻集中提取出來的特征詞進行統(tǒng)計,排序,然后用這些特征詞構(gòu)造詞條庫。構(gòu)造出的詞條庫中包含了所有的科技文獻和進行預(yù)處理得到的所有特征詞。
3.3 構(gòu)造詞匯-文獻矩陣
3.3.1 科技文獻表示方法
根據(jù)科技文獻集構(gòu)造出了詞條庫以后,首先采用空間向量模型(Vector Space Model,VSM)來表示,將科技文獻看成是一組正交特征詞構(gòu)成的向量a=(a1,a2,…,am),其中,ai為特征詞i的權(quán)值,表示特征詞i在該科技文獻中的重要程度。如果有n個科技文獻,這n個科技文獻總共有m個特征詞,就可以構(gòu)成一個二維的m×n的詞匯-文獻矩陣A。
其中,矩陣A的每一行表示一個特征詞,每一列表示一篇科技文獻,第i行表示第i個特征詞,第 j列表示第 j篇科技文獻,aij表示第i個特征詞在第 j個科技文獻中的權(quán)值。
3.3.2 特征詞權(quán)值計算
在詞匯-文獻矩陣中,矩陣中的每個元素表示這個特征詞在文獻中的重要程度。但是,同一特征詞在科技文獻中出現(xiàn)位置不同而對文獻的貢獻程度不同,在標(biāo)題中最能反映文獻的主題,在摘要、關(guān)鍵字和結(jié)論其次,在正文中次之,而在參考文獻中重要性是最低的。所以,本文采用基于tf-idf的加權(quán)計算方法,考慮特征詞在文獻中出現(xiàn)的位置對權(quán)重的影響,根據(jù)公式(1)計算特征詞的權(quán)重。
其中,tfij代表特征詞i在科技文獻 j中出現(xiàn)的頻率,由特征詞i在科技文獻 j中出現(xiàn)的次數(shù)除以科技文獻 j中的特征詞的總數(shù)計算。idfi代表特征詞i反比于特征詞出現(xiàn)的文本頻數(shù),N表示科技文獻集總數(shù),ni表示含有特征詞i的科技文獻總數(shù),loc表示特征詞在文本中出現(xiàn)的位置。
本文設(shè)定標(biāo)題的位置權(quán)重為2.5,摘要、關(guān)鍵字、結(jié)論的位置權(quán)重為1.5,正文權(quán)重為1。當(dāng)同一個詞匯出現(xiàn)在不同的位置時,則選取該詞匯在文本中出現(xiàn)的位置權(quán)重最高的位置,如當(dāng)詞匯“人工智能”同時出現(xiàn)在標(biāo)題、摘要、關(guān)鍵字、正文和結(jié)論中時,只取該詞匯在標(biāo)題中的權(quán)重,即“人工智能”這個特征詞的loc=2.5。
3.3.3 構(gòu)造詞匯-文獻矩陣
根據(jù)數(shù)據(jù)預(yù)處理得到的詞條庫和特征詞權(quán)值,構(gòu)造出詞匯-文獻矩陣A,矩陣A是一個稀疏矩陣,它表示科技文獻和詞條庫中的特征詞的關(guān)系。
3.4 LSI降維
3.4.1 LSI原理
LSI利用矩陣的奇異值分解來降低矩陣的維度,令A(yù)=LΣRT,其中,LLT=RTR=I,Σ=diag(δ1,δ2,…,δn)。L,R分別稱為矩陣A的左右奇異矩陣,Σ稱為矩陣A的奇異值標(biāo)準(zhǔn)形,Σ的對角元素被稱為A的奇異值。矩陣 Σ是一個秩為r(r<m,n)的對角矩陣,對角線上的奇異值按大小降序排列,并且矩陣中的后m-r行數(shù)據(jù)都為0。LSI取矩陣Σ的前K個最大的奇異值,取L和R最前面的k個列和行來構(gòu)建 A的k-秩近似矩陣 Ak,Ak=LkΣkRT
k,其原理如圖2所示。
圖2 LSI矩陣分解示意圖
圖2中,用Ak近似表示原來矩陣A,矩陣Lk中的行向量代表詞匯矩陣,矩陣Rk中的列向量代表科技文獻矩陣。通過奇異值分解和取k-秩近似矩陣,可以消減原來的詞匯-文獻矩陣A中包含的值為0的“噪聲”因素,減少原矩陣的維度,縮減了向量空間,更加表現(xiàn)出特征詞和科技文獻之間的關(guān)系,提高主題挖掘的效率。
本文處理對象是由科技文獻組成的文檔集,以特征詞在科技文獻中出現(xiàn)的頻率為依據(jù),把這些訓(xùn)練文檔表達為詞匯-文獻矩陣A(word-article),然后采用奇異值分解方法將矩陣A向主題空間進行投影,得到詞匯-主題矩陣 X(word-topic)和主題-文獻矩陣Y(topic-article)。其中,詞匯-主題矩陣X(對應(yīng)于左奇異矩陣)是特征詞的潛在主題矩陣,矩陣中的值表示每個特征詞在潛在主題的權(quán)值,根據(jù)矩陣 X可以得到訓(xùn)練文檔集的主題。主題-文獻矩陣Y(對應(yīng)于右奇異矩陣)是科技文獻在主題空間中的投影,根據(jù)矩陣Y可以看出每個主題在科技文獻中的權(quán)重,就可以得到所有表示文獻的主題,選取其中權(quán)重較高的主題作為科技文獻的主題。
3.4.2 LSI方法的改進
LSI可以提高信息索引的性能,但LSI中必須進行的奇異值分解其計算復(fù)雜度高。本文另外運用一種改進的潛在語義索引方法進行主題建模[17]。這種方法在進行矩陣分解時,引入Frobenius范數(shù)[18],采用線性方法規(guī)則化矩陣得到新的矩陣。
這種改進的LSI方法的主要原理是通過線性組合方法對矩陣進行迭代分解來將詞匯-文獻矩陣A向主題空間進行投影,開始時隨機給定一個主題-文獻矩陣Y,暫時固定這個主題-文獻矩陣Y,根據(jù)公式求出最小化的詞匯-主題矩陣X,然后固定這個已求出的矩陣X,再求出最小化的主題-文獻矩陣Y,反復(fù)迭代這兩個步驟直到最小值不變,得到最終的詞匯-主題矩陣X和主題-文獻矩陣Y。更新X和Y時分別引入Frobenius范數(shù)的1-范式和2-范式來規(guī)則化矩陣,其中,用1-范式規(guī)范詞匯-主題矩陣X,2-范式規(guī)范主題-文檔矩陣Y,使得主題挖掘的范圍擴大了,而且復(fù)雜度也降低了。LSI改進后的主要步驟如下:
步驟1科技文獻的線性表示
如果訓(xùn)練文獻集中有k個主題,則這k個主題可以表示為一個m×k的詞匯-主題矩陣 X=[x1,x2,…,xk],其中,矩陣中的每一列代表一個主題,xi是一個m維的向量,表示第i個主題。用線性組合的方法來表示科技文獻集如公式(2)所示。
其中,yn表示文獻an在主題空間中的投影,ykn表示第k個主題xk在第n篇科技文獻an中的權(quán)值。 ykn的值越大說明主題xk越能代表科技文獻an。Y=[y1,y2,…,yn]是一個k×n的主題-文獻矩陣,第n列 yn表示文獻在潛在主題空間中的投影。
由于用公式(2)來表示文獻集的線性之和是近似值,會產(chǎn)生誤差值,引入范式來約束an與 Xyn的誤差使得誤差值最小,同時引入變量 f1和 f2來規(guī)范公式(2),得到公式(3):
步驟2固定Y,更新X
而由于文獻是相互獨立的,則公式(4)中的m個詞匯是獨立的,每個詞匯是矩陣X中的每一行,可以分成m次運算,其中每次運算可表示為:
其中,m=1,2,…,m。
將式(5)變換成一個可微分的二次函數(shù),對這個二次函數(shù)求導(dǎo)并令它等于0,則可以得到當(dāng)l≠k時(l=1,2,…,n),xmk的最小值,如公式(6)所示。
其中,vij和uij分別是k×k矩陣V=YYT和m×k矩陣U=AYT的第i行第 j列。
步驟3固定X,更新Y
步驟4主題提取
根據(jù)公式(6)和公式(7),迭代更新矩陣X和Y,直到矩陣 X和Y的值穩(wěn)定,得到詞匯-主題矩陣 X和主題-文獻矩陣Y,矩陣Y中的每一列就代表一篇科技文獻的所有主題,對矩陣中的數(shù)據(jù)進行降序排列,然后取權(quán)重最高的主題代表這篇文獻的主題。
4.1 實驗過程
4.1.1 數(shù)據(jù)來源
進行主題挖掘?qū)嶒灂r,詞條庫的建立是非常重要的,在英文詞條庫建立方面,國外已經(jīng)有了REUTER,TREC,OHSUMED等一些標(biāo)準(zhǔn)權(quán)威的語料庫。而在中文詞條庫建立方面,目前還沒有一個權(quán)威的中文文本語料庫。因此,本文搜集了萬方數(shù)據(jù)庫知識服務(wù)平臺上的相關(guān)論文來建立一個詞條庫。實驗中采集了6個主題共800篇科技類文檔,其中人工智能200篇、社交網(wǎng)絡(luò)100篇、數(shù)據(jù)挖掘200篇、推薦系統(tǒng)100篇、下一代網(wǎng)絡(luò)100篇、文本挖掘100篇,詞匯共380 021個。
4.1.2 數(shù)據(jù)預(yù)處理
本文采用Visual Studio2010集成開發(fā)環(huán)境,C#語言進行編程,利用中國科學(xué)院計算技術(shù)研究所的開源中文分詞組件ICTCLAS分詞系統(tǒng)共享版進行中文分詞,分詞后去除停用詞,進行詞頻統(tǒng)計,完成主題挖掘數(shù)據(jù)預(yù)處理過程。預(yù)處理后的結(jié)果如表1所示,然后設(shè)置閾值為2,去除出現(xiàn)頻數(shù)小于2的特征詞,構(gòu)建出詞條庫。
表1 預(yù)處理結(jié)果
4.1.3 生成矩陣
利用權(quán)值計算公式(3),根據(jù)這些特征詞在文中出現(xiàn)的位置計算特征詞的權(quán)值。利用選取的特征詞及其權(quán)值來表示文獻集中的所有文獻,構(gòu)造出詞匯-文獻矩陣如表2所示。
表2 構(gòu)造詞匯-文獻矩陣
4.1.4 對矩陣進行降維分解
取 f1=0.5,f2=1.0,對詞匯-文獻矩陣根據(jù)改進的LSI算法,利用公式(6)和公式(7)進行降維分解,分別生成詞匯-主題矩陣X和主題-文獻矩陣Y如表3所示。
表3 詞匯-主題矩陣X和主題-文獻矩陣Y
4.1.5 主題-文獻矩陣Y的主題進行輸出
根據(jù)矩陣降維后得到的主題-文獻矩陣可以得到每篇文獻的主題,表4表示的是輸出每篇科技文獻的前8個主題詞(GB7713-8規(guī)定每篇文章應(yīng)選取3~8個關(guān)鍵詞,而實驗也證明3~8個特征詞已經(jīng)能夠表現(xiàn)出該科技文獻的主題)。
表4 輸出結(jié)果
由表4可以看出,這里運用改進的LSI方法得到的主題基本可以表達科技文獻的主題,表中的第一列可以得到該文獻的主題是有關(guān)推薦系統(tǒng)的,并且可以看出推薦系統(tǒng)類科技文獻主要研究的是模型、算法和推薦系統(tǒng)的設(shè)計;第二列主題是下一代網(wǎng)絡(luò),這類文獻關(guān)于網(wǎng)絡(luò)協(xié)議以及體系結(jié)構(gòu)的設(shè)計;第三列主題是人工智能,這類主題則主要集中在應(yīng)用及算法和模型的研究;第四列是關(guān)于數(shù)據(jù)挖掘的主題,數(shù)據(jù)挖掘類科技文獻集中在算法的研究與模型的應(yīng)用上。
4.2 測試結(jié)果
實驗中還將本文的方法與常規(guī)的LSI方法以及主題挖掘中常用的LDA方法進行了比較,得到了相應(yīng)的結(jié)果,同時用實驗挖掘出來的主題和人工統(tǒng)計出來的主題進行對比來衡量各方法的準(zhǔn)確率,其結(jié)果如表5所示。
表5 測試結(jié)果
由表5可以看出,改進的LSI方法具有較高的準(zhǔn)確率。相同數(shù)量的文獻,含有更多專業(yè)詞匯,且與主題相關(guān)的特征詞出現(xiàn)在標(biāo)題等權(quán)重較高位置的科技文獻,主題會更明顯,更容易被挖掘。而對于文本挖掘這類主題不明確的科技文獻中,有一些主題詞在文獻的標(biāo)題表述中沒有出現(xiàn),所以權(quán)重計算的時候,主題詞的權(quán)值小于在標(biāo)題中出現(xiàn)的特征詞,而使得最后主題表示的時候沒有被采用,導(dǎo)致沒有挖掘出這個主題。
本文研究了潛在語義索引方法對科技文獻進行主題挖掘的方法,嘗試了其中的改進方法,降低了LSI奇異值計算的復(fù)雜度,應(yīng)用Frobenius范數(shù)理論對文獻矩陣降維,簡化了計算的難度,減少了部分噪音,簡化了計算的過程,能更快地表示原始科技文獻空間中的潛在語義結(jié)構(gòu)。但是利用LSI方法進行科技文獻的主題挖掘還處在初步的實驗階段,實驗中刪除的特征詞可能會影響后期的主題提取,最后得到的結(jié)果其精度還不是特別令人滿意,其中的原因值得探討,也是下一步工作的重點。
[1]Salton G,McGill M J.Introduction to modern information retrieval[M].New York:McGraw-Hill,1983.
[2]Deerwester S,Dumais S T,F(xiàn)urnas G W,et al.Indexing by latent semantic analysis[J].J AM SOC INFORM SCI,1990,41:960-972.
[3]Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval,1999:50-57.
[4]Asuncion A U,Smyth P,Welling M.Asynchronous distributed estimation of topic models for document analysis[J]. Statistical Methodology,2011,8(1):3-17.
[5]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[6]李曉霞,郭力.ChIN化學(xué)化工資源導(dǎo)航系統(tǒng)的新進展[J].計算機與應(yīng)用化學(xué),2002,19(1):139-143.
[7]林鴻飛,高仁璟.基于潛在語義索引的文本摘要方法[J].大連理工大學(xué)學(xué)報,2001,41(6):744-748.
[8]陳戈,段建勇,陸汝占.基于潛在語義索引和句子聚類的中文自動文摘[J].計算機仿真,2008,25(7):82-85.
[9]曾雪強,王明文,陳素芬.一種基于潛在語義結(jié)構(gòu)的文本分類模型[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2004,32(z1):99-102.
[10]郭武斌,周寬久,張世榮.基于潛在語義索引的SVM文本分類模型[J].情報學(xué)報,2009,28(6):827-833.
[11]何明,馮博琴,傅向華.基于Rough集潛在語義索引的Web文檔分類[J].計算機工程,2004,30(13).
[12]張秋余,劉洋.使用基于SVM的局部潛在語義索引進行文本分類[J].計算機應(yīng)用,2007,27(6):1382-1384.
[13]陳毅恒,秦兵,劉挺,等.基于潛在語義索引和自組織映射網(wǎng)的檢索結(jié)果聚類方法[J].計算機研究與發(fā)展,2009,46(7):1176-1183.
[14]林鴻飛,戰(zhàn)學(xué)剛,姚天順.基于潛在語義索引的文本分析方法[J].模式識別與人工智能,2000,13(1):47-51.
[15]王瑛.基于VSM的潛在語義索引[J].陜西科技大學(xué)學(xué)報:自然科學(xué)版,2010,28(5):151-158.
[16]楊雪敏,張毅坤,崔穎安.基于LSI的代碼-文檔可追溯關(guān)聯(lián)挖掘研究[J].計算機工程,2011,37(8):34-36.
[17]Wang Q,Xu J,Li H,et al.Regularized latent semantic indexing[C]//Proceedings of SIGIR’11,Beijing,2011:978-988.
[18]方保镕,周繼東,李醫(yī)民.矩陣論[M].北京:清華大學(xué)出版社,2004:158-167.
LIU Kan,ZHU Fangfang
School of Information and Safety Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China
Based on a method improved by Latent Semantic Indexing,a topic mining for scientific papers is proposed. This paper describes a process which is used to mine the topics of the scientific papers.It performs conversion,removes non-alphabetic and stop word before further processing.It constructs the term-document matrix based on all words’weight. It uses modified LSI algorithm to cut the dimension of the matrix and gets a new topic-document matrix.It takes the highest weight of the top five themes as the papers’topic.This method utilizes the Frobenius norm to regulate matrix,reducing the dimension of the matrix.So the theme of the scientific papers can be mined quickly and accurately.
latent semantic indexing;topic modeling;scientific documents
提出了一種基于潛在語義的科技文獻主題挖掘方法,描述了科技文獻的主題挖掘模型。對科技文獻集進行預(yù)處理,計算特征詞權(quán)重,構(gòu)造出詞匯-文獻矩陣。用改進的LSI算法對稀疏矩陣進行降維得到固定的主題-文獻矩陣。取權(quán)重最高的主題作為該文獻的主題。該方法利用Frobenius范數(shù)來規(guī)范矩陣,對稀疏矩陣進行降維,可以快速精確地挖掘出科技文獻的主題。
潛在語義索引;主題挖掘;科技文獻
A
TP311
10.3778/j.issn.1002-8331.1305-0146
LIU Kan,ZHU Fangfang.Research of topic mining for scientific papers based on LSI.Computer Engineering and Applications,2014,50(24):113-117.
國家自然科學(xué)基金(No.71203164)。
劉勘,男,博士,副教授,研究領(lǐng)域為數(shù)據(jù)挖掘、語義檢索、信息可視化等;朱芳芳,女,碩士研究生,研究領(lǐng)域為文本挖掘。E-mail:lkan@sina.com
2013-05-14
2013-06-30
1002-8331(2014)24-0113-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-04,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.014.html