彭梅
摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,針對傳統(tǒng)方法存在的問題,提出文本信息挖掘方法。首先提取文本信息術(shù)語,估計(jì)信息內(nèi)容與文本類別間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離得到隸屬度,然后根據(jù)均值密度的中心估計(jì)方法得到文本數(shù)據(jù)集合的平均密度,確定文本信息聚類中心,刪除遠(yuǎn)離文本信息聚類中心的奇異數(shù)據(jù)點(diǎn),實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下文本信息挖掘。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,而且具有較強(qiáng)的可擴(kuò)展性。
關(guān)鍵詞: 大數(shù)據(jù); 文本信息; 信息挖掘; 查準(zhǔn)率
中圖分類號: TN911.1?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號: 1004?373X(2017)23?0123?04
Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.
Keywords: big data; text information; information mining; precision ratio
0 引 言
在當(dāng)今社會(huì)中人們獲取外界信息的渠道更加豐富且獲取方式更加簡單,使得人們每天需要瀏覽以及面對大量的各色信息[1?2]。因此,需要對用戶進(jìn)行文本信息的篩選,挖掘出用戶真正感興趣的文本信息。
現(xiàn)階段的文本信息挖掘技術(shù)不能根據(jù)用戶查詢目的有效地對查詢內(nèi)容進(jìn)行擴(kuò)展,且沒有考慮用戶的興趣愛好以及用戶的技術(shù)層次等差別,不能為用戶提供具有個(gè)性化需求的動(dòng)態(tài)服務(wù)。導(dǎo)致文本信息挖掘?qū)χR(shí)理解能力和處理能力較差的問題,致使文本信息挖掘的精度不高以及文本信息過載和淹沒[3?4]。在這種情況下,如何有效、快速地從海量信息中挖掘出用戶真正需要的信息,成為業(yè)內(nèi)人士亟需解決的重要技術(shù)難題,受到許多有關(guān)專家學(xué)者的高度關(guān)注[5?6]。文獻(xiàn)[7]提出基于用戶興趣的大數(shù)據(jù)環(huán)境下文本信息挖掘方法,該方法挖掘能力的準(zhǔn)確性較高,但存在計(jì)算過程消耗時(shí)間較長的問題。文獻(xiàn)[8]提出基于句法規(guī)則的文本信息挖掘方法,該方法計(jì)算過程較為簡單,但存在文本信息挖掘過程受控于核函數(shù)選擇的問題。文獻(xiàn)[9]提出基于決策樹的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。該方法可以從側(cè)面了解用戶感興趣的文本信息,但存在挖掘能力局限性較大的問題[10?11]。
針對上述問題,本文提出文本信息挖掘方法,結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時(shí)具有較強(qiáng)的可擴(kuò)展性。
1 大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
2 實(shí)驗(yàn)結(jié)果與分析
為了證明提出大數(shù)據(jù)環(huán)境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)平臺(tái),實(shí)驗(yàn)數(shù)據(jù)來源于UCI語料集。分別利用模糊規(guī)則方法和支持向量機(jī)方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)。將兩種不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的精確度對比,采用查準(zhǔn)率[P](%)作為度量不同方法下文本信息挖掘精度的結(jié)果:
通過對表1進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的查準(zhǔn)率要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息進(jìn)行術(shù)語提取,計(jì)算出新的文本信息內(nèi)容與文本類別之間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離對文本信息進(jìn)行分類,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度。再根據(jù)均值密度的中心估計(jì)方法計(jì)算出文本信息原始數(shù)據(jù)集合的平均密度,在此基礎(chǔ)上通過對文本信息聚類中心的確定,對文本信息中原始數(shù)據(jù)集合中遠(yuǎn)離聚類中心周圍的稀疏數(shù)據(jù)的奇異點(diǎn)進(jìn)行刪除,使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的挖掘精度較高。
分別利用模糊規(guī)則方法和支持向量機(jī)方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)。對比兩種不同方法進(jìn)行文本信息挖掘的召回率(%),召回率是指自動(dòng)挖掘與用戶搜索相一致的文本信息占用戶搜索信息總數(shù)的比率,體現(xiàn)了文本信息挖掘結(jié)果的完備性。利用對比結(jié)果來比較兩種不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率:endprint
通過對表2進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先結(jié)合數(shù)據(jù)空間中距離累積函數(shù)計(jì)算出大數(shù)據(jù)環(huán)境下文本信息的潛力,再利用余弦距離公式計(jì)算出不同文本信息樣本擁有不同數(shù)量的屬性,在此基礎(chǔ)上通過計(jì)算文本信息數(shù)據(jù)聚類中心,結(jié)合布爾加權(quán)法對文本信息的挖掘方法進(jìn)行定義,得到詞語在文本信息中的加權(quán),使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率較高。
利用對比結(jié)果來衡量不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合有效性,對比結(jié)果如圖1所示。
通過對圖1進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息潛力進(jìn)行遞歸,創(chuàng)建出文本信息的新原型,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度,在此基礎(chǔ)上通過計(jì)算沒有被存儲(chǔ)的所有文本信息的分散性,得到以文本信息中所有數(shù)據(jù)點(diǎn)為中心的密度集合,再通過計(jì)算文本信息原始數(shù)據(jù)集合的平均密度,對文本信息中原始數(shù)據(jù)集合中遠(yuǎn)離聚類中心周圍的稀疏數(shù)據(jù)的奇異點(diǎn)進(jìn)行刪除,使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能較優(yōu)。
3 結(jié) 語
針對當(dāng)前方法進(jìn)行文本信息挖掘過程中難以對文本信息中奇異點(diǎn)進(jìn)行刪除,存在文本信息分類特征的準(zhǔn)確性較差,聚類中心迭代初值的選擇較為隨機(jī)的問題,提出一種基于模糊規(guī)則的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時(shí)具有較強(qiáng)的可擴(kuò)展性。
參考文獻(xiàn)
[1] 潘大勝,陳志福,覃煥昌.基于模糊關(guān)聯(lián)迭代分區(qū)的挖掘優(yōu)化方法研究[J].科學(xué)技術(shù)與工程,2016,16(24):235?238.
[2] 陳暉.旋轉(zhuǎn)機(jī)械振動(dòng)故障相似性系數(shù)的優(yōu)化挖掘方法[J].科技通報(bào),2016,32(4):126?129.
[3] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評[J].情報(bào)科學(xué),2016, 34(8):153?159.
[4] 胡海斌.引入特征傾向性的高效網(wǎng)絡(luò)文本數(shù)據(jù)挖掘[J].計(jì)算機(jī)仿真,2015,32(5):436?440.
[5] 朱賀軍,馬丁.海量短文本實(shí)時(shí)挖掘方法的研究與仿真[J].計(jì)算機(jī)仿真,2015,32(12):442?446.
[6] 張世玉,王偉,于躍,等.基于文本挖掘技術(shù)的技術(shù)層面專利組合分析方法優(yōu)化[J].情報(bào)理論與實(shí)踐,2015,38(10):127?129.
[7] 任高舉,白亞男.多媒體智能教學(xué)中特定數(shù)據(jù)挖掘方法研究[J].電子設(shè)計(jì)工程,2016,24(11):4?7.
[8] 邱劍,王慧芳,應(yīng)高亮,等.文本信息挖掘技術(shù)及其在斷路器全壽命狀態(tài)評價(jià)中的應(yīng)用[J].電力自動(dòng)化,2016,40(6):107?112.
[9] 韓文智.計(jì)算機(jī)文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(1):67?70.
[10] 史玉珍,單冬紅.基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法[J].電信科學(xué),2016,32(5):96?104.
[11] 溫浩,溫有奎,王民.基于模式識(shí)別的文本知識(shí)點(diǎn)深度挖掘方法[J].計(jì)算機(jī)科學(xué),2016,43(3):279?284.endprint