国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下的文本信息挖掘方法

2017-12-20 13:23:31彭梅
現(xiàn)代電子技術(shù) 2017年23期
關(guān)鍵詞:查準(zhǔn)率大數(shù)據(jù)

彭梅

摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,針對傳統(tǒng)方法存在的問題,提出文本信息挖掘方法。首先提取文本信息術(shù)語,估計(jì)信息內(nèi)容與文本類別間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離得到隸屬度,然后根據(jù)均值密度的中心估計(jì)方法得到文本數(shù)據(jù)集合的平均密度,確定文本信息聚類中心,刪除遠(yuǎn)離文本信息聚類中心的奇異數(shù)據(jù)點(diǎn),實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下文本信息挖掘。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,而且具有較強(qiáng)的可擴(kuò)展性。

關(guān)鍵詞: 大數(shù)據(jù); 文本信息; 信息挖掘; 查準(zhǔn)率

中圖分類號: TN911.1?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號: 1004?373X(2017)23?0123?04

Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.

Keywords: big data; text information; information mining; precision ratio

0 引 言

在當(dāng)今社會(huì)中人們獲取外界信息的渠道更加豐富且獲取方式更加簡單,使得人們每天需要瀏覽以及面對大量的各色信息[1?2]。因此,需要對用戶進(jìn)行文本信息的篩選,挖掘出用戶真正感興趣的文本信息。

現(xiàn)階段的文本信息挖掘技術(shù)不能根據(jù)用戶查詢目的有效地對查詢內(nèi)容進(jìn)行擴(kuò)展,且沒有考慮用戶的興趣愛好以及用戶的技術(shù)層次等差別,不能為用戶提供具有個(gè)性化需求的動(dòng)態(tài)服務(wù)。導(dǎo)致文本信息挖掘?qū)χR(shí)理解能力和處理能力較差的問題,致使文本信息挖掘的精度不高以及文本信息過載和淹沒[3?4]。在這種情況下,如何有效、快速地從海量信息中挖掘出用戶真正需要的信息,成為業(yè)內(nèi)人士亟需解決的重要技術(shù)難題,受到許多有關(guān)專家學(xué)者的高度關(guān)注[5?6]。文獻(xiàn)[7]提出基于用戶興趣的大數(shù)據(jù)環(huán)境下文本信息挖掘方法,該方法挖掘能力的準(zhǔn)確性較高,但存在計(jì)算過程消耗時(shí)間較長的問題。文獻(xiàn)[8]提出基于句法規(guī)則的文本信息挖掘方法,該方法計(jì)算過程較為簡單,但存在文本信息挖掘過程受控于核函數(shù)選擇的問題。文獻(xiàn)[9]提出基于決策樹的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。該方法可以從側(cè)面了解用戶感興趣的文本信息,但存在挖掘能力局限性較大的問題[10?11]。

針對上述問題,本文提出文本信息挖掘方法,結(jié)果表明,該方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時(shí)具有較強(qiáng)的可擴(kuò)展性。

1 大數(shù)據(jù)環(huán)境下的文本信息挖掘方法

2 實(shí)驗(yàn)結(jié)果與分析

為了證明提出大數(shù)據(jù)環(huán)境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)平臺(tái),實(shí)驗(yàn)數(shù)據(jù)來源于UCI語料集。分別利用模糊規(guī)則方法和支持向量機(jī)方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)。將兩種不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的精確度對比,采用查準(zhǔn)率[P](%)作為度量不同方法下文本信息挖掘精度的結(jié)果:

通過對表1進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的查準(zhǔn)率要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息進(jìn)行術(shù)語提取,計(jì)算出新的文本信息內(nèi)容與文本類別之間的余弦距離,結(jié)合模糊規(guī)則推理和余弦距離對文本信息進(jìn)行分類,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度。再根據(jù)均值密度的中心估計(jì)方法計(jì)算出文本信息原始數(shù)據(jù)集合的平均密度,在此基礎(chǔ)上通過對文本信息聚類中心的確定,對文本信息中原始數(shù)據(jù)集合中遠(yuǎn)離聚類中心周圍的稀疏數(shù)據(jù)的奇異點(diǎn)進(jìn)行刪除,使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的挖掘精度較高。

分別利用模糊規(guī)則方法和支持向量機(jī)方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘?qū)嶒?yàn)。對比兩種不同方法進(jìn)行文本信息挖掘的召回率(%),召回率是指自動(dòng)挖掘與用戶搜索相一致的文本信息占用戶搜索信息總數(shù)的比率,體現(xiàn)了文本信息挖掘結(jié)果的完備性。利用對比結(jié)果來比較兩種不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率:endprint

通過對表2進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先結(jié)合數(shù)據(jù)空間中距離累積函數(shù)計(jì)算出大數(shù)據(jù)環(huán)境下文本信息的潛力,再利用余弦距離公式計(jì)算出不同文本信息樣本擁有不同數(shù)量的屬性,在此基礎(chǔ)上通過計(jì)算文本信息數(shù)據(jù)聚類中心,結(jié)合布爾加權(quán)法對文本信息的挖掘方法進(jìn)行定義,得到詞語在文本信息中的加權(quán),使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率較高。

利用對比結(jié)果來衡量不同方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合有效性,對比結(jié)果如圖1所示。

通過對圖1進(jìn)行分析可知,利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能要高于支持向量機(jī)方法,這主要是因?yàn)樵诶媚:?guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息潛力進(jìn)行遞歸,創(chuàng)建出文本信息的新原型,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度,在此基礎(chǔ)上通過計(jì)算沒有被存儲(chǔ)的所有文本信息的分散性,得到以文本信息中所有數(shù)據(jù)點(diǎn)為中心的密度集合,再通過計(jì)算文本信息原始數(shù)據(jù)集合的平均密度,對文本信息中原始數(shù)據(jù)集合中遠(yuǎn)離聚類中心周圍的稀疏數(shù)據(jù)的奇異點(diǎn)進(jìn)行刪除,使得利用模糊規(guī)則方法進(jìn)行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能較優(yōu)。

3 結(jié) 語

針對當(dāng)前方法進(jìn)行文本信息挖掘過程中難以對文本信息中奇異點(diǎn)進(jìn)行刪除,存在文本信息分類特征的準(zhǔn)確性較差,聚類中心迭代初值的選擇較為隨機(jī)的問題,提出一種基于模糊規(guī)則的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效提高文本信息挖掘的查準(zhǔn)率,同時(shí)具有較強(qiáng)的可擴(kuò)展性。

參考文獻(xiàn)

[1] 潘大勝,陳志福,覃煥昌.基于模糊關(guān)聯(lián)迭代分區(qū)的挖掘優(yōu)化方法研究[J].科學(xué)技術(shù)與工程,2016,16(24):235?238.

[2] 陳暉.旋轉(zhuǎn)機(jī)械振動(dòng)故障相似性系數(shù)的優(yōu)化挖掘方法[J].科技通報(bào),2016,32(4):126?129.

[3] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評[J].情報(bào)科學(xué),2016, 34(8):153?159.

[4] 胡海斌.引入特征傾向性的高效網(wǎng)絡(luò)文本數(shù)據(jù)挖掘[J].計(jì)算機(jī)仿真,2015,32(5):436?440.

[5] 朱賀軍,馬丁.海量短文本實(shí)時(shí)挖掘方法的研究與仿真[J].計(jì)算機(jī)仿真,2015,32(12):442?446.

[6] 張世玉,王偉,于躍,等.基于文本挖掘技術(shù)的技術(shù)層面專利組合分析方法優(yōu)化[J].情報(bào)理論與實(shí)踐,2015,38(10):127?129.

[7] 任高舉,白亞男.多媒體智能教學(xué)中特定數(shù)據(jù)挖掘方法研究[J].電子設(shè)計(jì)工程,2016,24(11):4?7.

[8] 邱劍,王慧芳,應(yīng)高亮,等.文本信息挖掘技術(shù)及其在斷路器全壽命狀態(tài)評價(jià)中的應(yīng)用[J].電力自動(dòng)化,2016,40(6):107?112.

[9] 韓文智.計(jì)算機(jī)文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(1):67?70.

[10] 史玉珍,單冬紅.基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法[J].電信科學(xué),2016,32(5):96?104.

[11] 溫浩,溫有奎,王民.基于模式識(shí)別的文本知識(shí)點(diǎn)深度挖掘方法[J].計(jì)算機(jī)科學(xué),2016,43(3):279?284.endprint

猜你喜歡
查準(zhǔn)率大數(shù)據(jù)
海量圖書館檔案信息的快速檢索方法
中國最具影響力的綜合搜索引擎比較研究
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
基于深度特征分析的雙線性圖像相似度匹配算法
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
江北区| 舞阳县| 若尔盖县| 新巴尔虎右旗| 石景山区| 五莲县| 道真| 临潭县| 汶川县| 平山县| 昭通市| 涟水县| 沙田区| 金乡县| 阿克| 兴安盟| 富顺县| 双峰县| 灵山县| 福贡县| 咸丰县| 家居| 泾川县| 汨罗市| 建阳市| 武山县| 海南省| 军事| 龙州县| 广宗县| 惠来县| 黄陵县| 安达市| 林西县| 达日县| 综艺| 四子王旗| 鞍山市| 襄垣县| 康平县| 盈江县|