国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大型文本文件特定數(shù)據(jù)快速提取方案

2020-12-28 11:53:14翟瑞霞趙瑞勝
電腦知識(shí)與技術(shù) 2020年31期
關(guān)鍵詞:死機(jī)內(nèi)存

翟瑞霞 趙瑞勝

摘要:在日常工作中,大家都會(huì)經(jīng)常面臨從海量數(shù)據(jù)中提取有用的信息。當(dāng)從上百萬的數(shù)據(jù)中進(jìn)行數(shù)據(jù)提取時(shí),不僅會(huì)引起系統(tǒng)軟件崩潰、還會(huì)導(dǎo)致電腦崩潰,最終使得工作無法繼續(xù)開展下去。本創(chuàng)新方法特針對(duì)該類問題提出了有效的解決方案,為今后遇到同類問題提供了工作思路。

關(guān)鍵詞:CPU;內(nèi)存;死機(jī);軟件無響應(yīng);崩潰

中圖分類號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)31-0053-03

1 創(chuàng)新背景

在日常工作中,在開展數(shù)據(jù)處理工作中,最常見的數(shù)據(jù)提取方法無外乎數(shù)據(jù)篩選,即在海量的數(shù)據(jù)中,根據(jù)需要對(duì)數(shù)據(jù)加以篩選。

在數(shù)據(jù)篩選過程中,很多人接觸到的數(shù)據(jù)無非十幾條、幾十條、多則上千條或過萬條。在小數(shù)據(jù)量篩選中,利用CPU為2GHz/s處理速度、內(nèi)存為2G的計(jì)算機(jī)來說是小菜一碟。然而當(dāng)面對(duì)從百萬、千萬條的記錄中提取數(shù)據(jù)來說,那可不是幾秒鐘,十幾秒能完成的,而且還會(huì)導(dǎo)致內(nèi)存溢出、電腦死機(jī)、軟件無響應(yīng)等問題。針對(duì)這類問題,本文結(jié)合龐大的移動(dòng)話單數(shù)據(jù)提取工作,提出了創(chuàng)新、高效的解決方案。

2 傳統(tǒng)方法

2.1 傳統(tǒng)手段

目前用于數(shù)據(jù)處理主要基于OFFICE軟件中的EXCEL、ACCESS等小型數(shù)據(jù)庫(kù)、數(shù)據(jù)處理軟件開展工作。

傳統(tǒng)方法思路:打開數(shù)據(jù)庫(kù)文件à將文件內(nèi)容全部復(fù)制到EXCEL中à對(duì)文本進(jìn)行預(yù)處理à對(duì)文本進(jìn)行篩選處理,獲取所需要的文本內(nèi)容,以下為利用EXCEL軟件進(jìn)行篩選的傳統(tǒng)方法。

2.1.1 小型話單數(shù)據(jù)的篩選

2.1.1.1 數(shù)據(jù)篩選預(yù)處理

數(shù)據(jù)篩選預(yù)處理,主要是將文件復(fù)制到EXCEL中,根據(jù)文本中字符串的特定分隔符將文本進(jìn)行分割處理:

2.1.1.2 根據(jù)條件篩選

經(jīng)分割,在EXCEL中利用篩選命令工具對(duì)該文本內(nèi)容進(jìn)行篩選,該工作可順利完成:

2.1.2 大型話單數(shù)據(jù)的篩選

第一步:打開要篩選的原始文件:

此時(shí)CPU占用率達(dá)到20%以上:

該文本共有625.3799萬行字符串:

第二步:將該打開的文本復(fù)制到EXCEL中:

1)復(fù)制:從下圖的復(fù)制情況來看,由于數(shù)據(jù)量龐大,導(dǎo)致復(fù)制出錯(cuò),無法進(jìn)行后續(xù)的粘貼、篩選等工作:

2) 粘貼:在復(fù)制粘貼的過程中,由于內(nèi)存溢出,無法完成復(fù)制粘貼的工作:

由上可見在龐大的數(shù)據(jù)量文本中進(jìn)行條件篩選,傳統(tǒng)方法無法實(shí)現(xiàn)。

2.2 傳統(tǒng)手段弊端

通過上面操作方式,傳統(tǒng)方法存在以下的弊?。?/p>

1) 打開龐大的原始數(shù)據(jù)庫(kù)文件耗時(shí)耗資源;

2) 在進(jìn)行預(yù)處理時(shí),將導(dǎo)致電腦CPU、內(nèi)存占用率居高不下,從而引起電腦無響應(yīng)及死機(jī)現(xiàn)象;

3) 在進(jìn)行條件篩選時(shí),將導(dǎo)致軟件無法響應(yīng),出現(xiàn)內(nèi)存溢出,無法完成篩選的命令;

4) 在使用EXCEL等軟件進(jìn)行數(shù)據(jù)的匯總篩選時(shí),會(huì)出現(xiàn)資源不足,無法容納所有數(shù)據(jù)量的問題。

3 創(chuàng)新方法

3.1 創(chuàng)新思路

本創(chuàng)新思路主要是從以下幾方面來開展:

1) 選擇文本所在的路徑,但并不打開文本文件;

2) 將需要篩選的內(nèi)容通過字符串匹配法進(jìn)行提取;

3) 對(duì)提取的文本直接拷貝到EXCEL中即可。

3.2 創(chuàng)新手段

本創(chuàng)新手段主要是借助正則表達(dá)式對(duì)未打開的文本文件進(jìn)行數(shù)據(jù)提取。從而實(shí)現(xiàn)了無須打開文本內(nèi)容便可以將所需要的內(nèi)容取出來,從而實(shí)現(xiàn)了數(shù)據(jù)處理的時(shí)效性與準(zhǔn)確性。

3.3 創(chuàng)新成效

3.3.1 正則表達(dá)式

正則表達(dá)式是對(duì)字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個(gè)“規(guī)則字符串”,通過“規(guī)則字符串”用來實(shí)現(xiàn)對(duì)字符串的過濾。

正則表達(dá)式的特點(diǎn):

1)靈活性、邏輯性和功能性非常的強(qiáng);

2)可以迅速地用極簡(jiǎn)單的方式達(dá)到字符串的復(fù)雜控制。

3)對(duì)于剛接觸的人來說,比較晦澀難懂。

3.3.2 創(chuàng)新案例

在此創(chuàng)新案例中,我們將會(huì)涉及正則表達(dá)式中最為常用的符號(hào):

(1)^:標(biāo)識(shí)字符串的開始

(2){}:表示重復(fù)的次數(shù);

(3)[]:表示篩選所包含的關(guān)鍵字符

(4)():表示一個(gè)字符串組

(5)|:表示或者的意思

創(chuàng)新案例分析

1)案例要求:將如下近4GB的文本文件中的所涉及的特定內(nèi)容過濾出來:

2)文本特點(diǎn):

其特點(diǎn)為數(shù)據(jù)量龐大、每一行為一個(gè)字符串,每一行的字符串中包含數(shù)字、字母、分號(hào)、下標(biāo)點(diǎn),該文本共有600多萬行字符串。

3)篩選要求:篩選第39列為500的字符串:

創(chuàng)新講解:根據(jù)正則表達(dá)式的語(yǔ)法要求,編輯篩選過濾語(yǔ)句為:^12;([0-9a-zA-Z.]*;){37}500;即可將第39列為500的字符串篩選過濾出來。

下圖中所標(biāo)注的黃色即為符合要求的字符串:

4 創(chuàng)新啟示

通過對(duì)大數(shù)據(jù)量的篩選創(chuàng)新可以總結(jié)得到,在日常的工作中,如果遇到了無法通過傳統(tǒng)、常規(guī)的手段解決的問題,都會(huì)給創(chuàng)新帶來新的機(jī)遇,只要大家能夠在平時(shí)多吸取各方面的知識(shí)、結(jié)合豐富的工作經(jīng)驗(yàn),就會(huì)為創(chuàng)新創(chuàng)造條件,創(chuàng)造出新的、寶貴經(jīng)驗(yàn)。經(jīng)過創(chuàng)新得到的經(jīng)驗(yàn),將會(huì)極大地提升工作效率,為實(shí)現(xiàn)創(chuàng)新中國(guó)夢(mèng)提供了一個(gè)前進(jìn)的臺(tái)階。

參考文獻(xiàn):

[1] Jeffrey E·F·Fried.精通正則表達(dá)式[美][M].電子工業(yè)出版社,2007.

【通聯(lián)編輯:李雅琪】

猜你喜歡
死機(jī)內(nèi)存
電腦死機(jī)時(shí)在干什么
提醒
外部高速緩存與非易失內(nèi)存結(jié)合的混合內(nèi)存體系結(jié)構(gòu)特性評(píng)測(cè)
“春夏秋冬”的內(nèi)存
臉?biāo)罊C(jī)了
內(nèi)存搭配DDR4、DDR3L還是DDR3?
基于內(nèi)存的地理信息訪問技術(shù)
筆記本電腦老是死機(jī)是怎么回事?等
計(jì)算機(jī)“死機(jī)”故障原因與排除
上網(wǎng)本為什么只有1GB?
临朐县| 南丰县| 洮南市| 色达县| 海林市| 德昌县| 会泽县| 肃北| 闽清县| 江都市| 南木林县| 济南市| 临潭县| 平顺县| 桂阳县| 嘉鱼县| 侯马市| 友谊县| 八宿县| 阿克| 嘉峪关市| 班玛县| 泽普县| 呼图壁县| 洛扎县| 庆云县| 万载县| 萨嘎县| 蓬莱市| 白河县| 武夷山市| 肇源县| 高州市| 娄烦县| 雷山县| 嘉荫县| 海宁市| 兴业县| 营山县| 清涧县| 枝江市|