高榮 孫忱
摘 要:煙葉質(zhì)量受多種因素的影響,為實現(xiàn)煙葉質(zhì)量分析、預(yù)測和預(yù)警的平臺,設(shè)計并實現(xiàn)了基于大數(shù)據(jù)分析和云計算技術(shù)的Web大數(shù)據(jù)挖掘平臺,通過采集抓取互聯(lián)網(wǎng)上涵蓋煙葉的整個種植周期的煙葉種植區(qū)氣候、環(huán)境、土壤、病蟲害等信息,輔以其他檢測數(shù)據(jù),利用大數(shù)據(jù)分析技術(shù)評估和預(yù)測煙葉的質(zhì)量。應(yīng)用效果表明,利用大數(shù)據(jù)算法對影響煙葉質(zhì)量的互聯(lián)網(wǎng)數(shù)據(jù)進行挖掘分析,不僅可以用較小的人力物力完成更大覆蓋區(qū)域的全面的煙葉質(zhì)量評估,還可實現(xiàn)質(zhì)量預(yù)測預(yù)警,為卷煙生產(chǎn)提供保障。
關(guān)鍵詞:煙葉質(zhì)量評估;大數(shù)據(jù);Web數(shù)據(jù)挖掘
中圖分類號:TS46
煙葉是卷煙工業(yè)企業(yè)生存和發(fā)展的基礎(chǔ),是對卷煙產(chǎn)品的發(fā)展具有制約作用的重要資源。煙葉的品質(zhì)、產(chǎn)量水平受氣溫、大氣環(huán)境條件、土壤以及病蟲害等生態(tài)條件和生產(chǎn)措施因素的影響,而煙葉原料的采購又具有范圍廣、數(shù)量大、種類多、結(jié)構(gòu)寬等特點。為保證煙葉的質(zhì)量,需要對煙葉種植的整個周期進行監(jiān)控。傳統(tǒng)的方式需要依靠現(xiàn)場實地抽檢、監(jiān)測,有著耗費人力物力比較大、收集到的信息量比較少、覆蓋的種植區(qū)域比較小、最終數(shù)據(jù)匯總和處理比較困難、企業(yè)之間數(shù)據(jù)互通比較困難等缺點。
隨著全球信息化和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了海量的數(shù)據(jù)信息。大量的非結(jié)構(gòu)化的天氣信息、溫濕度信息、病蟲害的預(yù)報、土壤情況等信息都可以直接從互聯(lián)網(wǎng)上采集到,利用這些數(shù)據(jù)來進行分析和預(yù)測,就是大數(shù)據(jù)處理技術(shù)的應(yīng)用。建立基于大數(shù)據(jù)的煙葉種植質(zhì)量評估平臺,可以避免傳統(tǒng)監(jiān)控方式的缺點,更快速、有效、準確的實現(xiàn)煙葉質(zhì)量分析、預(yù)測、預(yù)警,從而為卷煙生產(chǎn)提供更好的保障和條件。
1 系統(tǒng)架構(gòu)
1.1 大數(shù)據(jù)分析與云計算技術(shù)
大數(shù)據(jù)分析是從種類繁多的海量數(shù)據(jù)中,快速獲得有價值信息的一種技術(shù),它是商業(yè)智能的演進,正在改變世界的各個領(lǐng)域,從商業(yè)到醫(yī)療衛(wèi)生、政府機構(gòu)、農(nóng)業(yè)和經(jīng)濟領(lǐng)域、人文以及社會的各個領(lǐng)域。大數(shù)據(jù)分析的特點在于能夠利用全部數(shù)據(jù),而不是僅僅依靠隨機采樣的一小部分樣本數(shù)據(jù)[1-2],因為可以收集、存儲和分析所有的相關(guān)數(shù)據(jù)信息,就不會受到樣本集小、樣本有偏差或者隨機性不夠所帶來的分析誤差的影響,從而可以獲得更準確合理的分析結(jié)果。目前已經(jīng)出現(xiàn)了很多利用大數(shù)據(jù)進行分析和預(yù)測的例子。例如,谷歌利用聚合搜索數(shù)據(jù)對流感進行跟蹤,可達到接近實時的效率和非常高的準確度[3]。后面探討如何利用從互聯(lián)網(wǎng)采集到的各種非結(jié)構(gòu)化信息,結(jié)合企業(yè)自有的煙葉檢測、采購數(shù)據(jù),分析和預(yù)測收獲時煙葉質(zhì)量的方法。
大數(shù)據(jù)分析通常基于云計算平臺實現(xiàn),因為實時的大型數(shù)據(jù)集的分析需要非常強有力而又彈性可擴展的計算能力,云計算平臺正好適應(yīng)了這種需求。云計算是一種成本低的分布式并行計算環(huán)境,可以適應(yīng)規(guī)模不同的數(shù)據(jù),開發(fā)方便,向用戶屏蔽了底層的技術(shù)細節(jié),節(jié)點加載、數(shù)據(jù)的劃分和任務(wù)調(diào)度無需用戶考慮。使用云計算可以在不增加現(xiàn)有設(shè)備的情況下大幅度提高數(shù)據(jù)處理的規(guī)模和效率,節(jié)點的擴充非常方便,系統(tǒng)可以自動處理失敗的節(jié)點,容錯性能比較好。
1.2 平臺框架
設(shè)計并實現(xiàn)了一個統(tǒng)一的基于云計算的可以靈活擴展的大數(shù)據(jù)處理平臺(BDAP,Big-Data Analysis Platform),能夠?qū)崿F(xiàn)數(shù)據(jù)采集、實時分析,批量處理和數(shù)據(jù)導(dǎo)出等功能。平臺具有以下特性:
(1)可從不同的數(shù)據(jù)源(Web數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫等等)以很高的吞吐能力把數(shù)據(jù)存儲在基于Hadoop的大數(shù)據(jù)中心中;
(2)可對實時數(shù)據(jù)做流分析;
(3)支持工作流管理,工作流支持與標準的企業(yè)信息系統(tǒng)或者是Hadoop操作進行交互;
(4)支持高效率的數(shù)據(jù)導(dǎo)出,可以把數(shù)據(jù)導(dǎo)出到NoSQL數(shù)據(jù)庫或者關(guān)系數(shù)據(jù)庫;
(5)支持不同數(shù)據(jù)源數(shù)據(jù)的協(xié)同分析。
該平臺框架如圖1所示:
整個平臺由數(shù)據(jù)層、大數(shù)據(jù)處理層、管理層三部分組成,平臺由數(shù)據(jù)流驅(qū)動,數(shù)據(jù)層負責將各種數(shù)據(jù)來源以流的方式提供給中間的大數(shù)據(jù)處理層;大數(shù)據(jù)處理層是建立在云計算平臺之上的,負責對數(shù)據(jù)層傳入的數(shù)據(jù)流進行分析處理,處理之后的數(shù)據(jù)由管理層展現(xiàn)給終端用戶。
在BDAP平臺的基礎(chǔ)上,結(jié)合煙葉種植質(zhì)量評估的需求,設(shè)計了具體的實施方案和關(guān)鍵算法,形成了基于大數(shù)據(jù)的煙葉種植質(zhì)量評估平臺(BDAP-TQ,Big-Data Analysis Platform for Tobacco Quality),下面將介紹該平臺的技術(shù)實現(xiàn)細節(jié)。
2 技術(shù)實現(xiàn)
2.1 數(shù)據(jù)層實現(xiàn)
數(shù)據(jù)層實現(xiàn)數(shù)據(jù)采集和清理的功能,采用web界面的調(diào)度平臺,實時監(jiān)控云平臺上的爬蟲運行狀況。獲取的數(shù)據(jù)分類存入Hadoop分布式文件系統(tǒng)(HDFS)中或者數(shù)據(jù)庫中,可以采集到瀏覽器能瀏覽的結(jié)構(gòu)化和非結(jié)構(gòu)化的內(nèi)容,支持各種頁面類型。數(shù)據(jù)層基于云計算平臺,可以根據(jù)數(shù)據(jù)抓取的資源需求進行彈性擴展,具有高效的信息處理技術(shù),可以準確獲取系統(tǒng)所需求的內(nèi)容。數(shù)據(jù)層的實現(xiàn)框架如圖2所示:
關(guān)于采集數(shù)據(jù)的選擇過濾,主要是對氣象、大氣、土壤、病蟲害等信息進行提取,這是因為:
(1)煙葉的質(zhì)量和產(chǎn)量受環(huán)境條件和生產(chǎn)措施的影響,從煙草品質(zhì)來看,對氣溫條件的要求是前期較低,中期較高,氣溫過高和過低對煙葉質(zhì)量影響都很大[4]。
(2)大氣環(huán)境條件也是影響煙葉質(zhì)量的重要條件之一,重金屬鉛在環(huán)境中容易污染植物葉片,作物中鉛的含量富集程度以葉最高。作物中鉛含量的調(diào)查表明,靠近公路兩側(cè)的作物的鉛含量遠遠高于遠離公路的作物,大氣中的鉛含量決定了農(nóng)作物中的鉛含量水平[5]。
(3)土壤是優(yōu)質(zhì)煙葉生產(chǎn)的基礎(chǔ),土壤因素與煙葉的品質(zhì)和產(chǎn)量密切相關(guān)。隨著吸煙與健康研究的深入開展,人們越來越關(guān)注煙葉含有重金屬的問題,煙葉重金屬的含量和其他作物有一定的相關(guān)性,因此可以通過互聯(lián)網(wǎng)上大量的其他作物的重金屬情況結(jié)合GIS進行關(guān)聯(lián)性分析,可以得出種植區(qū)域煙葉重金屬含量情況。
(4)煙草病蟲害的爆發(fā),會導(dǎo)致煙葉品質(zhì)和產(chǎn)量降低。要實現(xiàn)優(yōu)質(zhì)煙葉生產(chǎn),需要認真防治病蟲害。在煙草從種植到生產(chǎn)的整個過程中,不論是鮮煙葉、調(diào)制后的煙葉或者是成品煙葉隨時都有可能遭受到病蟲害的損害,這將給煙農(nóng)、煙草工商業(yè)帶來巨大的損失。因此,煙草病蟲害的防治是保證煙葉產(chǎn)量,提高煙葉質(zhì)量,發(fā)展煙草生產(chǎn)的重要任務(wù)。
這些通過互聯(lián)網(wǎng)采集到的信息,經(jīng)過清理加工,得到模型化的數(shù)據(jù)存入HDFS中,再配合上企業(yè)原有的煙葉收購檢測數(shù)據(jù),就實現(xiàn)了數(shù)據(jù)層所需要的功能。
2.2 大數(shù)據(jù)處理層實現(xiàn)
要對數(shù)據(jù)層采集到的氣象、環(huán)境、土壤、病蟲害等數(shù)據(jù)進行處理分析,以得到煙葉種植質(zhì)量的評估預(yù)測結(jié)果。評估算法以關(guān)聯(lián)模型為基礎(chǔ)[6-7],首先作如下模型定義:
設(shè)歷年不同地點氣象、大氣、土壤、病蟲害等數(shù)據(jù)的向量為X,煙葉檢測質(zhì)量數(shù)據(jù)的向量為Y,元組(X,Y)=X∪Y,對任意向量 ,定義I的支持度Supp(I)=Count(I),其中Count(I)表示I在向量集合{(X,Y)}中出現(xiàn)的次數(shù);對任意向量 ,定義Xi→Yi的關(guān)聯(lián)可信度為Conf(Xi→Yi)/Supp(Xi);設(shè)可信度閾值為λ,定義關(guān)聯(lián)規(guī)則集合為{Xk→Yk}={Xk,Yk} where Conf(Xk→Yk)≥λ。
分析處理的算法流程如下:
(1)由數(shù)據(jù)層采集清理得到歷年各地數(shù)據(jù)的向量集合{(X,Y)};
(2)選擇閾值λ,計算規(guī)則集合{Xk→Yk},其中的{Xk}為條件集合;
(3)對欲評估的當前條件數(shù)據(jù)x,計算其與集合{Xk}中各向量的Jaccard相似度Sim(x,Xk)=|x∩Xk|/|x∪Xk|,并記Xm為使得Sim(x,Xm)=min{Sim(x,Xk)}的條件向量;
(4)取滿足規(guī)則(Xm→Ym)∈{Xk→Yk}的Ym,即為評估預(yù)測結(jié)果。
由于以上處理均為大數(shù)據(jù)量計算和存儲,所以本層是建立在基于Hadoop和MapReduce框架的云計算平臺之上的,使用了分布式存儲與并行計算技術(shù),從而能夠通過低成本的基礎(chǔ)單元節(jié)點完成高性能的處理任務(wù)。
2.3 管理層實現(xiàn)
管理層整體框架基于SOA設(shè)計,可以根據(jù)需要增加新的服務(wù)模塊,前臺為基于HTML5的響應(yīng)式Web設(shè)計,內(nèi)容布局能隨用戶使用顯示器的不同而變化,支持從移動終端進行訪問,可以通過Web前臺定制大數(shù)據(jù)挖掘的工作流,支持處理過的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫,可以通過Web界面檢索數(shù)據(jù)分析的結(jié)果,并且實現(xiàn)了決策支持系統(tǒng)。信息發(fā)布服務(wù)模塊支持與手機終端的交互,煙農(nóng)可以利用手機APP或者是短信平臺來獲取平臺推送的種植和預(yù)警信息。
3 應(yīng)用效果
介紹了利用互聯(lián)網(wǎng)上大量非結(jié)構(gòu)化的天氣、溫濕度、土壤情況、病蟲害等信息,作為數(shù)據(jù)源構(gòu)建的BDAP-TQ平臺,輔以從相關(guān)行業(yè)獲取的結(jié)構(gòu)化專業(yè)數(shù)據(jù),利用Web數(shù)據(jù)挖掘技術(shù)通過關(guān)聯(lián)分析,對煙葉種植質(zhì)量進行全面的評估,并可以預(yù)測最終收獲的煙葉的質(zhì)量,而不用派遣大量員工去田間地頭采集數(shù)據(jù)。通過該平臺除了監(jiān)控預(yù)測國內(nèi)煙草種植以外,還可以分析預(yù)測進口煙葉的質(zhì)量。
其中,在土壤檢測方面,還嘗試了結(jié)合相關(guān)作物分析的方式,這是因為目前我國還沒有遍布全國的土壤檢測網(wǎng)絡(luò),土壤的檢測主要是靠抽檢和農(nóng)民送檢。傳統(tǒng)方法對重金屬只能采用抽樣法檢測,缺點是費時費力,檢測的區(qū)域比較小,粒度太大,效率比較低。通過互聯(lián)網(wǎng)上大量其他作物的重金屬情況結(jié)合GIS進行關(guān)聯(lián)性分析,可以得出所關(guān)心的種植區(qū)域煙葉重金屬的含量情況。
隨著國家對大數(shù)據(jù)越來越重視,建設(shè)一個基于大數(shù)據(jù)的煙葉種植質(zhì)量評估平臺是非常必要的。目前BDAP-TQ平臺已經(jīng)完成了數(shù)據(jù)層全部模塊,大數(shù)據(jù)處理層的數(shù)據(jù)分析部分和管理層的部分模塊,因為需要從互聯(lián)網(wǎng)上抓取大量的數(shù)據(jù)來計算相應(yīng)的模型,數(shù)據(jù)的積累需要一個過程,在數(shù)據(jù)量還不足夠大的情況下,分析和預(yù)測的結(jié)果可能還不夠好,后續(xù)的工作是繼續(xù)完善和增加BDAP-TQ的功能模塊,擴大數(shù)據(jù)來源,積累更多的數(shù)據(jù),增強數(shù)據(jù)處理能力,縮小需要實時處理數(shù)據(jù)的延遲時間,增強BDAP-TQ平臺的實用性。
參考文獻:
[1]Fernández A,del Río S,Herrera F,et al.An Overview on the Structure and Applications for Business Intelligence and Data Mining in Cloud Computing[C].7th International Conference on Knowledge Management in Organizations:Service and Cloud Computing.Springer Berlin Heidelberg,2013:559-570.
[2]Viktor Mayer-Sch?nberger,Kenneth Neil Cukier.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].Hodder Export,2013-03-14.
[3]Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza epidemics using search engine query data[J].Nature,2008(7232):1012-1014.
[4]陸永恒.生態(tài)條件對煙葉品質(zhì)的影響研究進展[J].中國煙草科學,2007(01):43-46
[5]李義強,李成富,許立峰.我國部分煙葉產(chǎn)區(qū)土壤和煙葉重金屬現(xiàn)狀及相關(guān)性研究[C].中國煙草學會2006年學術(shù)年會論文集,67
[6]Anand Rajaraman. Mining of Massive Datasets[M].Cambridge :Cambridge University Press,2012
[7]Jiang N, Gruenwald L. Research issues in data stream association rule mining[J]. ACM Sigmod Record,2006(01):14-19.
作者簡介:高榮(1979.02-),男,助教,碩士研究生,研究方向:云計算、數(shù)據(jù)挖掘;通訊作者:孫忱(1981.08-),女,工程師,博士研究生,研究方向:企業(yè)信息化。
作者單位:廣西財經(jīng)學院 信息與統(tǒng)計學院,南寧 530003;廣西中煙工業(yè)有限責任公司信息中心,南寧 530001
基金項目:廣西財經(jīng)學院數(shù)量經(jīng)濟學創(chuàng)新團隊基金(2014CX02);廣西自科然科學基金 (2013GXNSFBA019274)。