宋旭東,陳啟剛,蔡晨陽,邱占芝,宋麗芳
(1.大連交通大學(xué) 軟件學(xué)院,遼寧 大連 116028; 2. 中車大連機車車輛有限公司,遼寧 大連 116022; 3.大連科技學(xué)院 信息科學(xué)學(xué)院,遼寧 大連 116052) *
系泊作業(yè)系纜力大數(shù)據(jù)近似查詢預(yù)測方法
宋旭東1,陳啟剛1,蔡晨陽2,邱占芝1,宋麗芳3
(1.大連交通大學(xué) 軟件學(xué)院,遼寧 大連 116028; 2. 中車大連機車車輛有限公司,遼寧 大連 116022; 3.大連科技學(xué)院 信息科學(xué)學(xué)院,遼寧 大連 116052)*
開敞式碼頭系泊作業(yè)中,纜力是保證安全的一個重要指標(biāo).目前在系泊纜力預(yù)測主要集中在船舶與纜繩之間的物理變化上,采用的方法主要有觀測法、物理模型及數(shù)值模型等.提出一種以大量的歷史數(shù)據(jù)為驅(qū)動的預(yù)測方法,結(jié)合大數(shù)據(jù)MapReduce模型機制,使用近似查詢方法獲取與當(dāng)前影響船舶纜力因素最接近的歷史纜力值;考慮到船舶纜力影響因素的所占比重不同,采用模糊數(shù)學(xué)的方法來確定各個因素的權(quán)值分配.仿真實驗表明方法的預(yù)測結(jié)果具有較高的可行性和實用性.
系纜力;大數(shù)據(jù);近似查詢;預(yù)測方法
船舶系纜力的影響因素十分復(fù)雜,既受風(fēng)、浪、流等因素的影響,也受船型、作業(yè)狀態(tài)等參數(shù)的制衡.隨著船舶大型化和泊位深水化的日益發(fā)展,以及工程實踐中各種影響條件的千變?nèi)f化,單純的靠人為經(jīng)驗等判斷船舶作業(yè)安全的狀態(tài)這是很難做到的,理想狀態(tài)下的數(shù)模計算和物模實驗[1-3]已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足系纜力方面理論和應(yīng)用的進(jìn)一步發(fā)展.
近似查詢技術(shù)在計算機科學(xué)領(lǐng)域是一個被關(guān)注的問題,它被廣泛的應(yīng)用于各種領(lǐng)域,如互聯(lián)網(wǎng)、醫(yī)療衛(wèi)生、數(shù)據(jù)挖掘、數(shù)據(jù)庫以及生物科學(xué)技術(shù)等[4-6].而傳統(tǒng)的查詢方法不能滿足數(shù)據(jù)因素不確定的條件,在此基礎(chǔ)上本文引入了模糊數(shù)學(xué)的概念,以確定各種因素之間的權(quán)重分配.在面對大量數(shù)據(jù)處理過程中,模糊近似查詢查詢技術(shù)不能很好的滿足要求,本文提出了一種在Hadoop平臺上結(jié)合近似查詢技術(shù)和模糊數(shù)學(xué)的方法,利用MapReduce并行處理模型解決了大量數(shù)據(jù)查詢和計算時間慢的問題,實現(xiàn)了對系泊碼頭船舶作業(yè)纜繩拉力值模糊近似查詢,對于船舶作業(yè)過程中的安全預(yù)警有著重要的支持作用.
MapReduce模型是由Google在2003~2004年發(fā)表的兩篇論文中首次提出,其分布式并行編程模型在海量的數(shù)據(jù)中進(jìn)行計算具有明顯的優(yōu)勢,因此在學(xué)術(shù)界和工業(yè)界引起來了關(guān)注和使用[7].
MapReduce的基本思想是將一個大的數(shù)據(jù)分成若干個數(shù)據(jù)塊(datablock),每一個數(shù)據(jù)塊都會被分成成千上萬個數(shù)據(jù)集split.MapReduce定義了Map和Reduce兩個抽象的接口,Map會對每個提交上來的數(shù)據(jù)塊按行解析成鍵值對
MapReduce并行計算模型如圖1所示.
圖1 MapReduce并行計算模型
本文研究的是基于大數(shù)據(jù)MapReduce對系泊纜力的模糊近似查詢預(yù)測方法,首先需要明確的是影響系泊纜力的風(fēng)速、風(fēng)向、流速、流向、波高等因素對纜力值所占的權(quán)重,然后根據(jù)模糊數(shù)學(xué)確定數(shù)據(jù)之間的歐氏距離值,最后將查找計算在并行框架中實現(xiàn).
2.1 權(quán)重確定方法
假設(shè)x是討論域U中的任意一個元素,有一個關(guān)系式A(x) ∈[0,1]與之對應(yīng),這時A(x)稱之為x對A的隸屬度.當(dāng)x在U中進(jìn)行變換時,隸屬度A(x)越接近0,表示x屬于A的程度越低,隸屬度A(x)越接近1,表示x屬于A的程度越高.隸屬度函數(shù)是模糊數(shù)學(xué)中應(yīng)用于模糊控制的關(guān)鍵因素之一,由于隸屬度函數(shù)的確定目前主要有模糊統(tǒng)計法、例證法、二元對比排序法以及本次使用的專家經(jīng)驗法.
專家經(jīng)驗法是根據(jù)專家的實際經(jīng)驗給出模糊信息的處理算式或相應(yīng)權(quán)系數(shù)值來確定隸屬函數(shù)的一種方法.風(fēng)、浪、流、噸位等因素對于纜力值的影響有著直接的影響,對于其權(quán)值的確定,直接影響著數(shù)據(jù)查找的準(zhǔn)確性.專家經(jīng)驗法,在一定程度上避免了因個人不能客觀把握情況而導(dǎo)致結(jié)果失真.
2.2 數(shù)據(jù)模糊近似計算
造成系泊纜力變化的因素主要有風(fēng)、浪、流、噸位等,不同的影響因素其數(shù)值和單位不同,為了使其不在后續(xù)的查找匹配中出現(xiàn)某一因素產(chǎn)生較大的影響,使用歸一化對數(shù)據(jù)進(jìn)行處理,去除掉量綱的影響,將不同的單位的數(shù)值進(jìn)行格式化,使之在指定的范圍內(nèi)(0~1).將定原始數(shù)據(jù)集為X={xi|xi∈R,i=1,2,…,n},歸一化后的數(shù)據(jù)集為
歷史數(shù)據(jù)會按行存放在文件中,假定每行的歷史數(shù)據(jù)集經(jīng)過歸一化處理以后為D={di|di∈R,i=1,2,…,n},待預(yù)測影響因素數(shù)據(jù)集經(jīng)過歸一化處理以后為C={ci|ci∈R,i=1,2,…,n},兩組數(shù)據(jù)之間的加權(quán)歐式距離可表示為
2.3 預(yù)測方法框架結(jié)構(gòu)
系泊作業(yè)過程中在過去數(shù)據(jù)檢測中存儲了大量的歷史數(shù)據(jù),每個被分解的數(shù)據(jù)塊可以單獨的在每個計算機上進(jìn)行處理,很適合在MapReduce并行模型上進(jìn)行計算[8].在規(guī)模集群上運行的MapReduce分布式編程模型計算處理過程可以抽象為Map和Reduce兩個函數(shù),這兩個函數(shù)分別繼承了Hadoop中的Mapper和Reducer類,用戶只需要按照要求來實現(xiàn)這兩個類即可.其整體方法框架如圖2所示.
在數(shù)據(jù)采集以后,還需要根據(jù)船舶綁定纜繩的實際情況,在數(shù)據(jù)庫中選擇出適合當(dāng)前情況的數(shù)據(jù),對選擇出來的數(shù)據(jù)進(jìn)行預(yù)處理,刷除那些數(shù)據(jù)不完全、檢測明顯不符合標(biāo)準(zhǔn)的數(shù)據(jù),將規(guī)范的數(shù)據(jù)以供后續(xù)使用.
(1)在Map階段,將歷史存儲的數(shù)據(jù)文件作為預(yù)測方法的輸入文件,從程序輸入中讀取預(yù)測數(shù)據(jù),這樣完成初始化操作;Map函數(shù)會按行讀取歷史數(shù)據(jù),然后將歷史數(shù)據(jù)和預(yù)測數(shù)據(jù)進(jìn)行歸一化處理,然后再計算這兩組數(shù)據(jù)的歐式距離,將計算的中間變量存儲在中間變量中,當(dāng)計算完第二組歐式距離以后,把第一次的歐式距離值與第二次歐氏距離值進(jìn)行比較,如果小,則中間變量存放第二次的歐式距離值,依次類推,直到計算完整個數(shù)據(jù)塊的歷史數(shù)據(jù),將最后的歐氏距離值寫入鍵值對中,以供后續(xù)Reduce階段使用;
(2)在Reduce階段,會接收來自各個Map的結(jié)果作為輸入,會將具有同一個key的鍵值對組成一組,交由一個Reduce函數(shù)處理,Reduce函數(shù)會從同一組value值中找到歐式距離最小的歷史數(shù)據(jù),其中key為纜繩的數(shù)量,value為歷史影響因素數(shù)據(jù)和各個纜繩纜力的歷史檢測值.最后將這組歷史數(shù)據(jù)寫入HDFS文件中.
圖2 基于MapReduce模糊近似查詢框圖
在上述的Map和Reduce階段中,文本中的數(shù)據(jù)都是用便于保存的字符串格式存儲,在計算過程中需要多字符串進(jìn)行轉(zhuǎn)換成適合計算的類型.
3.1 分布式預(yù)測運行環(huán)境
分布式運行集群由4臺PC組成,其中1臺PC為NameNode,3臺PC為DataNode,硬件環(huán)境配置均為InterCorei5-3210M處理器,2GB內(nèi)存,500GB硬盤;軟件環(huán)境為CentOS-7.0-1406、JDK1.6.0_20以及Hadoop-1.1.2.
3.2 運行結(jié)果分析
根據(jù)文獻(xiàn)[9]中關(guān)于系泊實測數(shù)據(jù)類型及其數(shù)據(jù)范圍進(jìn)行數(shù)據(jù)仿真實驗,生成目標(biāo)數(shù)據(jù)作為歷史數(shù)據(jù)共4 000 000行記錄,數(shù)據(jù)以文本格式存放,數(shù)據(jù)項之間使用Tab鍵進(jìn)行分割.在歷史數(shù)據(jù)中每行數(shù)據(jù)包括影響系泊纜繩拉力的因素數(shù)據(jù)(風(fēng)速、風(fēng)向、流速、流向、波高、波向及載量)和一段時間以后的纜繩時間拉力數(shù)據(jù).
實驗中將待預(yù)測環(huán)境動力等因素作為預(yù)測影響因素輸入,使用近似查詢方法獲取與當(dāng)前影響船舶纜力因素最接近的歷史纜力值作為未來一段時間的系纜力為預(yù)測結(jié)果.
圖3 纜力目標(biāo)值與預(yù)測值標(biāo)準(zhǔn)差折線圖
3.3 分析評價
從預(yù)測值和目標(biāo)值的數(shù)據(jù)可以看出,處于船舶首尾兩個位置的纜繩1和纜繩8上的纜力值較大;處于船舶中間的首道纜和尾道纜位置的纜繩4和纜繩5所受的纜力值其次;處于船舶的首橫纜和尾橫纜位置的纜繩2、纜繩3、纜繩6和纜繩7所受的纜力值最小.在平均誤差中,受力較小的纜繩6誤差最小,說明其預(yù)測準(zhǔn)確率最高,纜繩5誤差最大,說明其預(yù)測準(zhǔn)確率最低.
從圖3可以看出目標(biāo)值標(biāo)準(zhǔn)差和預(yù)測值標(biāo)準(zhǔn)差折線基本接近,纜繩5的目標(biāo)與預(yù)測標(biāo)準(zhǔn)差相差最小,說明其纜力值波動較?。焕|繩1的目標(biāo)值與預(yù)測值標(biāo)準(zhǔn)差相差最大,說明其纜力值波動較大.
針對系泊作業(yè)過程中纜繩纜力預(yù)測的問題,本文給出了基于大數(shù)據(jù)Hadoop平臺的數(shù)據(jù)模糊近似度預(yù)測方法,實現(xiàn)了在大量的歷史數(shù)據(jù)中根據(jù)當(dāng)前檢測到的影響因素數(shù)據(jù)來預(yù)測一段時間后的纜力值.仿真實驗表面在大量的數(shù)據(jù)中通過模糊近似查找的方法可以匹配出與當(dāng)前因素最接近的纜力值,并且在準(zhǔn)確性和查詢速度上具有高效性,隨著數(shù)據(jù)量的越大越具有明顯的優(yōu)勢.基于大數(shù)據(jù)平臺的系泊纜力預(yù)測方法在船舶作業(yè)過程中具有現(xiàn)實的意義.
[1]ZHOU DECAI , MIAO QUANMING. Nonlinear Characteristics Simulation of Mooring Lines and Fenders of Binding Ships in Model Tests [J]. Journal of Ship Mechanics, 2005, 9(6): 48-55.
[2]鄒志利, 張日向, 張寧川,等. 風(fēng)浪流作用下系泊船系纜力和碰撞力的數(shù)值模擬[J]. 中國海洋平臺, 2002, 17(2):22-27.
[3]STOCKSTILL R L,BERGER R C. A three-dimensional numerical model forflow in a lock filling system[C]//ASCE. World Environmental and Water Resources Congress.U.S.:ASCE Press ,2009:2737- 2746.
[4]UYSAL M S, BEECKS C, SABINASZ D, et al. Large-scale Efficient and Effective Video Similarity Search[C]// Workshop on Large-scale & Distributed System for Information Retrieval. ACM, 2015:3-8.
[5]TSYMBAL A, MEISSNER E, KELM M, et al. Towards cloud-based image-integrated similarity search in big data[C]// 2014 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). 2014:593-596.
[6]李昕, 孟祥福. 基于相似性推薦的電子商務(wù)Web數(shù)據(jù)庫關(guān)鍵字近似查詢方法[J]. 小型微型計算機系統(tǒng), 2015(7):1487-1491.
[7]LAMMEL R. Google′s MapReduce Programming Model-Revisited[J]. Science of Computer Programming , 2008 ,70(1):1-30.
[8]SRIRAMA S N, JAKOVITS P, VAINIKKO E. Adapting scientific computing problems to clouds using MapReduce[J]. Future Generation Computer Systems, 2012, 28(1):184-192.
[9]郝慶龍. 超大型船舶系纜力實測研究[D]. 大連:大連海事大學(xué), 2014.
Mooring Line Force Prediction Method based on Big Data Approximate Query
SONG Xudong1, CHEN Qigang1, CAI Chenyang2, QIU Zhanzhi1,SONG Lifang3
(1.Software Institute, Dalian Jiaotong University, Dalian 116028, China; 2. CRRC Dalian Co., Ltd, Dalian 116022, China; 3.School of Information Science, Dalian Institute of Science and Technology, Dalian 116052, China)
Mooring line force is an important indicator for mooring operation safety in the open wharf. The prediction method of the mooring line force focuses on the physical changes of the ship and the mooring lines. The prediction methods mainly include observation, physical model and data model. A data driven prediction method is provide, based on massive historical data. Using approximate query method and big data MapReduce model framework, mooring line force prediction value is obtained which is the similar mooring line force value of the closest force influencing factors. Considering the different weights of influencing factors, fuzzy mathematics method is used to determine the weights of influencing factors. Simulation results show that the prediction method has higher feasibility and practicability.
mooring line force; big data; approximate query; prediction method
1673- 9590(2017)02- 0117- 04
2016-03-01 基金項目:遼寧省自然科學(xué)基金資助項目(201602131);大連市科技計劃資助項目(2014A11GX006)
宋旭東(1969-),男,教授,博士,主要從事大數(shù)據(jù)、數(shù)據(jù)挖掘、智能算法、決策支持系統(tǒng)方面的研究 E- mail:xudongsong@126.com.
A