李澤陽,劉 玲,胡奕仁
(1.武漢科技大學(xué) 管理學(xué)院,武漢430081;2.中國地質(zhì)大學(xué)(武漢)工程學(xué)院,武漢 430074)
“大數(shù)據(jù)”具有“5V”特征,即數(shù)據(jù)類別多(Variety)、數(shù)據(jù)體量巨大(Volume)、處理速度快(Velocity)、數(shù)據(jù)真實性(Veracity)、價值密度低、商業(yè)價值高(Value)[1]。工程造價信息包含政策法規(guī)、招投標(biāo)信息、計價依據(jù)、價格信息、指數(shù)信息、指標(biāo)信息、社會平均成本、社會平均利潤以及典型工程案例分析等,其具有大數(shù)據(jù)的特征,屬于大數(shù)據(jù)的范疇[2]。隨著對招標(biāo)的建設(shè)工程實行“五價”備案制度,由建設(shè)項目的投資估算、設(shè)計概算、招標(biāo)控制價、合同價、竣工結(jié)算等文件的書面及電子數(shù)據(jù)資料形成工程造價信息大數(shù)據(jù)[3-5]。
建安造價是工程造價構(gòu)成中最基本、最重要的部分。可通過及時、真實地統(tǒng)計測算工程造價信息數(shù)據(jù)以快速、精準(zhǔn)地計算新建工程的建安造價[6]。由于建安造價統(tǒng)計測算的影響因素多,變動幅度大[7],所以目前工程造價主管部門發(fā)布的單位造價指標(biāo)僅是對其均值的測算,未能對同地區(qū)、同類工程的單位造價取值區(qū)間及其概率做出精確的統(tǒng)計和測算[8]。本文運用統(tǒng)計學(xué)方法測算工程造價共享指標(biāo),及時、真實地隨機抽樣并處理工程造價信息數(shù)據(jù),以貝葉斯學(xué)派思想為指導(dǎo),并運用正態(tài)模型參數(shù)估計、卡方擬合檢驗、預(yù)測區(qū)間估計等方法[9-11],測算出同地區(qū)、同類工程的單位造價區(qū)間及其概率,為測算新建工程的建安造價及建設(shè)投資提供指標(biāo)和參數(shù),為工程造價信息大數(shù)據(jù)的挖掘及應(yīng)用提供一種科學(xué)、合理的統(tǒng)計測算方法[12-14]。
本文旨在運用統(tǒng)計學(xué)方法解決單位造價測算中存在的離散性、隨機性、不精確性等問題。首先,對原始數(shù)據(jù)進行預(yù)處理,降低時效性、區(qū)域性、工程類別等因素對測算結(jié)果的影響;然后,結(jié)合貝葉斯思想和相關(guān)經(jīng)典統(tǒng)計學(xué)理論[9-11],構(gòu)建工程造價信息數(shù)據(jù)統(tǒng)計測算模型;最后,測算出單位造價的預(yù)測區(qū)間及其概率,以快速、精準(zhǔn)地測算新建工程的建安造價及投資估算。
點估計和區(qū)間估計為未知參數(shù)提供了很好的信息[10]。有時,相對于總體均值,人們對預(yù)測未來觀測值更感興趣。例如,在對工程造價信息數(shù)據(jù)統(tǒng)計測算研究中,需要利用觀測數(shù)據(jù)來預(yù)測一個新的觀測結(jié)果,即投資者對預(yù)測新建項目的工程造價更感興趣。估計工程造價的均值和置信區(qū)間,只能為新建項目工程造價測算提供一個大致的定位。投資者需要一個關(guān)于單個觀測的不確定性說明,而預(yù)測區(qū)間的建立可以滿足快速、精準(zhǔn)地測算新建工程造價的要求。
假設(shè)隨機樣本是從未知均值、已知方差的正態(tài)總體里得到的[11]。新觀測結(jié)果的點估計值為,點估計值的方差為。在新觀測中隨機誤差的方差是σ2。由于新觀測值x0與樣本均值是獨立的,且預(yù)測方差是單一觀測隨機誤差的方差和估計均值的方差之和,所以可構(gòu)造統(tǒng)計量如式(1)所示:
z服從n(z;0,1)。如果利用Z統(tǒng)計量的概率式(2),且將x0置于概率語句的中心,則式(3)成立。
對同地區(qū)、同類工程的單位造價進行隨機抽樣。首先,取同地區(qū)、同類工程的單位造價的樣本數(shù)據(jù),依據(jù)資金時間價值已知現(xiàn)值求終值的等值換算公式(5)[2],將隨機抽樣的單位造價原始數(shù)據(jù)換算到同一時點。
處理后的單位造價記為x1,x2,…,xn;由于模型是通過樣本來研究總體,而總體可能出現(xiàn)任何情況,因此可以采用連續(xù)性修正,記頻率分布直方圖橫坐標(biāo)的覆蓋區(qū)間為R;其次,對單位造價按大小排序并確定適當(dāng)?shù)慕M距,統(tǒng)計落在每個區(qū)間的樣本頻數(shù)fi,計算得出頻率;最后,以組距為橫坐標(biāo)、以頻率為縱坐標(biāo)繪制樣本分布頻率直方圖,觀測樣本數(shù)據(jù)近似來自于某種分布總體。
隨機抽樣收集單位造價樣本觀察值,由于單位造價可看作類似于樣本均值的統(tǒng)計量,因此根據(jù)中心極限定理,繪制的樣本分布頻率直方圖最有可能類似正態(tài)分布。模型假設(shè)隨機樣本來自參數(shù)為μ,σ的正態(tài)總體,即同類工程的單位造價總體服從正態(tài)分布,記分布函數(shù)為F(x;μ,σ)。根據(jù)極大似然估計原理,X的概率密度函數(shù)為式(6),似然函數(shù)為式(7)[11]:
對其求偏導(dǎo)得式(9):
式(10)即為同類工程的單位造價總體期望和方差的估計值。
總體所屬分布類型的假設(shè)是依據(jù)觀測隨機樣本頻率分布圖得出,需要進一步檢驗,以上文計算得出的估計值作為參數(shù)值對分布類型進行擬合檢驗,檢驗其是否服從正態(tài)分布。設(shè)x服從正態(tài)分布,分布函數(shù)記作F(x;μ,σ),將x取值的全體Ω劃分為k個互不相交的子集A1,A2,A3,…,An,將樣本觀察值x1,x2,x3,…,xn出現(xiàn)在Ai的個數(shù)記作2,3...k),則事件=Ai{x值在Ai內(nèi)}的頻率為。計算事件的概率,得pi=P(Ai),i=1,2,3…,k。通常頻率與概率存在差異,當(dāng)試驗次數(shù)足夠多時,這種差異將減少并可以忽略不計,即不應(yīng)該太大,采用形如式(11)的統(tǒng)計量度量樣本與假設(shè)分布的擬合程度,其中Ci(在每一項前乘以適當(dāng)?shù)腃i,是為了使得統(tǒng)計量(11)有一個理想的極限分布)為常數(shù)。根據(jù)皮爾遜定理[10],取,采用式(12)作為檢驗統(tǒng)計量。
當(dāng)X服從正態(tài)分布時,則式(13)成立。
此時χ2不應(yīng)該太大,拒絕域為χ2≥G=χ2(k-r-1)。最后檢驗式(14)是否成立。
α為顯著性水平。不等式成立時拒絕原分布服從正態(tài)分布,否則就“不拒絕”原分布服從正態(tài)分布,即隨機樣本來自正態(tài)總體。
檢驗隨機樣本正態(tài)性則可進行預(yù)測區(qū)間估計。在實際應(yīng)用中,單位造價的總體期望和方差是未知的,總體期望和方差的估計值均為統(tǒng)計量,不是定值,若將估計值作為參數(shù)值直接導(dǎo)入統(tǒng)計量中進行預(yù)測區(qū)間估計則勢必會影響計算結(jié)果的精確度,造成系統(tǒng)誤差。當(dāng)n較大時student分布與正態(tài)分布相似,統(tǒng)計測算模型用student分布取代正態(tài)分布,用s代替σ進行運算,根據(jù)預(yù)測區(qū)間估計理論構(gòu)造新的統(tǒng)計量,如式(15):
t服從自由度為n-1的student分布,運用T統(tǒng)計量的概率,見式(16):
將x0置于概率語句的中心,式(17)所描述的事件發(fā)生的概率是1-α。
未來觀測x0的100(1-α)%的預(yù)測區(qū)間為式(18):
隨機抽樣收集某地區(qū)2013—2015年多層商品房住宅樓竣工結(jié)算的單位建安造價。如表1所示。
年折現(xiàn)率i取2012年末央行發(fā)布的貸款利率,即i=6.15%,將表1中2013年和2014年的單位造價,根據(jù)資金時間價值的等值換算方法,如公式(5),換算成同一時點的單位造價,整理數(shù)據(jù)如表2所示。
對數(shù)據(jù)進行統(tǒng)計與分析,多層商品房住宅樓單位建安造價在(0,1500)區(qū)間的頻率為2%,單位建安造價在(1500,1550)區(qū)間的頻率為7%,單位建安造價在(1550,1600)區(qū)間的頻率為16%,在(1600,1650)區(qū)間的頻率為47%,在(1650,1700)區(qū)間的頻率為21%,在(1700,1750)區(qū)間的頻率為5%,(1750,+∞)區(qū)間的頻率為2%,單位造價區(qū)間及頻率分布直方圖,如圖1所示。
表1 某地區(qū)多層商品房住宅樓單位建安造價
表2 單位建安造價區(qū)間及頻率
圖1 某地區(qū)多層商品房住宅單位建安造價頻率分布圖
假設(shè)某地區(qū)單位造價符合參數(shù)為μ,σ的正態(tài)分布,記為X~N(μ,σ2)。設(shè)μ,σ為未知參數(shù),x1,x2,… ,x100是來自X的樣本值,樣本均值為1626.3,樣本方差S2為3893.76,n為100,運用極大似然法估計法求得μ=1626.3,計算得出σ=62。以估計值作為參數(shù)值,計算時間Ai的概率,得pi=P(Ai),pi與fi的計算結(jié)果,如表3所示。
表3 卡方擬合檢驗的結(jié)果
由表3得x2=112.58-100=12.58,依據(jù)卡方分布臨界值表可知:故在顯著性水平0.05下,可認(rèn)為該組隨機樣本數(shù)據(jù)來自正態(tài)分布總體[15]。
根據(jù)所構(gòu)建的預(yù)測區(qū)間估計模型,取顯著性水平α為0.05,統(tǒng)計測算單位造價區(qū)間為(1501.5,1751.0),隨機觀測結(jié)果在預(yù)測區(qū)間的概率為0.95,區(qū)間幅度為16.6%,單位造價在此區(qū)間內(nèi)任意點均滿足建安造價測算的誤差要求。取顯著性水平為0.1時,預(yù)測區(qū)間為(1522.1,1730.5),隨機觀測結(jié)果在此預(yù)測區(qū)間的概率為0.90。同理,模型也可測算出不同顯著性水平下的單位造價預(yù)測區(qū)間。
一次隨機試驗發(fā)生的概率小于0.05即為小概率事件,通常認(rèn)為小概率事件是不會發(fā)生的,即新建工程的單位建安造價一定在顯著性水平為0.05的預(yù)測區(qū)間范圍內(nèi)。不同顯著性水平的單位造價預(yù)測區(qū)間可滿足不同建設(shè)工程對預(yù)測區(qū)間精準(zhǔn)度的需求,為快速、準(zhǔn)確地測算新建項目的工程造價和科學(xué)地投資決策提供模型方法和參數(shù)支持。
(1)本文構(gòu)建了基于預(yù)測區(qū)間理論的工程造價信息數(shù)據(jù)統(tǒng)計測算模型,并通過實證研究測算出同類工程的單位造價預(yù)測區(qū)間及其概率,為測算新建同類工程的建安造價和投資估算提供指標(biāo)和參數(shù),也為全壽命周期工程造價主動管理提供模型和方法。
(2)模型對工程造價信息原始數(shù)據(jù)進行預(yù)處理,減少時效性、區(qū)域性、工程類別等因素對測算單位造價的影響,降低了隨機誤差。以貝葉斯學(xué)派思想為指導(dǎo),將μ,σ等參數(shù)作為統(tǒng)計量,不直接使用其估計值,用樣本均值和樣本方差導(dǎo)入模型中運算,避免了系統(tǒng)誤差,提高了測算結(jié)果的精確度和可靠性。
(3)模型適用于工程造價信息數(shù)據(jù)的統(tǒng)計與測算,針對工程造價信息數(shù)據(jù)區(qū)域性和時效性的影響,采用指數(shù)調(diào)整或進行等值換算,將數(shù)據(jù)導(dǎo)入統(tǒng)計測算模型即可得測算結(jié)果。模型方法運算簡便,科學(xué)合理,精確度高,易于計算機編程,模型方法可廣泛應(yīng)用于各種信息數(shù)據(jù)的統(tǒng)計、分析和測算。若后續(xù)研究抽取的樣本數(shù)量足夠大,并對處理原始數(shù)據(jù)的方法加以改進與完善,則模型測算結(jié)果會更精準(zhǔn),應(yīng)用范圍也會更加廣泛。
參考文獻:
[1]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,(8).
[2]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學(xué)[J].中國軟科學(xué),2013,(7).
[3]沈祥華,姚甫昌,王紅兵.建筑工程概預(yù)算[M].武漢:武漢工業(yè)大學(xué)出版社,2008.
[4]馮斌,張建中.工程造價資料積累技術(shù)經(jīng)濟分析指標(biāo)體系設(shè)計及在Excel軟件環(huán)境下的應(yīng)用[J].內(nèi)蒙古工業(yè)大學(xué)學(xué)報,2005,(11).
[5]彭大敏,王罕.大數(shù)據(jù)環(huán)境下工程造價管理對策分析[J].建筑經(jīng)濟,2014,(11).
[6]陳小龍,王立光.基于建筑設(shè)計參數(shù)分析模型的工程造價估算[J].同濟大學(xué)學(xué)報,2009,37(8).
[7]林琴.編制建設(shè)工程造價指標(biāo)的探討[J].建筑經(jīng)濟,2005,(2).
[8]吳學(xué)偉.住宅工程造價指標(biāo)及指數(shù)研究[D].重慶:重慶大學(xué)碩士論文,2009.
[9]陳家鼎,鄭忠國.概率與統(tǒng)計[M].北京:北京大學(xué)出版社,2004.
[10]Navidi W.Statistics for Engineers and Scientists[M].China:Tsinghua University Press,2012.
[11]Ronald E.Walpole R H,Myers Sharon L.Probability and Statistics for Engineers and Scientists(Eighth Edition)[M].China:China Machine Pres,2010.
[12]Dong J,Wei FJ.A Study on Life Cycle-Oriented Analysis Method of Project Cost[J].The 1st International Conference on Information Science and Engineering,2009.
[13]董士波,鄭立新.全生命周期工程造價成本分析模型研究[J].9th Pacific Association of Quantity Surveyors Congress,2005.
[14]Dietterich T G,Michalski R S.Learning to Predict Seguences,Machine Learning[M].An Artificial Intelligence Ap-proach,1986.
[15]余建英,何旭宏.數(shù)據(jù)統(tǒng)計分析與SPSS應(yīng)用[M].北京:人民郵電出版社,2003.