国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的住宅工程造價預測

2021-03-09 07:22:24王德美肖之鴻夏松林范淑倩崔常輝張清華
土木工程與管理學報 2021年1期
關鍵詞:工程費單方降維

王德美, 陳 慧, 肖之鴻, 夏松林, 范淑倩, 崔常輝, 張清華

(1. 煙臺大學 土木工程學院, 山東 煙臺 264005; 2. 廣東海龍建筑科技有限公司, 廣東 深圳 518110;3. 煙臺天海房地產開發(fā)有限公司, 山東 煙臺 264003)

隨著工程建設的高速發(fā)展,工程建設領域各相關單位都積累了大量的歷史工程建設數(shù)據(jù),但多數(shù)單位沒有對數(shù)據(jù)進行充分挖掘利用,存在“數(shù)據(jù)豐富,知識貧乏”的現(xiàn)象。工程建設的各項數(shù)據(jù)和指標之間存在著千絲萬縷的關系,利用數(shù)據(jù)挖掘技術深度挖掘隱藏在繁雜數(shù)據(jù)背后的規(guī)律,可以為快速計價和工程決策提供數(shù)據(jù)基礎。

建筑工程造價預測最初是通過概算指標估算法[1],分別套用概算指標來估算投資額。然而由于項目相關數(shù)據(jù)的準確性較差,且估算指標過于統(tǒng)一,故投資估算的精度較低。統(tǒng)計分析中的線性回歸方法是比較常見的回歸方法,但這種方法對異常值較敏感,面對維度較大、較復雜數(shù)據(jù)集時模型性能差[2]?;疑碚摽捎靡越鉀Q“小樣本、貧信息”的問題,算法相對簡單,屬于一種非線性預測方法,但是受初始數(shù)據(jù)序列波動較大,對高維數(shù)據(jù)并不友好,因此預測模型的精度較低[3]。隨著信息技術和機器學習人工智能的不斷發(fā)展,近年來國內外逐步興起了遺傳算法、人工神經(jīng)網(wǎng)絡、支持向量機、極限學習機等機器學習算法。其中人工神經(jīng)網(wǎng)絡(Artificial Neutral Network,ANN)和支持向量機算法(Support Vector Machine,SVM)相對更適合于建筑工程造價預測建模。很多學者使用人工神經(jīng)網(wǎng)絡的方式進行建筑工程的造價預測研究[4,5],雖然ANN與傳統(tǒng)的統(tǒng)計方法相比,模型預測精度有所改善,但是ANN在大樣本下才能得到較優(yōu)結果,且ANN容易出現(xiàn)局部最優(yōu)的缺陷。相對于ANN,SVM在小樣本預測領域有獨特優(yōu)勢。

本研究利用歷史住宅工程造價信息進行數(shù)據(jù)挖掘,并進行造價預測研究和分析。通過數(shù)據(jù)清洗和異常值篩除得到的有效樣本,分別利用不同的特征指標選取方式構建SVM模型,選取更為合理的預測模型。此外,對單方造價、分部分項工程費、措施項目費等多種費用進行預測,探究何種費用項預測性高,可以用SVM方法得到良好的預測結果,進而應用于工程實際。

1 數(shù)據(jù)與指標的選取及數(shù)據(jù)預處理

在通過機器學習方法進行住宅工程各造價項的預測研究時,具備一個完備的數(shù)據(jù)集是重要前提,實際上,原始數(shù)據(jù)的搜集和預處理工作往往占整個數(shù)據(jù)分析工作的70%以上。本研究的數(shù)據(jù)來源于廣聯(lián)達指標網(wǎng),陜西省西安市2014—2017年簽約的住宅工程。擬預測的造價項包括含其他項目費的單方造價(指標名稱為原單方造價),不含其他項目費的單方造價(指標名稱為單方造價),以及單位建筑面積的分部分項工程費、措施項目費、其他項目費、規(guī)費、稅金等,如表1輸出指標所示。結合文獻調研及專家訪談,本研究確定了19個特征指標作為造價預測模型的輸入指標,如表1所示。輸入指標又分為定性指標和定量指標。定量指標按原數(shù)值輸入,定性指標按表2的編碼方式處理。機器學習中定性指標的編碼方式有多種,各有其優(yōu)劣。本文采用特征哈希的思想,對定性指標進行編碼,每種定性指標的編碼為相鄰的自然數(shù),此外,為了增強哈希特征工程的可解釋性,對“是否有人防”“抗震烈度”“裝修類別”“外立面裝飾”和“室內裝飾”五個定性指標,按相應各類別造價由低到高的順序依次進行由小到大的編碼,如表2所示。

表1 住宅工程造價預測指標

原始數(shù)據(jù)集易出現(xiàn)混亂、不完整、有噪音、數(shù)據(jù)不一致、數(shù)據(jù)冗余、數(shù)據(jù)類型不合理等現(xiàn)象。數(shù)據(jù)的預處理包括數(shù)據(jù)清洗、數(shù)據(jù)類型轉換、異常值處理等工作。在進行初步的數(shù)據(jù)清洗剔除無效樣本后,共保留180條有效樣本,并按表2的方式進行定性指標的數(shù)據(jù)類型轉換。

表2 定性指標編碼

除此之外,數(shù)據(jù)預處理還包括異常值處理。在住宅工程造價預測樣本量很少的情況下,離群點以及異常值的存在對模型性能的影響非常大。本文采用K均值聚類方法實現(xiàn)異常值以及離群點的識別和篩除。K均值聚類可將相似度高的樣本聚在一起,將相似度差距大的樣本分開,具有收斂速度快,解釋性強,聚類效果好的優(yōu)點。但是K均值聚類需要提前確定聚類數(shù)K值,K的取值對聚類結果影響較大,因此,在聚類數(shù)未知的情況下,合理確定聚類數(shù)K值是關鍵。本文借助MATLAB軟件繪制拐點圖的方法合理確定最優(yōu)K值,實現(xiàn)對傳統(tǒng)K均值聚類的改進。

如圖1所示,橫坐標代表聚類數(shù),縱坐標D=組內平均距離/組間平均距離,由D的定義可知,D越小代表聚類效果越好,但是D過小,所劃分的類別數(shù)過多,則其實際應用價值就會降低,故K的取值需適宜。根據(jù)肘部法則,圖線突變點的位置為最優(yōu)K值,由圖1可知最優(yōu)K值為10。K值確定后,本研究選用SPSS工具進行K均值聚類,聚類結果如表3,第2~4,7~10類樣本呈零星分布狀態(tài),視為離群點,需篩除,保留樣本最為集中的第1,5,6類共160條項目為最終樣本。部分樣本數(shù)據(jù)如表4所示。

圖1 最優(yōu)K值確定

表3 改進的K均值聚類結果

表4 樣本造價數(shù)據(jù)分布節(jié)選

2 支持向量機(SVM)

2.1 SVM原理

支持向量機(SVM)理論是從線性可分情況下的最優(yōu)分類線發(fā)展而來的[6],作為機器學習領域的經(jīng)典算法,可應用于多分類以及回歸問題。為了提高SVM的適應性,使用軟間隔支持向量機,引入松弛變量。SVM的關鍵在于核函數(shù),低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間。核函數(shù)的存在使得SVM算法既能找到最優(yōu)低維向高維的映射方式,又能巧妙降低模型的計算復雜度。本文選取的核函數(shù)為非線性支持向量機常用的徑向基核函數(shù)(Radial Basis Function,RBF),此外,利用SMO(Sequential Minimal Optimization)算法進行模型優(yōu)化,以降低模型訓練時間和計算過程的復雜化[7,8]。SVM引入了結構風險最小化原理和核函數(shù),特別適合小樣本工程造價預測。

2.2 SVM在住宅工程造價預測中的應用

本研究利用上述160條樣本構建SVM模型預測單方造價,模型樣本分為訓練集和測試集。預測集數(shù)量較小時,容易產生過擬合問題,但是在小樣本的前提下,預測集數(shù)量較多又可能造成測試集“浪費”太多的訓練數(shù)據(jù),出現(xiàn)欠擬合。因此,選取其中127條數(shù)據(jù)(占比79%)為訓練集,33條數(shù)據(jù)(占比21%)為測試集。

模型結果分別如圖2,3所示。此處的R2衡量的是回歸方程整體的擬合度,表示預測精度。訓練集的R2為0.90141,測試集的R2為0.92836,均為高水平,模型良好。

圖2 SVM訓練集單方造價預測結果對比

圖3 SVM測試集單方造價預測結果對比

造價預測模型初步建立好之后,通過啟發(fā)式方法進行指標的二次確認,依次將單個特征指標(如建筑外形)和組合指標(如地上建筑面積和地下建筑面積)刪除后,重新運行程序對比預測結果的精度,發(fā)現(xiàn)任何單個指標或組合指標的刪除都會或多或少降低模型精度,尤其是刪除基礎類型指標,或是刪除地上地下層數(shù),這兩種指標的刪除都會導致模型精度大幅降低,因此現(xiàn)有的指標需要全部保留。

3 偏最小二乘回歸(PLSR)與偏最小二乘回歸支持向量機(PLSR-SVM)

3.1 PLSR與PLSR-SVM的原理

為了提高訓練和預測效率,降維也是數(shù)據(jù)挖掘分析的重要環(huán)節(jié),主成分分析(Principal Component Analysis,PCA)是常用的降維方法,通過正交變換的方式將原始變量線性組合成幾個互不相關的綜合變量,再選出其中少數(shù)幾個有代表性的綜合變量作為主成分,實現(xiàn)對高維變量空間的降維。然而PCA應用在回歸中的降維僅僅根據(jù)自變量系統(tǒng)選取出主成分,并不考慮對因變量的影響程度,導致會出現(xiàn)在自變量系統(tǒng)中貢獻率低而對因變量有著重要影響的指標會被誤刪,而在自變量系統(tǒng)中貢獻率高卻對因變量解釋能力差的指標反而被選為主成分等問題。偏最小二乘回歸(Partial Least Squares Regression,PLSR)巧妙解決了這個問題,PLSR在主成分分析的基礎上引入了多元線性回歸分析以及典型相關分析,建立起自變量系統(tǒng)和因變量之間的聯(lián)系,要求所提取的主成分必須對因變量有最強的解釋性[9,10]。PLSR可用于回歸,也可僅用于指標降維。

因此,針對目前有學者在研究建筑工程造價預測時,使用PCA降維后的指標構建SVM預測建模的PCA-SVM方法[11,5]。本文提出一種改進算法,使用PLSR降維后的指標構建SVM造價預測模型,即PLSR-SVM。

圖4 主成分貢獻率

圖5 PLSR測試集預測結果

圖6 PLSR-SVM訓練集預測結果

圖7 PLSR-SVM測試集預測結果

3.2 PLSR與PLSR-SVM在住宅工程造價預測中的應用

在用上述樣本做PLSR時,當主成分數(shù)量為10時,PLSR的預測精度能達到最高,為0.29456,如圖4,5所示,此時的累計方差貢獻率接近100%,遠大于85%,可提取。利用得到的10個綜合指標構建 SVM模型,得到PLSR-SVM的預測結果,如圖6,7所示,訓練集和測試集的R2分別為0.97496和0.44531。SVM和PLSR-SVM的R2高于PLSR,可看出單獨利用PLSR方法做造價預測是不可取的,因為輸入指標與輸出指標之間并不是單純的線性組合關系。故接下來不再單獨考慮PLSR方法進行回歸建模,而是進行SVM與PLSR-SVM的進一步對比分析。

4 預測模型結果對比分析

4.1 基于SVM和PLSR-SVM的單方造價預測結果分析

將上述基于SVM和PLSR-SVM兩種方法的單方造價預測結果匯總于表5,各模型評價指標匯總于表6。其中MSE為損失函數(shù),是衡量平均誤差的指標,值越小代表預測的精度越高。由對比結果可知,相對誤差和絕對誤差的極差與誤差平方和SSE,均是SVM模型更優(yōu),故SVM魯棒性優(yōu)于PLSR-SVM模型;SVM模型的R2和MSE性能更優(yōu),故SVM模型精度優(yōu)于PLSR-SVM模型。因此,SVM模型的魯棒性和預測精度更優(yōu)。PLSR-SVM模型唯一優(yōu)于SVM的一點在于運行時間更短,但是筆者認為,在實際應用過程中,幾秒鐘的時間差的影響是微乎其微的。故綜合考慮預測精度、魯棒性以及運行時間,SVM明顯優(yōu)于PLSR-SVM。

表5 基于SVM和PLSR-SVM模型的預測效果對比

表6 基于SVM和PLSR-SVM模型評價

分別利用SVM和PLSR-SVM兩種方法,對單方造價、原單方造價、分部分項工程費和措施項目費等進行預測,結果匯總于表7。通過縱向對比發(fā)現(xiàn),利用PLSR-SVM的預測精度普遍低于SVM。正如前文所述PCA方法降維的弊端,本研究使用性能更優(yōu)的PLSR方法進行降維,卻發(fā)現(xiàn)PLSR-SVM的預測性能依然遠不如原SVM模型,說明無論是PCA還是PLSR進行指標降維,都是一種線性的指標綜合方式,而實際的特征指標與造價之間是一種復雜的非線性關系,故而將特征指標進行降維后再建立SVM非線性回歸模型,反而使得特征指標與輸出指標的關系更混亂,對預測精度及魯棒性造成了惡劣的影響,因此,這樣的特征指標降維處理不適用于工程造價的預測。

表7 各費用項預測結果對比

4.2 工程造價其他費用組成部分造價預測對比析

通過上述分析,原始特征指標構建的SVM模型更適用于住宅工程造價預測,故進一步對表6的各費用項的SVM預測精度進行對比分析。單方造價的R2能達到93%,而原單方造價僅能達到38%,差距較大。究其原因,本文定義的原單方造價中其他工程費和其他取費是包含在里面的,而其他項目費主要包括暫列金額、計日工和總承包服務費,這些費用項都是施工合同簽訂時暫定或暫估的費用項目,具有很強的主觀性,規(guī)律性差,可預測性差,由表7也可證明利用SVM進行其他項目費和其他取費的預測精度極低,在0.2以下。故本文將對原單方造價減去其他項目費以及其他取費后得到的單方造價進行分析,結果可靠。

此外,分部分項工程費的預測精度較高,接近0.9,而措施項目費、規(guī)費、稅金的預測精度為0.5左右,精度較低。這是因為分部分項工程費是指構成工程實體的費用,與工程特征指標之間具有很強的相關性,而且在當今建筑市場競爭激烈的情況下,分部分項工程費的調價空間非常有限,因此,分部分項工程費的規(guī)律性強,可預測性較好。而措施項目費是非實體費用,是投標報價中調價最主觀的費用項目,因此,在同樣的特征指標下,措施項目費的預測精度遠遠低于分部分項工程費。而規(guī)費和稅金是以分部分項工程費、措施項目費、其他項目費之和按費率取費的,故規(guī)費與稅金的可預測性亦較低,不適用于造價預測。

分部分項工程費在建安工程費中占比較大且相對穩(wěn)定,也再次證明工程造價的可預測性,進而證明利用機器學習方法進行工程建設數(shù)據(jù)挖掘分析的可行性。

5 結 論

本研究通過進行一定的數(shù)據(jù)預處理,以及對各造價預測模型結果進行對比分析得到以下結論:

(1)本文提出的改進的K均值聚類進行異常值識別和篩除是有效的,對其他研究的異常值處理有一定的借鑒意義;

(2)PLSR是一種很好的線性指標降維方法,但并不適用于利用SVM方法進行住宅工程造價預測時的指標構建過程,利用原始特征指標構建的SVM模型,預測性能更優(yōu);

(3)措施項目費、其他項目費等可預測性相對較差,這與工程差異性大,費用主觀性強等原因有關。而剔除其他項目費的單方造價與分部分項工程費兩個費用項的可預測性強,可用SVM方法得到良好的預測結果,進而用于工程實際。

猜你喜歡
工程費單方降維
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
基于灰色模糊理論的小型水利工程臨時工程費測算
婚內單方舉債,債務自己承擔
公民與法治(2023年2期)2023-03-31 03:18:46
富硒青錢柳、黃精單方及復方對D-半乳糖致衰老小鼠抗氧化作用的研究
特產研究(2022年6期)2023-01-17 05:05:52
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
民間單方莫偏信
拋物化Navier-Stokes方程的降維仿真模型
計算物理(2014年1期)2014-03-11 17:00:18
基于特征聯(lián)合和偏最小二乘降維的手勢識別
淺析單方允諾的法律性質
基于Excel的建設項目建安工程費估算模型建立
山西建筑(2010年4期)2010-11-06 02:05:48
乌兰察布市| 肃北| 丰原市| 漳浦县| 河池市| 石泉县| 平乐县| 兖州市| 体育| 宁安市| 涪陵区| 尉犁县| 芮城县| 远安县| 封开县| 澄城县| 凉城县| 长宁区| 芮城县| 商南县| 宁津县| 哈尔滨市| 原平市| 桐梓县| 抚州市| 达拉特旗| 宣化县| 伽师县| 临湘市| 乡宁县| 南澳县| 明星| 黔西| 虎林市| 雅安市| 建昌县| 洛阳市| 合川市| 陆川县| 沐川县| 翁源县|