国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙語信息的中外建筑設(shè)計數(shù)據(jù)挖掘研究

2022-12-26 13:41:44吉林建筑科技學(xué)院孫恒
中國建設(shè)信息化 2022年23期
關(guān)鍵詞:物元正確率雙語

文|吉林建筑科技學(xué)院 孫恒

0.引言

當(dāng)前,隨著時間的推移,建筑的設(shè)計與施工越來越復(fù)雜,再加上現(xiàn)代科技與物質(zhì)技術(shù)的飛速發(fā)展,使建筑設(shè)計的研究也由靜態(tài)到動態(tài)的發(fā)展[1]。現(xiàn)如今,大量新的建筑被建造出來,龐大的信息也隨之更新,使得建筑設(shè)計者需要從海量數(shù)據(jù)中獲取其所需要的信息,不僅增加了信息獲取的難度,也使得海量數(shù)據(jù)資源利用價值受到負(fù)面影響[2]。當(dāng)前,在許多方面,數(shù)字技術(shù)的發(fā)展都取得了很好的效果。同時,它也在潛移默化地促進(jìn)著建筑業(yè)的發(fā)展。不僅在設(shè)計上,在施工、經(jīng)營等方面也能夠充分展現(xiàn)其對建筑行業(yè)發(fā)展的促進(jìn)作用。但由于數(shù)字化技術(shù)的局限性,使得其在建筑設(shè)計領(lǐng)域中應(yīng)用未能實(shí)現(xiàn),大部分建筑設(shè)計者仍然在使用傳統(tǒng)工作方式。同時,目前,我國建筑規(guī)劃中關(guān)于設(shè)計數(shù)據(jù)、經(jīng)驗(yàn)積累等方面尚不完善,無法滿足數(shù)據(jù)挖掘的需求[3]。因此,針對上述諸多問題的存在,引入雙語(中文、英文)信息技術(shù),開展對中外建筑設(shè)計數(shù)據(jù)挖掘的相關(guān)研究。

1.中外建筑設(shè)計數(shù)據(jù)采集與數(shù)據(jù)庫建立

為向后續(xù)數(shù)據(jù)挖掘提供更加充分的數(shù)據(jù)資源,對中外建筑設(shè)計數(shù)據(jù)通過爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集,實(shí)現(xiàn)了準(zhǔn)確的、大覆蓋范圍的、大存儲量的數(shù)據(jù)自動采集,其中采集范圍包括中外建筑本身的設(shè)計信息,如建造日期、規(guī)模、建設(shè)工程概況等。并建立數(shù)據(jù)庫,為后續(xù)操作提供依據(jù)。建筑設(shè)計數(shù)據(jù)庫是基于可擴(kuò)展的建筑設(shè)計中的相關(guān)信息構(gòu)建而成[4]。根據(jù)擴(kuò)展元模型的邏輯,對輸入到數(shù)據(jù)庫當(dāng)中的中外建筑設(shè)計數(shù)據(jù)進(jìn)行組織、描述和存儲。通過對數(shù)據(jù)庫的建立,能夠在極大程度上為建筑設(shè)計決策提供更具實(shí)體化的數(shù)據(jù)模型,并存儲可擴(kuò)展的建筑設(shè)計戰(zhàn)略產(chǎn)生所需的信息。由于中外建筑設(shè)計數(shù)據(jù)本身存在冗余度低、獨(dú)立性強(qiáng)以及可擴(kuò)充性強(qiáng)等特點(diǎn)。因此,能夠?yàn)楹罄m(xù)建筑師、業(yè)主和用戶之間的共享提供便利條件[5]。在實(shí)際應(yīng)用中,可將建筑設(shè)計形態(tài)數(shù)據(jù)、空間數(shù)據(jù)、環(huán)境心理數(shù)據(jù)等數(shù)據(jù)按關(guān)系數(shù)據(jù)模式進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理。以中外建筑設(shè)計數(shù)據(jù)中的屬性數(shù)據(jù)為例,其數(shù)據(jù)庫的基本結(jié)構(gòu)如表1 所示。

按照上述格式,完成對其他不同屬性數(shù)據(jù)庫的建立。將用于描述物的基本元數(shù)據(jù)稱為物元數(shù)據(jù),對數(shù)據(jù)庫當(dāng)中得到物元數(shù)據(jù)用M 表示,一維物元是以某一物Om為對象,構(gòu)成如下述公式表示的有序三元組:

公式中,cm表示特征值;vm表示以物Om為對象的關(guān)于特征值的量值。對于多維物元而言,其包含的特征有:cm1,cm2,……,cmn,除此之外,還應(yīng)當(dāng)包含對應(yīng)的量值,因此其表達(dá)式為:

具體而言,將其代入到中外建筑設(shè)計當(dāng)中,一維物元M1可表示為:M1=(窗戶,形狀,圓形)。該方法采用了基于可擴(kuò)展的基本元素表示方法來表示數(shù)據(jù),便于后續(xù)對其進(jìn)行識別和挖掘??蓴U(kuò)展模型使數(shù)據(jù)的格式一致,而數(shù)據(jù)化的轉(zhuǎn)化則使數(shù)據(jù)變成可被計算機(jī)識別的數(shù)據(jù)。建筑是一種從宏觀到微觀的物質(zhì)元素及其構(gòu)成的復(fù)合結(jié)構(gòu)。在應(yīng)用數(shù)據(jù)挖掘技術(shù)時,由于特殊的條件和操作的原因,無法挖掘出每個物元和其特征量,所以可以選擇若干個物元進(jìn)行挖掘。在一個范圍較大的物元當(dāng)中,通常都會包含多個小物元,例如在建筑當(dāng)中包含多個立面,并且在同一個立面上也能夠存在多個窗臺及窗戶。因此,在實(shí)際應(yīng)用中,數(shù)據(jù)類型劃分的越詳細(xì),則后續(xù)分析能夠越全面,挖掘和計算的精度也會隨之提升。

表1 中外建筑設(shè)計數(shù)據(jù)資源屬性數(shù)據(jù)庫基本結(jié)構(gòu)

2.基于雙語信息的中外建筑雙語資源抽取

在完成對中外建筑設(shè)計數(shù)據(jù)資源數(shù)據(jù)庫的建立后,將其作為基礎(chǔ),利用雙語信息技術(shù),實(shí)現(xiàn)對雙語資源的抽取。從雙語網(wǎng)頁當(dāng)中挖掘雙語資源,將其看作是信息抽取。在這一過程中,將數(shù)據(jù)庫當(dāng)中包含的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并變化成表格的形式[6]。將原文本輸入到提取模塊,以固定的形式輸出信息。從不同的文件中提取出信息點(diǎn),并以相同的格式進(jìn)行整合。以統(tǒng)一格式整合的信息,其優(yōu)點(diǎn)在于便于核對和對比。在抽取過程中,以Dom 樹葉子節(jié)點(diǎn)為單位小片段,便于提高抽取的精度。圖1 為以Dom 樹葉子節(jié)點(diǎn)為單位的雙語資源基本結(jié)構(gòu)圖。

將圖1 所示的結(jié)構(gòu)作為雙語資源提取的規(guī)則,在提取的過程中,增加一個序列概念,令下述表達(dá)式為一個項(xiàng)集:

公式中in,為項(xiàng)目,n 的取值為1,2,……,m。在數(shù)據(jù)庫當(dāng)中包含上述項(xiàng)集共s 個,針對s 的元組數(shù)目支持度進(jìn)行計算。

圖1 以Dom 樹葉子節(jié)點(diǎn)為單位的雙語資源基本結(jié)構(gòu)圖

圖2 中外建筑形態(tài)構(gòu)成相容可拓數(shù)據(jù)挖掘示意圖

公式中,support(s)表示序列s 的支持度;A 和B 表示抽取條件。通過上述計算得出最小支持度為smin,若某一序列s 的支持度>smin,則稱s 為頻繁序列,將其提取用于后續(xù)挖掘。針對漢語與外語雙語提取時,符合外語和漢語特征的信息可以被直接提取,而雙語片段中僅出現(xiàn)某一語言特征的情況較少。針對這一問題,在外語特征集合中存在兩個及以上元素同時出現(xiàn)時,需要考慮到語言特征的優(yōu)先級問題。分別定義外語和漢語的單詞的優(yōu)先級順序,優(yōu)先級從高到低。以分隔符區(qū)分部分為單位,當(dāng)多個部件包含單一語言特征時,以高優(yōu)先權(quán)的部件為其語言信息。順序主要考慮到外語特有的特征,用于表示外語單詞以及外語發(fā)音等。

3.基于建筑相容度計算的可拓數(shù)據(jù)挖掘

針對中外建筑設(shè)計數(shù)據(jù)資源的挖掘需要解決其差異對比與相互依存關(guān)系同時存在的問題。數(shù)據(jù)資源可能是元素矛盾也可能是構(gòu)成矛盾。針對不同的矛盾問題,對其進(jìn)行相容可拓數(shù)據(jù)挖掘。通常情況下,建筑形態(tài)的組成是不協(xié)調(diào)的,即在建筑的設(shè)計中,形態(tài)元素與現(xiàn)有的環(huán)境不相適應(yīng)。針對建筑物形態(tài)相容的問題,采用可擴(kuò)充數(shù)據(jù)挖掘技術(shù),將物體形態(tài)元素或現(xiàn)有條件轉(zhuǎn)化為可拓形式,并對其進(jìn)行相應(yīng)的相容性分析,以此獲得相關(guān)的建筑形狀信息,從而幫助建筑設(shè)計者做出相應(yīng)的決策[7]。圖2 為中外建筑形態(tài)構(gòu)成相容可拓數(shù)據(jù)挖掘示意圖。

圖2 中,F(xiàn)(xn)表示相容度函數(shù),n 的取值為1,2,3。F(xn)的表達(dá)式為:

公式中,r(x)表示中外建筑設(shè)計數(shù)據(jù)所有子集之集;ir(x)表示某一目標(biāo)元素子集。根據(jù)上述公式,計算得出提取到的設(shè)計數(shù)據(jù)資源與對應(yīng)目標(biāo)元素的相容度,根據(jù)具體數(shù)值劃分可拓數(shù)據(jù)資源類別,完成對中外建筑設(shè)計數(shù)據(jù)的挖掘。由于建筑空間的特殊性,可拓數(shù)據(jù)挖掘技術(shù)在每個建筑中都具有獨(dú)特的定義,即使是同樣的兩個空間,在內(nèi)部的布置和使用上也會有所不同。因此,傳統(tǒng)的可擴(kuò)展數(shù)據(jù)挖掘方法不能完全復(fù)制傳統(tǒng)的方法,應(yīng)將其分類,并挖掘出可以提升創(chuàng)意水平的關(guān)鍵要素。在使用功能相近或類似的房間中,其空間特征的相似性較大,但差異較小。兩者之間的相似之處在于滿足這種使用需要,而差異性則是不同于其它建筑空間的創(chuàng)新之處??赏財?shù)據(jù)挖掘技術(shù)可以從建筑空間數(shù)據(jù)中提取創(chuàng)新性的知識,從而發(fā)掘創(chuàng)意的新視角,幫助建筑師在繼承傳統(tǒng)建筑的同時,創(chuàng)造出新的空間。對未來建筑空間的解讀,就是對建筑空間發(fā)展的趨勢進(jìn)行梳理與預(yù)測。在建筑設(shè)計案例庫的基礎(chǔ)上,利用可擴(kuò)展數(shù)據(jù)挖掘技術(shù),可以從海量的歷史資料中獲得相關(guān)的信息,并對其進(jìn)行預(yù)測,從動態(tài)的空間數(shù)據(jù)中發(fā)掘規(guī)律,尋求空間創(chuàng)新的突破口。

4.數(shù)據(jù)挖掘效果分析

從中外雙語資源中挖掘?qū)嶒?yàn)所需的數(shù)據(jù),采用正確率、召回率以及F-測試度三個指標(biāo)實(shí)現(xiàn)對基于雙語信息的數(shù)據(jù)挖掘方法(實(shí)驗(yàn)組)、基于大數(shù)據(jù)的數(shù)據(jù)挖掘方法(對照組A)和基于區(qū)塊鏈的數(shù)據(jù)挖掘方法應(yīng)用性能進(jìn)行衡量。下述為三個指標(biāo)的計算公式:

公式中,j 表示數(shù)據(jù)挖掘結(jié)果的正確率;m 表示正確挖掘結(jié)果數(shù)量;M 表示總挖掘結(jié)果數(shù)量;h 表示召回率;W 表示所下載網(wǎng)頁當(dāng)中總的翻譯對數(shù);F 表示測試度,即以正確率和召回率為依據(jù)的測試結(jié)果量化數(shù)值。在需要進(jìn)行數(shù)據(jù)挖掘的中外建筑設(shè)計數(shù)據(jù)資源中,人為引入建筑專業(yè)術(shù)語125對和標(biāo)準(zhǔn)外語單詞355 個。在實(shí)驗(yàn)過程中,分別設(shè)置兩種數(shù)據(jù)挖掘條件,一種為提取規(guī)則匹配雙語對,另一種添加一次規(guī)則后匹配雙語對。針對兩種條件下,三種挖掘方法的各項(xiàng)指標(biāo)進(jìn)行計算,并將計算結(jié)果繪制成曲線圖。其中,圖3 為三種挖掘方法在提取規(guī)則匹配雙語對條件下的正確率j指標(biāo)對比圖。

圖4 為三種挖掘方法在添加一次規(guī)則后匹配雙語對條件下,召回率h 指標(biāo)對比圖。

圖5 為兩種條件下,三種挖掘方法的綜合測試度F 指標(biāo)的對比結(jié)果。

結(jié)合上述三組對比結(jié)果可以看出,實(shí)驗(yàn)組無論是正確率j、召回率h,還是綜合測試度F 的指標(biāo)數(shù)值均明顯高于另外兩組對對照組的挖掘方法。具體而言,實(shí)驗(yàn)組的正確率、召回率和綜合測試度的數(shù)值均隨著雙語對數(shù)的增加而增加,最低數(shù)值也超過了96%,而另外兩組對照組挖掘方法的各項(xiàng)指標(biāo)均低于實(shí)驗(yàn)組挖掘方法的最低值,相差較大。

因此,綜合實(shí)驗(yàn)結(jié)果以及具體分析得出,本文提出的方法在實(shí)際應(yīng)用中能夠有效提高對中外建筑設(shè)計數(shù)據(jù)挖掘的正確率、召回率以及綜合測試度,且三種指標(biāo)的最低數(shù)值也超過了96%,達(dá)到提升中外建筑設(shè)計數(shù)據(jù)利用價值的目的。

5.結(jié)束語

本文基于雙語信息技術(shù)的應(yīng)用優(yōu)勢,將其應(yīng)用到對中外建筑設(shè)計數(shù)據(jù)挖掘當(dāng)中,提出了一種全新的數(shù)據(jù)挖掘方法。通過將該數(shù)據(jù)挖掘方法與另外兩種挖掘方法對比得出,新的挖掘方法綜合性能明顯更高。將新的數(shù)據(jù)挖掘方法應(yīng)用于實(shí)際,可為建筑設(shè)計者提供更科學(xué)和合理地獲取設(shè)計數(shù)據(jù)資源的方法,進(jìn)而促進(jìn)設(shè)計者的設(shè)計效率。由于時間限制,本文研究有待在今后繼續(xù)深入探究,例如,對數(shù)量不斷增加的挖掘數(shù)據(jù)需要為其建立空間更大的數(shù)據(jù)庫等,以此實(shí)現(xiàn)對數(shù)據(jù)挖掘的進(jìn)一步完善。

圖3 三種挖掘方法相同條件下正確率j 對比圖

圖4 三種挖掘方法相同條件下召回率h 對比圖

圖5 三種挖掘方法綜合測試度指標(biāo)F 對比圖

猜你喜歡
物元正確率雙語
門診分診服務(wù)態(tài)度與正確率對護(hù)患關(guān)系的影響
基于可拓物元模型的故障診斷研究與應(yīng)用
基于改進(jìn)物元的大壩基巖安全評價
基于物元分析的橋梁加固效果評價
北方交通(2016年12期)2017-01-15 13:52:38
生意
品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
生意
故事會(2016年15期)2016-08-23 13:48:41
基于熵權(quán)模糊物元的高速公路投資績效評價研究
快樂雙語
新晨(2013年5期)2014-09-29 06:19:50
快樂雙語
新晨(2013年7期)2014-09-29 06:19:50
屯留县| 大丰市| 黄龙县| 介休市| 澎湖县| 怀柔区| 扶风县| 望城县| 九龙城区| 许昌市| 桃园县| 桃源县| 贡觉县| 安溪县| 米易县| 杭锦旗| 团风县| 桐梓县| 柯坪县| 拜城县| 中西区| 富蕴县| 彩票| 黄平县| 项城市| 永吉县| 邯郸市| 芦山县| 龙游县| 体育| 宝丰县| 稷山县| 红安县| 吉木萨尔县| 泽普县| 湛江市| 集贤县| 石首市| 远安县| 沁阳市| 广宁县|