譚期文 陸冰芳
[摘 要]本文以多元化業(yè)務建模框架體系為研究對象,對其在交互式學習技術條件下的應用模式進行分析。通過對通用機器學習算法的簡述,說明機器學習中數據標準化與歸一化的處理方案,在實現機器學習數據驅重的同時,提高數據清洗與治理能力。同時,在系統(tǒng)化的訓練模式細化說明中,分步驟對其實施方案進行介紹,為相關技術內容開發(fā)與研究提供參考材料。
[關鍵詞]多元化業(yè)務;交互學習技術;數據挖掘
doi:10.3969/j.issn.1673 - 0194.2020.02.026
[中圖分類號]TP391.1;TP18[文獻標識碼]A[文章編號]1673-0194(2020)02-00-02
0? ? ?引 言
現代社會市場體系下,企業(yè)的產業(yè)發(fā)展布局不斷推進,并在持續(xù)深化的發(fā)展過程中,形成了系列性的深度分析。尤其在多元化業(yè)務內容上,需要建立起開放性的模型框架,并在交互式學習的內容中,不斷推進技術應用開發(fā),并通過系列化的技術手段,形成信息技術體系的應用升級。尤其在實際處理中,應在軟件系統(tǒng)與應用程序的建設中,將通用機器學習算法作為引導,保證學習的有效性,不斷對整體多元化業(yè)務建模形成積極影響。
1? ? ?通用機器學習算法簡述
機器學習系統(tǒng)中,形成了分類、聚類、關聯分析、深度學習4種細化分類條件。其中,在分類條件下,會將物體或抽象對象的集合進行分類處理,并在形成基本訓練樣本數據的同時,形成多樣化的數據標簽。由此,可在組織問題處理方法的過程中,保證其形式的多樣化。而在應用內容上,也可以采用決策樹、貝葉斯、人工神經網絡、K-近鄰等激活手段,完成數據資料的分類分析,并在一定邏輯關系的引導下,保證自身數據分析的有效性。而在聚類分析中,主要通過數據深度挖掘,在對集合組進行整理的同時,處理未知內容的應用條件。在聚類數據處理中,還可將同一簇對象的相似性內容做出定位,并在不同簇間對象的差異性分析中,整理出深入性數據的指示內容。尤其在獨立工具獲取的條件下,可在保證集合步驟分析的同時,保證其他算法的預處理條件。而對于關聯分析,則相對較為簡單,通過對大量數據關聯性狀態(tài)的判斷,可對其展開應用條件下的描述分析,并以此定位相應數值的應用狀態(tài)。另外,在深度學習的內容上,需要建立起新的技術領域,并在開發(fā)模擬人腦學習神經網絡的同時,使其參照人腦的運算模式,完成數據分析,以此保證自身對數據內容的處理效果,實現數據的效率化使用。
2? ? ?機器學習中的數據標準化與歸一化
2.1? ?標準化
標準化技術條件中,模型中的數據信息轉化為標準正態(tài)分布數值,并形成公式。
式中:xi為輸入向量x的第i個特征;ui為xi的平均數值;δi為特征量標準差。由此,形成Z-score標準化。在進行變量標準化調整后,50%的觀察值低于0,而另一半則在0以上,形成了整體均值狀態(tài)為0,標準差數值危機的數據體系。如果在這一數據中,特征狀態(tài)的分布系數有大量0值存在,則表現出這一標準化數值的不可控狀態(tài)。在技術分析中發(fā)現,經過標準化處理后,xi以不帶綱的狀態(tài)存在,消除了不同特征向量狀態(tài)下量綱差異導致的不合理因素,完成了數據資料的標準化調整。而在大數據定理的條件下,將一定數量的樣本量,作為正態(tài)分布進行分析,可以在網絡模型搭建過程中,保證數據的敏感性,并維護數據訓練基本條件。
2.2? ?歸一化
歸一化的技術處理中,主要目標是確定某種存在的映射關系,并將源數據數值映射到[a,b]區(qū)間中,通常情況下,會將a取值設為[-1,1],將b取值設置為[0,1]。而歸一化處理的方法上,可以針對性進行區(qū)分,在劃分不同歸一化條件的同時,提高歸一化處理的針對性,如下所示。
①Mean-max歸一化處理,可直接映射到[-1,1]中,形成公式。
②min-max歸一化處理,則映射到[0,1]參數上,形成公式。
在歸一化應用處理的過程中,需要對場景條件做出說明,并以此確定自身技術條件的應用內容。第一,對于概率模型,無須進行歸一化處理;第二,SVM與線性回歸之類的最優(yōu)化問題,需要進行歸一化處理,并主要針對其變量取值數據進行分析;第三,神經網絡體系中的歸一化處理有明顯的必要性,需將變量取值限制在[-1,1],由此弱化部分大數值變量數據對整體模型產生的負面影響。通常情況下,神經網絡中的隱藏層會使用tanh完成激活函數,并在優(yōu)于sigmoid激活的條件下,適應其雙曲正切函數的取值條件,在tanh的0均值狀態(tài)下,保證歸一化的有效性;第四,K-近鄰算法中,如果沒有對解釋變量數值(x)做出歸一化調整,則小數量級的釋變量條件可忽略不計。
3? ? ?基于多元化業(yè)務建??蚣艿挠柧殧祿J?/p>
多元化狀態(tài)下,業(yè)務內容的建??蚣芙Y構中,數據挖掘技術是完成技術分析的核心。通過開展數據挖掘處理,可以針對應用條件下,數據模型訓練能力不足的問題,提出有效解決策略,并在數據訓練效果上,獲得本質化提升。而在執(zhí)行訓練數據(Train Data)的過程中,除了完成基礎性的模型檢驗以外,還可以引入驗證數據,并在輔助模型上,補充小型數據集的管理辦法,并通過自助法等手段,實現訓練數據模式的完善體系建設。
3.1? ?數據挖掘
數據挖掘作為計算機學科的分支,在對多元化業(yè)務建??蚣苓M行優(yōu)化調整的過程中,可以提高訓練數據的應用深度,并使整體數據體系更好地展現出信息價值。而在具體的使用數據應用分析中,可以對數據模型做出判斷,通過以下4個階段性的計算,保證數據分析的有效性。
3.1.1? ?訓練階段(training phase)
訓練階段為所有數據挖掘處理中公用的基礎性技術,在建模處理之前,需要對數據信息進行預處理。尤其在獲取定義是被分配信息的內容上,務必要對挖掘類型與特定控制信息內容做出細化分析。尤其在分類與回歸技術調整中,訓練階段還需要形成一個確認處理,以此維護訓練分析的有效性。另外,在訓練階段的數據管理中,還需要針對具體的數據挖掘模型,設置單獨的額外數值組,并作為對測試階段的具體描述。而這一獨立數值組的計算結果,則可定位為實例內容,以此完成對決定運算法則結束時間的技術控制。
3.1.2? ?模型自查階段(model introspection phase)
在添加并設計模型自查階段的過程中,可將其作為解釋與評估的具體模型,完成整體數據挖掘的對照管理。在執(zhí)行過程中,需要將模型與目標設置為統(tǒng)一的細查數據,并在揭示訓練階段數據的同時,定位數據信息中潛藏的規(guī)律條件。同時,通過對具有統(tǒng)計價值信息的特性評估,保證評估模型的分析質量。
3.1.3? ?測試階段(testing phase)
測試階段的設置,可配合分類與回歸。在測試過程中,可以形成模型化的對象讀入系列數值組,并通過對相應數值組的具體評估,確定數值對象段的實際數值比較條件。數據統(tǒng)計結果可以作為應用案例,確定模型質量的可用性水平,為多樣化業(yè)務模型的適用條件奠定基礎。
3.1.4? ?應用階段(application phase)
在模型的應用階段中,需要輸入數據組完成整體模型的評估分析。同時,也可以使用大量的數據組作為基礎,對數據模型進行判斷,以求更加系統(tǒng)的補充數據模型的計算條件。而為了形成正確的模型數據輸入值,則務必保證將其分配到訓練階段,并完成對相關字段的確認與分析。由此,在預定課題的模型應用中,保證整體課題的建設條件,并在模型系統(tǒng)中形成完整的推論信息。最終,在推論數據的輔助作用下,可以配合附加狀態(tài)的特性內容,提交并獲得完整的數據挖掘資料。注意,特定條件下,推論內容的應用,是提高整體數據分析可信度狀態(tài)的重要條件,需要在整體數據挖掘處理中,關注其添加狀態(tài)與分析結果。
3.2? ?自助法計算
進行多元化業(yè)務建模分析過程中,還可嘗試引入自助法進行分析。通過強調自助采樣模型的(bootstrap sampling)基礎性,在包含m數量樣本集合數據系統(tǒng)D中,形成具體的數據集合。由此,在對集合進行分析的過程中,從中提煉出具體的樣本條件,并復制交換到初始集合數據D中,以保證樣本采集效果的重復性。經過m次的重復執(zhí)行后,可以形成帶有m個樣本數據的新數據集,以此對自助采樣結果進行計算,形成此采樣的不被采集概率,表示如下。
(4)
經過這一概率分析,可以向自助采樣發(fā)出通知,并在初始數據集合D中,形成36.8%的樣本未出現概率。由此,可以將新生成的樣本集合作為訓練集,在保證D/D′測試效果的同時,完成自助化的計算分析。在自助法分析中,可以有效地區(qū)分訓練集與測試集,在對自助法進行數據優(yōu)化的同時,使整體數據分布條件發(fā)生改變,并在這一因素的影響下,增加誤差的產生概率。所以,在進行數據分析與訓練的過程中,需要根據實際情況進行選擇,并采用留出法與交叉驗證法完成測試。
4? ? ?結 語
企業(yè)在應用多元化業(yè)務模型框架的條件上,需要借助交互式學習技術的優(yōu)勢條件,通過對整體技術體系的開發(fā),保證自身應用內容的管理狀態(tài)。尤其在優(yōu)化企業(yè)數據建??蚣艿倪^程中,應將深入化的數據分析作為核心,在保證深度學習狀態(tài)的同時,提高整體數據分析的有效性,并生成具體的數據分析結果,對企業(yè)的實際運行管理提供必要的指導,以此維護整體技術的開發(fā)運用。
主要參考文獻
[1]張雪松,莊嚴,閆飛,等.基于遷移學習的類別級物體識別與檢測研究與進展[J].自動化學報,2019(7).
[2]焦志倫,金紅,劉秉鐮,等.大數據驅動下的共享單車短期需求預測——基于機器學習模型的比較分析[J].商業(yè)經濟與管理,2018(8).
[3]冉智勇,胡包鋼.統(tǒng)計機器學習中參數可辨識性研究及其關鍵問題[J].自動化學報,2017(10).