国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法

2019-09-28 01:25:20昭,宋壹,陳
計算機技術(shù)與發(fā)展 2019年9期
關(guān)鍵詞:延時建模誤差

李 昭,宋 壹,陳 鵬

(三峽大學(xué) 計算機與信息學(xué)院,湖北 宜昌 443002)

0 引 言

現(xiàn)代信息產(chǎn)業(yè)的長足發(fā)展使人們逐漸從對信息數(shù)量的崇拜轉(zhuǎn)向?qū)π畔①|(zhì)量的追求。作為計算機信息產(chǎn)業(yè)、大數(shù)據(jù)領(lǐng)域的重要組成部分,針對數(shù)據(jù)預(yù)測的研究近年來不斷取得新的成果,呈現(xiàn)出了蓬勃發(fā)展的勢頭。隨著數(shù)據(jù)量的不斷增長,該領(lǐng)域相關(guān)技術(shù)不斷發(fā)展成熟,這也為數(shù)據(jù)預(yù)測賦予了更加豐富的內(nèi)涵:從分析角度看,數(shù)據(jù)預(yù)測是對數(shù)據(jù)信息內(nèi)在本質(zhì)、潛在關(guān)聯(lián)的深入挖掘與剖析;從應(yīng)用角度看,數(shù)據(jù)預(yù)測是對數(shù)據(jù)信息增長方向、發(fā)展趨勢的準(zhǔn)確評價與預(yù)估。數(shù)據(jù)量的膨脹雖然為數(shù)據(jù)預(yù)測領(lǐng)域提供了廣闊的素材空間與研究基礎(chǔ),但另一方面也制約了預(yù)測技術(shù)的進一步優(yōu)化,集中表現(xiàn)為以下幾點:一是噪聲數(shù)據(jù)的大量存在擾亂了預(yù)測方法的正常工作,使得預(yù)測效率降低;二是數(shù)據(jù)安全受到嚴(yán)峻挑戰(zhàn);三是缺乏有針對性、深層次的信息分析提煉手段,數(shù)據(jù)的價值未得以充分發(fā)揮[1]。大數(shù)據(jù)時代處理數(shù)據(jù)理念的三大轉(zhuǎn)變是“要全體不要抽樣、要效率不要絕對精確、要相關(guān)不要因果”[2],因此,掌握好、挖掘好、運用好既有數(shù)據(jù),不斷從數(shù)據(jù)中創(chuàng)造更多的價值,成為了數(shù)據(jù)預(yù)測研究領(lǐng)域的新課題。

文中研究內(nèi)容所依托的“三峽大學(xué)科研大數(shù)據(jù)計算服務(wù)平臺”是根據(jù)數(shù)據(jù)預(yù)測領(lǐng)域研究趨勢和發(fā)展目的構(gòu)建的具有鮮明應(yīng)用導(dǎo)向的開放型服務(wù)平臺,涵蓋了信息上傳、內(nèi)容分析、模型構(gòu)建等內(nèi)容,為數(shù)據(jù)預(yù)測服務(wù)方法的構(gòu)建提供了現(xiàn)實可用的載體。該平臺的一大亮點是數(shù)據(jù)互通互用、方法共建共享,抽象包裝好的數(shù)據(jù)上傳模塊大大提高了上傳效率、優(yōu)化了上傳體驗,而且數(shù)據(jù)一旦被上傳到云端,所有平臺用戶均可查看、下載;平臺還為用戶提供了數(shù)據(jù)預(yù)測服務(wù)的構(gòu)建體系,包括數(shù)據(jù)訪問、數(shù)據(jù)預(yù)處理、特征工程、統(tǒng)計分析、機器學(xué)習(xí)、文本分析、數(shù)據(jù)可視化等模塊,用戶可以根據(jù)自己的實際需要,以抽象的方法構(gòu)建出相應(yīng)的服務(wù)模型,結(jié)合自己或其他用戶已經(jīng)上傳的數(shù)據(jù)即可投入實際運行使用。例如,基于數(shù)據(jù)采集與特征分析的城市火災(zāi)風(fēng)險預(yù)測服務(wù)、城市人口疾病概率預(yù)測服務(wù)、影片受歡迎程度預(yù)測服務(wù)、新聞節(jié)目延時風(fēng)險預(yù)測服務(wù)等,都可以基于該科研大數(shù)據(jù)計算服務(wù)平臺進行構(gòu)建和實現(xiàn)。

在數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方面,文獻[3]只指出了數(shù)據(jù)預(yù)測的理論背景和應(yīng)用領(lǐng)域,沒有對相關(guān)方法做進一步研究;文獻[4]提供了數(shù)據(jù)預(yù)測模型性能度量的維度與相關(guān)技術(shù),但沒有通過實際用例進行實驗研究;文獻[5]提出了基于主成分分析和統(tǒng)計建模的數(shù)據(jù)預(yù)測模型,但僅僅應(yīng)用在經(jīng)濟預(yù)測領(lǐng)域,沒有抽象出可移植的通用模型。

作為對該平臺實用性、可靠性的驗證,文中通過數(shù)據(jù)樣本采集和特征提取、特征預(yù)處理、建模技術(shù)選擇等過程,提出了一種基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法。該方法以機器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)為基本手段,構(gòu)建了“數(shù)據(jù)—特征—模型—數(shù)據(jù)”的預(yù)測鏈,較高的抽象性使其移植性能良好,能夠在比較廣泛的領(lǐng)域得以應(yīng)用,從而為科研大數(shù)據(jù)平臺上具體服務(wù)的構(gòu)建提供統(tǒng)一化模型。

1 科研大數(shù)據(jù)服務(wù)平臺簡介

數(shù)據(jù)量的迅猛增長在為數(shù)據(jù)使用者帶來機遇的同時,也催生了許多亟待解決的問題。有的研究者掌握大量數(shù)據(jù),但空白的數(shù)據(jù)整合方法、落后的數(shù)據(jù)建模技術(shù)、低下的數(shù)據(jù)使用效率制約了數(shù)據(jù)量優(yōu)勢的發(fā)揮;有的研究者有一套科學(xué)系統(tǒng)的數(shù)據(jù)分析機制和模型構(gòu)建體系,但匱乏的數(shù)據(jù)獲取渠道使研究工作缺乏寶貴的原材料。數(shù)據(jù)與技術(shù)不相適應(yīng)的矛盾已經(jīng)成為數(shù)據(jù)預(yù)測領(lǐng)域的一個重要瓶頸。

將數(shù)據(jù)與技術(shù)進行有機整合的科研大數(shù)據(jù)服務(wù)平臺為解決這一矛盾提供了新路徑。該平臺的一個重要優(yōu)勢是將“數(shù)據(jù)上傳-數(shù)據(jù)分析-數(shù)據(jù)應(yīng)用”這一封閉管道改造成了開放鏈條,實現(xiàn)了一人上傳、多人分享、群體共用。具體地說,當(dāng)構(gòu)建一個數(shù)據(jù)預(yù)測服務(wù)時,一個用戶將原始數(shù)據(jù)上傳至服務(wù)器云端,該數(shù)據(jù)可以立即被平臺上的其他用戶檢索、瀏覽到,而且基于該數(shù)據(jù)的預(yù)測模型構(gòu)建過程也可以由所有用戶一起完成,所得到的模型結(jié)果可以一起應(yīng)用,這有效地提高了對數(shù)據(jù)潛在價值的挖掘能力。

2 數(shù)據(jù)預(yù)測服務(wù)的構(gòu)建方法

用好科研大數(shù)據(jù)服務(wù)平臺的關(guān)鍵在于擁有一個好的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法。數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法相當(dāng)于平臺上的一個抽象“模具”,以它為基礎(chǔ)可以構(gòu)建出各種不同的數(shù)據(jù)預(yù)測服務(wù),從而在各個領(lǐng)域有針對性的發(fā)揮作用。因此,數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法對于整個平臺能否有效運行具有十分重要的意義:一個好的構(gòu)建方法可以為各個服務(wù)的構(gòu)建提供良好的模板,從而提高運行效率、減少錯誤產(chǎn)生的可能性;相反,一個壞的構(gòu)建方法不單單影響自身,依據(jù)它所創(chuàng)建的具體服務(wù)都會帶有先天缺陷,從而嚴(yán)重影響平臺的運行效果。

文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法(見圖1),以樣本、特征、建模技術(shù)三個對象為主體,具有較好的可擴展性和可移植性。

圖1 基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法

2.1 樣本采集與特征選取

數(shù)據(jù)樣本是數(shù)據(jù)預(yù)測的基本對象,也是整個研究過程的開展空間,采集樣本是研究開始的前提。在一般的科研過程中,樣本采集的方式主要可以歸為以下幾類:一是在相關(guān)領(lǐng)域的信息公開網(wǎng)站上直接下載,如文獻[6];二是通過API接口在線獲取,如文獻[7];三是通過人工方式手動采集。無論通過何種方式,采集的數(shù)據(jù)都必須符合真實、完整、客觀、準(zhǔn)確的要求,才能夠應(yīng)用到下一步的分析中,以保證實驗結(jié)果的可靠性。在監(jiān)督學(xué)習(xí)中,采集的數(shù)據(jù)樣本總和稱為樣本空間,它會被進一步劃分為訓(xùn)練集和測試集,以構(gòu)建模型并進行檢驗。

特征是對研究對象的高度抽象,是數(shù)據(jù)對象所含信息的代表性表示,是表征數(shù)據(jù)的關(guān)鍵。在樣本采集過程中,一個數(shù)據(jù)對象往往包含著大量信息,其中部分與研究相關(guān)的信息對工作起到了重要作用,但大部分信息與研究工作無關(guān)或關(guān)聯(lián)度較小,將其納入研究范圍會大大降低數(shù)據(jù)分析、預(yù)測的效率。因此,從大量信息中找準(zhǔn)提取數(shù)據(jù)特征的角度,成為了每一名研究者必須面對的問題。選取特征既可以根據(jù)生活常識、工作經(jīng)驗進行人工判斷,也可以輔助SVD分解技術(shù)[8],通過計算能量值并設(shè)定取舍閾值選取最具影響力的特征??傊?,特征的選取一定要符合兩個方面的要求:一是最大限度表征數(shù)據(jù)樣本;二是最大程度降低計算開銷。

2.2 特征預(yù)處理

通過相關(guān)方法收集到的特征往往不能直接投入后續(xù)算法進行應(yīng)用,這可能與數(shù)據(jù)本身的特質(zhì)有關(guān),也可能與待使用算法模型對數(shù)據(jù)的要求有關(guān)。如果在樣本采集的過程中出現(xiàn)欠采樣或者過采樣[9]問題,導(dǎo)致樣本類別不均衡,則需要增加或減少相應(yīng)樣本;如果采集到了大量的異常樣本,而這些樣本本身并無太大實際意義并且對模型的構(gòu)建起到了嚴(yán)重的負(fù)面作用,則需要進行樣本的選擇與清洗;如果特征向量中某一維的取值范圍過大,而其實際影響力與其他特征并無顯著差別,則需要進行歸一化處理。

預(yù)處理既是對數(shù)據(jù)樣本的進一步提取與精煉,也是對下一步輸入模型的準(zhǔn)備與鋪墊,它并不產(chǎn)生新的對象,只是通過在既有特征對象上施加映射關(guān)系,生成一種新的表示。預(yù)處理方式的選擇一是要為數(shù)據(jù)預(yù)測的最終目的服務(wù),二是要符合特征的本質(zhì)屬性,三是要契合后續(xù)待使用模型的相關(guān)要求。

2.3 建模技術(shù)的選擇

根據(jù)處理好的特征進行建模是數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法的最后一步,也是最重要的一步。在一般的建模過程中,往往只對特征選取一種技術(shù)進行建模,這在預(yù)測要求較為簡單的情況下應(yīng)用得比較廣泛,但在特征數(shù)量豐富、特征間關(guān)系復(fù)雜的情況下則不再適用。文中描述的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法提出在同一數(shù)據(jù)集上分別使用不同建模技術(shù),以提高總模型與數(shù)據(jù)的擬合程度,進一步優(yōu)化預(yù)測效果。

在該方法中,服務(wù)是平臺的實例,模型是服務(wù)的載體,因此,選擇好的建模技術(shù)對單個服務(wù)乃至整個平臺的質(zhì)量具有決定性意義。需求導(dǎo)向是對建模技術(shù)進行選擇的根本遵循,即構(gòu)建的服務(wù)需要產(chǎn)生什么樣的結(jié)果,就相應(yīng)地選擇什么樣的模型;同時也要考慮模型與數(shù)據(jù)特征的兼容性,確保模型不僅能用得好,還能用得穩(wěn)。

3 對構(gòu)建方法的實例驗證

本部分用一個具體的應(yīng)用服務(wù)來驗證以上提到的構(gòu)建方法。

3.1 服務(wù)應(yīng)用背景概述

近年來,隨著新聞輿論工作的全面加強,新聞數(shù)量的不斷擴大、新聞內(nèi)容的不斷增多,導(dǎo)致電視新聞節(jié)目的既定時長經(jīng)常無法滿足實際的播出需要,延時[10]情況頻頻出現(xiàn)。特別是中央電視臺《新聞聯(lián)播》節(jié)目,延時頻率、幅度呈現(xiàn)出了“雙上升”勢頭。以全國“兩會”召開的3月為例,2016、2017、2018年3月《新聞聯(lián)播》節(jié)目延時的次數(shù)分別為6次、12次、22次,月延時率同比分別上漲了19.1%和32.3%;另據(jù)統(tǒng)計,在2017年9月下旬至2018年9月下旬的365期《新聞聯(lián)播》中,延時節(jié)目期數(shù)為75,延時率高達20.5%,相當(dāng)于每五天就有一次延時情況發(fā)生。

頻繁出現(xiàn)的延時情況會對電視臺生產(chǎn)播出各環(huán)節(jié)造成連鎖影響:一是打破節(jié)目常規(guī)播出預(yù)案,播出線上的各種不確定因素顯著增多,播出事故風(fēng)險陡然上升;二是影響后續(xù)節(jié)目編排,尤其是《新聞聯(lián)播》之后的黃金時段節(jié)目,會因延時出現(xiàn)播出時間后移、節(jié)目時長縮減甚至取消播出等嚴(yán)重后果;三是廣告播出受到波及,每天19點30分之后的廣告具有數(shù)量少、價格高、影響大、傳播廣等特點,每秒鐘均價高達數(shù)萬元,延時使得廣告無法按時播出造成經(jīng)濟損失;四是地方衛(wèi)視也會因此受到影響,國家有關(guān)部門明確規(guī)定地方臺每晚需完整轉(zhuǎn)播央視《新聞聯(lián)播》節(jié)目,延時情況的出現(xiàn)會使所有地方臺不得不臨時做出調(diào)整。

從《新聞聯(lián)播》大量的歷史播出庫中提取分析相關(guān)數(shù)據(jù),對可能出現(xiàn)的延時情況進行定量研究成為了預(yù)測延時、減小風(fēng)險、降低損失的新途徑。

3.2 樣本采集和特征選取

《新聞聯(lián)播》的延時具有一定的時間聚集性,在一些重大事件發(fā)生的時間段,延時的幾率高于平時。雖然近年來該節(jié)目的延時次數(shù)大幅增加,但相較于每天播出一期的密度,延時率依然維持在較低區(qū)間,“不延時是常態(tài),延時是例外”的基本面沒有打破。為有效分析《新聞聯(lián)播》延時特點,準(zhǔn)確找出延時背后的關(guān)鍵因素,選取了較具延時代表性的2015年9月、2016年3月和10月、2017年3月、2017年9月中上旬的135期節(jié)目;同時考慮到更為普遍的一般性,選取了2017年9月下旬至2018年9月下旬的365期節(jié)目,組成容量為500的樣本空間。

特征是對樣本的概貌性描述,是表征樣本的關(guān)鍵點,抓好特征是用好樣本的基礎(chǔ)與前提。在新聞延時預(yù)測服務(wù)中,時政新聞字?jǐn)?shù)、占比及輻射指數(shù)三個特征可以較好地對樣本進行解釋。特征間關(guān)系如圖2所示

圖2 特征間關(guān)系

3.2.1 時政新聞字?jǐn)?shù)

時政新聞一般指黨和國家的重要會議、國家重大外事活動及領(lǐng)導(dǎo)人出席的活動等。不同于其他類型新聞,時政新聞是《新聞聯(lián)播》的必播內(nèi)容,可變性小、播出彈性小,用其衡量節(jié)目的延時風(fēng)險具有較好的代表性。隨著新興媒體的不斷發(fā)展,絕大多數(shù)時政新聞的文字稿件在每晚《新聞聯(lián)播》播出之前就會被官方媒體發(fā)布于網(wǎng)站,因此時政新聞字?jǐn)?shù)(word number,WN)可以作為特征用于預(yù)測。

3.2.2 時政新聞?wù)急?/p>

時政新聞?wù)急?current politics ratio,CPR)定義為時政新聞時長(current politics duration,CPD)占節(jié)目常規(guī)時長(1 800秒)的比例,它是預(yù)測延時風(fēng)險的一個重要指標(biāo),如式1所示。

(1)

例如,當(dāng)該特征值在0.5時,說明時政新聞時長為15分鐘,余下15分鐘可用于其他類型新聞的播放,延時風(fēng)險較低;當(dāng)該特征值在0.8時,留給其他類型新聞的播放時間僅剩6分鐘,延時風(fēng)險較高;當(dāng)該特征值在1及以上時,說明僅時政新聞就已達到或超過30分鐘,延時風(fēng)險為100%。

《新聞聯(lián)播》播音員語速近年來處于較為固定的區(qū)間范圍,所以WN和CPD之間存在著增長關(guān)系,該關(guān)系可以利用前向逐步線性回歸方法找到。而由式1可知,CPD與CPR之間呈現(xiàn)出線性關(guān)系,所以可以由WN直接得到CPR。利用前向逐步線性回歸算法找到這一關(guān)系的過程將在3.4節(jié)具體描述。

3.2.3 輻射指數(shù)

單單依靠時政新聞?wù)急阮A(yù)測節(jié)目的延時風(fēng)險有時并不可靠。當(dāng)CPR很高時,節(jié)目可能會壓縮或者取消排序靠后的社會新聞、國際新聞,以對沖延時風(fēng)險;當(dāng)CPR很低時,也有可能會大量播放與時政新聞配套的其他新聞,從而造成超時比(overtime ratio,OR,實際播出時長與節(jié)目常規(guī)時長的比值)升高。

在抽取的500個樣本中,延時樣本有107個,其平均CPR為0.78,但其中也有部分樣本CPR值非常?。环茄訒r樣本有393個,其平均CPR為0.28,其中也有部分樣本CPR值非常高。表1列出了部分此類異常樣本。

表1 CPR與OR不相適應(yīng)的部分異常樣本

這類異常樣本出現(xiàn)的原因在于忽略了《新聞聯(lián)播》節(jié)目編排中的要聞影響因素。當(dāng)處于重大活動及節(jié)日期間時,《新聞聯(lián)播》節(jié)目為配合活動的開展、營造節(jié)日的氛圍,會有意地增加相關(guān)新聞的播出量,而這往往對是否延時及延時幅度造成較大影響。為此,文中提出“輻射指數(shù)”(influence exponential,IE)特征,表征重大活動及節(jié)日對《新聞聯(lián)播》節(jié)目延時的影響程度,如式2所示。

(2)

其中,k表示某天附近范圍內(nèi)可能對當(dāng)天新聞節(jié)目時長產(chǎn)生影響的重大事件數(shù);distance為該事件與當(dāng)天的時間距離;α為該事件影響力大小的量化體現(xiàn);β(初始值置0)根據(jù)該事件所處時間位置表示其是否對當(dāng)天節(jié)目產(chǎn)生影響,如產(chǎn)生則賦值為1,否則保持初始值。

根據(jù)對往期《新聞聯(lián)播》節(jié)目播出規(guī)律的觀察,提煉出黨代會開閉幕、全國兩會開閉幕、重大外交活動和其他重要活動等四類對延時率貢獻較大的主要事件,其α、β及影響鄰域取值由表2定義。

表2 輻射指數(shù)公式相關(guān)參數(shù)取值規(guī)則

如2018年全國兩會的開幕時間分別是3月3日、3月5日,閉幕時間分別是3月15日、3月20日,根據(jù)定義的影響鄰域及相關(guān)指數(shù),可以劃出這四個事件在當(dāng)月的影響范圍,如圖3所示。

以3月10日為例,其處于事件1、事件2、事件3三個事件的影響半徑內(nèi),因此有:

圖3 2018年3月重大活動影響范圍

3.3 特征預(yù)處理

在挑選出來的特征中,CPR、IE、OR均為個位數(shù),而WN則多以千、萬為單位,這給特征間相互關(guān)系的挖掘帶來了負(fù)面影響。為此,首先對WN進行歸一化處理,將其轉(zhuǎn)化為分布于0-1之間的值。

為使有限的數(shù)據(jù)集發(fā)揮出更好的效能,有必要對數(shù)據(jù)集進行合理劃分。這里采用基于分層采樣[11]的10-折交叉驗證[12],將500個樣本均分為10個子集,每個子集的非延時樣本與延時樣本之比控制在4∶1左右。

3.4 建模技術(shù)選擇一:通過前向逐步回歸預(yù)測CPR

時政新聞?wù)急仁穷A(yù)測延時比的重要指標(biāo),但每天的CPR只有當(dāng)節(jié)目播出后才能獲得,因此單純的CPR對預(yù)測沒有直接意義。3.2.2中已經(jīng)提到可以通過機器學(xué)習(xí)算法,用時政新聞字?jǐn)?shù)來預(yù)測時政新聞?wù)急?,從而將CPR這一后得特征轉(zhuǎn)化為先得特征,達到預(yù)測的目的。

3.4.1 前向逐步回歸算法

前向逐步回歸是機器學(xué)習(xí)線性回歸算法[13]中的一個重要方法,其將誤差初始化為無窮大,之后對特征賦予初始值為0的權(quán)重,通過每次對權(quán)重加、減步長后計算并覆蓋誤差,得到使誤差最小的系數(shù)。(它屬于一種貪心算法,每一步都盡可能減少誤差[7])

在此,采用絕對值誤差度量真實值與預(yù)測值之間的偏差,如式(3)所示。

(3)

3.4.2 建立WN-CSR模型

這里展示了以第一個子集為測試集,后九個子集為訓(xùn)練集得到的WN-CSR前向逐步回歸模型,圖4(a)、(b)分別是將該模型應(yīng)用在訓(xùn)練集和測試集上的結(jié)果(x、y軸分別表示歸一化處理后的WN和CSR)。

(a)將模型應(yīng)用在訓(xùn)練集

(b)將該模型應(yīng)用在測試集圖4 前向逐步回歸建模過程及模型擬合效果

可以看到,該模型對大多數(shù)樣本點進行了很好的擬合,但仍有部分樣本點與模型相距較遠(yuǎn),且實際值高于預(yù)測值的“正向誤差樣本量”遠(yuǎn)多于實際值低于預(yù)測值的“反向誤差樣本量”,即時政新聞字?jǐn)?shù)較少時仍有較高的幾率出現(xiàn)高時政新聞?wù)急?。文獻[14]對此現(xiàn)象給出了解釋。

盡管如此,大多數(shù)樣本間依然存在較為明顯的線性關(guān)系,經(jīng)過10-折交叉驗證,可得WN-CSR平均模型為:

y=1.539 2x

(4)

該模型平均訓(xùn)練誤差、平均測試誤差分別為0.05、0.14。

3.5 建模技術(shù)選擇二:通過三維點云建模預(yù)測OR

3.2.3節(jié)給出了計算輻射指數(shù)IE的公式,3.4.2節(jié)給出了WN-CSR模型,本節(jié)討論利用MATLAB的cftool工具箱進行三維點云建模,得到CSR-IE:OR的映射關(guān)系。

3.5.1 Curve Fitting Tool

MATLAB提供了大量實用的工具箱,其中cftool(curve fitting tool)因其“使用方便、功能強大、能實現(xiàn)多種類型的線性或非線性曲線”[15]而得以廣泛應(yīng)用。它包含了多種對數(shù)據(jù)點進行逼近和擬合的方式,在建模完成后還會提供擬合度、自由度、均方誤差等指標(biāo),為用戶判斷該模型的好壞提供量化依據(jù);友好的數(shù)據(jù)可視化功能也是該工具箱的一大亮點。cftool為三維點云曲面擬合提供了四種方式,即custom equation(自定義方程)、interpolant(插值逼近)、LOWESS(局部加權(quán)回歸散點平滑)及polynomial(多項式擬合)。在較為常用的多項式擬合中,需要用戶指定較為合適的最高冪次:如果冪次過高,模型對數(shù)據(jù)學(xué)習(xí)得太好而泛化能力較差,就會出現(xiàn)“過擬合”[16];冪次過低可能導(dǎo)致模型無法挖掘到數(shù)據(jù)間的內(nèi)在關(guān)系,從而不能充分逼近數(shù)據(jù),即出現(xiàn)“欠擬合”現(xiàn)象。cftool工具箱在曲面擬合時允許的最高冪次為“雙5次”[17]。此外,cftool也為用戶提供了指定模型魯棒性的機會,可根據(jù)實際需要選擇off(常規(guī)最小二乘法)、LAR(最小絕對值殘差)和bisquare(二次方權(quán)值)[18]。

3.5.2 建立CSR-IE:OR模型

該模型的構(gòu)建過程仍然采用10-折交叉驗證方式,將第1~10個子集依次作為測試集,其余9個子集依次作為訓(xùn)練集。在當(dāng)前訓(xùn)練集、測試集上,將三維點拆分出X、Y、Z軸作為cftool的輸入。在輸入?yún)?shù)選項中,擬合方式選擇多項式擬合“Polynomial”,冪次選擇“x:2,y:2”,魯棒性選擇最小絕對值殘差“LAR”。

由此可得該模型的一般形式,如式5所示。

f(x,y) =p00+p10x+p01y+p20x2+p11xy+p02y2

(5)

其中,x為時政新聞?wù)急菴SR;y為輻射指數(shù)IE;f(x,y) 為超時比OR。

圖5展示以第一個子集為測試集,后九個子集為訓(xùn)練集得到的CSR-IE:OR三維點云模型(x、y、z軸分別表示CSR、IE、OR)。

圖5 CSR-IE:OR點云模型

經(jīng)過10-折交叉驗證可得CSR-IE:OR平均模型:p00=1.006 6,p10=-0.142 6,p01=0.057 3,p20=0.330 7,p11=0.173 1,p02=-0.030 4。

以上步驟給出了該方法構(gòu)建出的一個具體數(shù)據(jù)預(yù)測服務(wù),該服務(wù)在科研大數(shù)據(jù)服務(wù)平臺上的部署如圖6所示。

圖6 服務(wù)方法在數(shù)據(jù)平臺上的部署

4 模型應(yīng)用與誤差分析

3.5.2節(jié)給出了10次實驗得出的平均模型。為進一步評估模型的可信度,從訓(xùn)練誤差、測試誤差、決定系數(shù)(R-Square)、均方根誤差(RMSE)、可信度、延時可信度、非延時可信度等七個維度對10個模型進行度量。

訓(xùn)練誤差指該模型在對應(yīng)訓(xùn)練集上的平均誤差;測試誤差指該模型在對應(yīng)測試集上的平均誤差;決定系數(shù)[19]取值范圍為[0,1],表征模型對數(shù)據(jù)的解釋能力,越接近1表示擬合程度越高;均方根誤差[20]表征預(yù)測值與實際值的離散程度(見式6);可信度為模型在每一組測試集50個樣本中預(yù)測成功的比例;延時可信度為模型在每一組測試集所有延時樣本中的查出率;非延時可信度為模型在每一組測試集所有非延時樣本中的查出率。具體如表3所示。

(6)

(7)

依據(jù)表3可知,該方法的平均訓(xùn)練誤差、測試誤差均在0.06左右,即預(yù)測新聞節(jié)目時長的誤差均值為1.8分鐘;平均決定系數(shù)為0.981 6,說明預(yù)測模型與真實模型的擬合度處于較高水平;均方根誤差為0.027 5,說明預(yù)測值與真實值離散程度較??;可信度為0.86,說明該方法判斷新聞節(jié)目延時與否的可信度為86%;延時可信度為70.4%,說明該方法判斷新聞節(jié)目延時的可信度為70.4%;非延時可信度為0.911,說明該方法判斷新聞節(jié)目不延時的可信度為91.1%。綜上所述,基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法在新聞延時領(lǐng)域取得了良好的應(yīng)用效果。

表3 模型誤差度量結(jié)果

5 結(jié)束語

文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法,以科研大數(shù)據(jù)服務(wù)平臺為依托,以實際應(yīng)用中的不同需求為導(dǎo)向,以具體服務(wù)為實際的運行載體,對整個服務(wù)構(gòu)建過程提供了一套流程完善、可用性和復(fù)用性強的機制。以新聞節(jié)目延時預(yù)測為例進行的實驗表明,所構(gòu)建的服務(wù)對數(shù)據(jù)進行了合理采集,對特征進行了準(zhǔn)確抽取,對建模技術(shù)進行了有效選擇,最終獲取了良好的預(yù)測結(jié)果。

一個好的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法既需具備良好的實用性和復(fù)用性,也需最大程度實現(xiàn)用戶的預(yù)測需求。文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測服務(wù)構(gòu)建方法在實用性和復(fù)用性上表現(xiàn)良好,但方法可變性不足,仍需在特定的應(yīng)用領(lǐng)域進行優(yōu)化。

猜你喜歡
延時建模誤差
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
基于級聯(lián)步進延時的順序等效采樣方法及實現(xiàn)
角接觸球軸承接觸角誤差控制
哈爾濱軸承(2020年2期)2020-11-06 09:22:26
Beidou, le système de navigation par satellite compatible et interopérable
壓力容器制造誤差探究
基于PSS/E的風(fēng)電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
不對稱半橋變換器的建模與仿真
九十億分之一的“生死”誤差
山東青年(2016年2期)2016-02-28 14:25:41
Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
三元組輻射場的建模與仿真
南川市| 辉县市| 西畴县| 仲巴县| 临湘市| 巢湖市| 鄂尔多斯市| 永修县| 西畴县| 广平县| 昌宁县| 竹北市| 大连市| 永州市| 郸城县| 龙里县| 乐山市| 长宁县| 万安县| 尉氏县| 闽侯县| 普兰店市| 凤台县| 南川市| 金门县| 博客| 安顺市| 长乐市| 镇宁| 彝良县| 会昌县| 敦煌市| 屯昌县| 杨浦区| 社旗县| 榕江县| 武山县| 汕头市| 万载县| 横峰县| 杭锦旗|