国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

函數(shù)型數(shù)據(jù)分析若干方法

2022-01-26 05:10靳雪晴
現(xiàn)代計(jì)算機(jī) 2021年34期
關(guān)鍵詞:數(shù)據(jù)模型殘差線性

靳雪晴

(銅陵學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,銅陵 244000)

0 引言

在實(shí)際生活中,我們需要對(duì)很多數(shù)據(jù)進(jìn)行深度挖掘,例如身高增長(zhǎng)、醫(yī)學(xué)病例診斷、天氣變化、各種數(shù)據(jù)分析用到醫(yī)學(xué)診斷、氣象報(bào)告、兒童增長(zhǎng)分析、筆記識(shí)別、腦電數(shù)據(jù)分析等等方面。函數(shù)型數(shù)據(jù)分析就是這樣一種新型的統(tǒng)計(jì)學(xué)分析方法,它相比于普通常見(jiàn)的方法,具有更強(qiáng)的適用性。這是因?yàn)楹瘮?shù)型數(shù)據(jù)分析具有能夠?qū)o(wú)限維的數(shù)據(jù)進(jìn)行分析,并且還能夠?qū)?shù)據(jù)進(jìn)行多重降維而且把握更多更有利信息的特點(diǎn)[1]。隨著科技的發(fā)展,函數(shù)型特征的數(shù)據(jù)應(yīng)用越來(lái)越廣泛,也促使函數(shù)型數(shù)據(jù)分析方法正處于迅速發(fā)展階段。

函數(shù)型數(shù)據(jù)就是把數(shù)據(jù)用函數(shù)的形式表現(xiàn)出來(lái),它具有一個(gè)非常明顯的特征就是這個(gè)函數(shù)具有數(shù)據(jù)性。當(dāng)我們?cè)诜治鲆恍┢胀ǖ臄?shù)據(jù)的時(shí)候可能只會(huì)用到普通的函數(shù)去研究他的一些數(shù)據(jù)的簡(jiǎn)單排列,但是在面對(duì)非常多維的、間隔非常密集數(shù)據(jù)的時(shí)候這些普通函數(shù)就會(huì)無(wú)從下手,而且在數(shù)據(jù)統(tǒng)計(jì)中,經(jīng)常有一些數(shù)據(jù)無(wú)法獲取,就算能夠獲取也需要付出很大的代價(jià)。常常出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象,很大程度上阻礙了科學(xué)的進(jìn)步與發(fā)展。數(shù)據(jù)缺失的情況可以總體概括為以下幾點(diǎn):①完全隨機(jī)缺失。②隨機(jī)缺失。③不可忽略缺失。我們這時(shí)候就會(huì)需要一個(gè)新的函數(shù)來(lái)對(duì)他們進(jìn)行數(shù)據(jù)的收集,以及進(jìn)行普通函數(shù)無(wú)法進(jìn)行的全面的深刻的分析。對(duì)于這種現(xiàn)象我們就應(yīng)該對(duì)數(shù)據(jù)采用函數(shù)型數(shù)據(jù)分析方法來(lái)進(jìn)行彌補(bǔ),盡可能的保留有用的信息,還原真實(shí)的情況。函數(shù)數(shù)據(jù)不同以往把函數(shù)當(dāng)成一連串的點(diǎn)的集合,而是把函數(shù)數(shù)據(jù)當(dāng)成一個(gè)個(gè)單獨(dú)的項(xiàng)。函數(shù)型數(shù)據(jù)表現(xiàn)形式一般都是一條平滑的曲線或者就是一連串的函數(shù)xi(t)構(gòu)成的,這其中的t一般都是時(shí)間,當(dāng)然也能是除去時(shí)間外的自由變量;xi(t)中i取1,2,3…,N它則表示被測(cè)試對(duì)象的數(shù)量[2]。

函數(shù)型數(shù)據(jù)分析的基本想法是將帶有某種函數(shù)性質(zhì)的數(shù)據(jù)看成一個(gè)整體,并非當(dāng)作個(gè)體觀測(cè)值的一個(gè)序列。一方面,它克服了純粹的非參數(shù)函數(shù)回歸模型的維數(shù)限制。同時(shí)使得與線性部分的解釋作用變得更加容易,另一方面,考慮一些自變量和因變量之間的關(guān)系為非線性會(huì)比標(biāo)準(zhǔn)的線性回歸更加靈活。

1 含函數(shù)型數(shù)據(jù)模型的介紹

函數(shù)型數(shù)據(jù)模型的介紹:本文將介紹三種函數(shù)型數(shù)據(jù)模型:完全模型、部分模型、含誤差模型。

1.1 完全模型

其中T滿足:

而且Γ還是L2[0,1]→L2[0,1]上的算子,其中β(s,t)符合條件,那么我們認(rèn)為函數(shù)型的隨機(jī)誤差εi(t)是互不相干的,并且E{εi(t)}=0,E‖εi(t)‖2=a2<∞,我們這邊不對(duì)εi進(jìn)行是不是同分部進(jìn)行要求;模型中數(shù) 據(jù) 對(duì) (X i(t),Y i(t))滿 足χi(t)∈L2[0,1],Y i(t)∈L2[0,1][3]。

1.2 部分模型

如果在一個(gè)數(shù)據(jù)中既存在向量型又存在函數(shù)型的話,我們就稱這個(gè)數(shù)據(jù)為混合數(shù)據(jù),像這樣同時(shí)含有向量型和函數(shù)型數(shù)據(jù)的模型在我們的日常生活中也是經(jīng)常存在的。

在公式中Y是在概率空間(Ω,β,P)上的隨機(jī)的變量,且這個(gè)值是實(shí)值,那么Z代表的是(Z1,…,Z p)T上邊的隨機(jī)變量,這個(gè)值可以是0維到P維的實(shí)值[4]。{X(t):t∈Γ} 是在(Ω,β,P)概率空間上的過(guò)程值,整個(gè)公式的樣本是在[0,1]上的函數(shù)。式中的β=(β1,…,βp)是在任意一個(gè)維度上的參數(shù)向量,根據(jù)公式可以知道e,X(t),Z他們?nèi)齻€(gè)是互相不相關(guān)的。那么在β(t=0)β(t)=0的時(shí)候,本模型就是屬于經(jīng)典的線性的回歸方程。

1.3 含誤差模型

1.3.1 解釋變量帶有測(cè)量誤差

在考慮函數(shù)型回歸模型中解釋變量帶有測(cè)量誤差的情形時(shí),大多研究中只考慮一個(gè)解釋變量的測(cè)量誤差,而實(shí)際中我們的函數(shù)型回歸模型中不止一個(gè)解釋變量,可能是兩個(gè)或兩個(gè)以上,即不止一個(gè)誤差變量。

1.3.2 響應(yīng)變量隨機(jī)缺失

關(guān)于函數(shù)型回歸模型在響應(yīng)變量隨機(jī)缺失的情形,模型大多為單參數(shù)模型,而較為忽略對(duì)于出現(xiàn)多個(gè)參數(shù)函數(shù)型回歸模型的情形;而在處理缺失數(shù)據(jù)方法時(shí)會(huì)存在資源的大量浪費(fèi)和丟棄隱藏在這些對(duì)象中的信息;同時(shí)在截面數(shù)據(jù)、時(shí)間序列數(shù)據(jù)及面板數(shù)據(jù)下建立的回歸模型中考慮到解釋變量有測(cè)量誤差,同時(shí)響應(yīng)隨機(jī)缺失的復(fù)雜情形下模型的統(tǒng)計(jì)推斷。

2 函數(shù)型數(shù)據(jù)分析法

模型通常采用的方法。函數(shù)型數(shù)據(jù)的分析法,主要分為對(duì)數(shù)據(jù)分析、統(tǒng)計(jì)分析、主成分分析、最小二乘估計(jì)等。新型的函數(shù)型數(shù)據(jù)分析方法相比于較早的分析方法,他們有幾個(gè)共同的地方就是分析出滿足下一步計(jì)算所需的數(shù)據(jù),突出不同特征的數(shù)據(jù)以及他們之間的變化聯(lián)系情況等等。在本文中主要講述主成分分析和最小二乘估計(jì)及其在函數(shù)型數(shù)據(jù)模型中的應(yīng)用。

現(xiàn)大致介紹主成分分析法與最小二乘法的一些不足之處。①主成分分析法。主成分分析法中,應(yīng)保證降維后的信息量保持在一個(gè)較高水平,因?yàn)槠浣忉屍浜x帶有模糊性,在變量降維過(guò)程中體現(xiàn)其弊端(即提取主成分個(gè)數(shù)m通常要小于原始變量個(gè)數(shù)p,除非p本身較?。涣硗?,被提取的主成分需給出符合實(shí)際意義和背景的解釋,否則研究無(wú)實(shí)際含義。②最小二乘法。當(dāng)矩陣XTX不可逆時(shí),不能用最小二乘估計(jì),因?yàn)樽钚《朔ㄊ蔷€性估計(jì),在本質(zhì)上已經(jīng)默認(rèn)其是線性的關(guān)系,就表現(xiàn)出一定的局限性,而且在回歸過(guò)程中,回歸的關(guān)聯(lián)式不可能全部通過(guò)每個(gè)回歸數(shù)據(jù)點(diǎn)。但用于曲線擬合,當(dāng)自變量與因變量均值為0時(shí),相同方差的隨機(jī)誤差,該方法可給出統(tǒng)計(jì)意義上最好的參數(shù)擬合。

2.1 主成分分析

主成分分析法所利用的基本思想就是,函數(shù)在處理多維的數(shù)據(jù)的時(shí)候,通過(guò)對(duì)數(shù)據(jù)進(jìn)行主要的成分把握,對(duì)數(shù)據(jù)進(jìn)行有效的降低維度,對(duì)所處理的數(shù)據(jù)進(jìn)行簡(jiǎn)化。盡管這樣做會(huì)使得數(shù)據(jù)變的不是非常完整,但也通過(guò)降低緯度的方式掌握了問(wèn)題絕大部分的重要信息,這樣做會(huì)大大降低下一步對(duì)數(shù)據(jù)進(jìn)行的難度。然后把這些提取出來(lái)的變量通過(guò)方差依次減少的方式進(jìn)行排列。假設(shè)X=(x1,…,x P)是P維隨機(jī)變量,Σ為它的協(xié)方差矩陣,λ1≥λ2≥…≥λP是Σ的特征值,Φ1,…,ΦP是相應(yīng)的特征向量,根據(jù)矩陣的性質(zhì),我們可以得到:

考慮變換了的隨機(jī)變量:

若Y代表新隨機(jī)變量所成的向量,而?代表以?1,?2,…,?P為各列的正交矩陣,則Y便由X通過(guò)正交變換Y=?X而得到。

2.2 最小二乘估計(jì)

最小二乘法估計(jì)一般使用于過(guò)度確定的系統(tǒng),所謂的過(guò)度確定系統(tǒng)就是指未知數(shù)的個(gè)數(shù)是少于方程組的個(gè)數(shù)的一個(gè)系統(tǒng),用回歸方程來(lái)求近似解的傳統(tǒng)方式。在最小二乘法中相對(duì)比較重要的值就是殘差了,因?yàn)樗从沉嗽谇€擬合過(guò)程中所采用的數(shù)據(jù)值與擬合值之間的大小差距[6]。當(dāng)然在最估計(jì)中,殘差還是越小越好,只有殘差越小則說(shuō)明擬合曲線越接近原數(shù)值曲線。在將殘差最小化的過(guò)程中出現(xiàn)的問(wèn)題一般可以歸納為二種,其中第一種就是針對(duì)線性的或者普通的最小二乘法、第二種就是非線性的。具體采用哪種方法還是要看數(shù)據(jù)的殘差是不是線性的。無(wú)論是哪種情況他們的核心算法都是一樣的,當(dāng)所要處理的數(shù)據(jù)是線性的時(shí)候它本身?yè)碛幸粋€(gè)完整的解決方案,當(dāng)所處理的數(shù)據(jù)是非線性的時(shí)候,這時(shí)候通常就會(huì)用到一種迭代方法,在每一次的迭代系統(tǒng)由線性近似。無(wú)論是哪種方式最終我們都能夠一條由自變量和因變量擬合而成的曲線?;貧w分析它的最初目的就是對(duì)原數(shù)據(jù)進(jìn)行科學(xué)估計(jì)從而更加清晰的表達(dá)出原數(shù)據(jù),通常情況下在我們決定最佳擬合的時(shí)候,都是采用最小二乘法估計(jì),因?yàn)槭褂米钚《朔▉?lái)對(duì)數(shù)據(jù)進(jìn)行估計(jì)是非常方便準(zhǔn)確的。這種估計(jì)可以表示為:

3 結(jié)語(yǔ)

盡管說(shuō)函數(shù)型數(shù)據(jù)的出現(xiàn)很大程度上豐富了數(shù)據(jù)同及分析的領(lǐng)域,逐步發(fā)展成了能夠更好地解決現(xiàn)實(shí)生活中問(wèn)題的好工具、好幫手。但是函數(shù)型數(shù)據(jù)分析畢竟是一個(gè)數(shù)學(xué)數(shù)據(jù)分析的新興產(chǎn)物。它的很多方面還是有待完善,因此我們還需要不斷地去探索研究這個(gè)領(lǐng)域。盡管說(shuō)我們?cè)谶M(jìn)行函數(shù)型數(shù)據(jù)分析的時(shí)候引入了很多的基函數(shù),從而得到所觀測(cè)數(shù)據(jù)的函數(shù)型曲線。但是我們相信,隨著科學(xué)技術(shù)的蓬勃發(fā)展,未來(lái)會(huì)有更多的基函數(shù)來(lái)供我們進(jìn)行使用。

另外空間型數(shù)據(jù)分析相對(duì)于函數(shù)型數(shù)據(jù)分析來(lái)講,能夠處理里的維度信息更加龐大,并且這幾年也得到了很好的發(fā)展,相信未來(lái)能有越來(lái)越多的分析方法來(lái)供我們更好地對(duì)數(shù)據(jù)進(jìn)行處理。

猜你喜歡
數(shù)據(jù)模型殘差線性
多級(jí)計(jì)分測(cè)驗(yàn)中基于殘差統(tǒng)計(jì)量的被試擬合研究*
基于殘差-注意力和LSTM的心律失常心拍分類(lèi)方法研究
用于處理不努力作答的標(biāo)準(zhǔn)化殘差系列方法和混合多層模型法的比較*
融合上下文的殘差門(mén)卷積實(shí)體抽取
基于區(qū)塊鏈的微網(wǎng)綠電交易數(shù)據(jù)模型研究
關(guān)于非齊次線性微分方程的一個(gè)證明
關(guān)于PowerDesigner軟件工程技術(shù)的研究
非齊次線性微分方程的常數(shù)變易法
線性耳飾
ORM工具