王濤
摘要:結(jié)合應(yīng)用實例,探討定性隨機(jī)變量之間是否獨立性檢驗方法、列聯(lián)表、對數(shù)線性模型、Logistic模型的實施過程。
關(guān)鍵詞:定性資料;列聯(lián)表;對數(shù)線性模型;Logistic模型
中圖分類號:G4
文獻(xiàn)標(biāo)識碼:A
doi:10.19311/j.cnki.16723198.2017.01.070
1問題提出
本科生教學(xué)質(zhì)量評價中除了涉及少量的定量變量(或稱間隔尺度變量)外,往往更多地研究定性變量(或稱名義尺度變量),這些定性變量往往只有各種狀態(tài)的區(qū)別而無數(shù)量上的區(qū)別,例如學(xué)生的性別、教師職稱等。
在概率統(tǒng)計中描述兩個隨機(jī)的相關(guān)程度是用線性相關(guān)系數(shù),為了避免術(shù)語上的混淆,描述兩個定性隨機(jī)變量之間的相關(guān)性是指廣義的相關(guān)性,稱為關(guān)聯(lián)性,兩個定義隨機(jī)變量之間的關(guān)聯(lián)程度在某種意義上就是指的“不獨立性”,如何直接對定性資料進(jìn)行分析并給出兩個定性變量之間是否獨立性檢驗?
先從引授實例切入:研討優(yōu)秀論文與依托科研的關(guān)系,這里用A表示是否獲優(yōu),用B表示是否參加科研,假設(shè)從一批被調(diào)查的對象中得到的統(tǒng)計表,如表1所示。
3Logistic回歸
對數(shù)線性模型是將列表中每格的概率(或理論頻數(shù))取對數(shù)后分解參數(shù)獲得的,Logistic回歸模型是將概率比取對數(shù)后,再進(jìn)行參數(shù)化而獲得的。在很多研究中概率比是常常遇到的,當(dāng)因變量是一個多級分類的變量時,列聯(lián)表就需要采用兩兩比較的方法。
Logistic回歸要解決的問題與普通回歸要解決的許多問題類似。比如在醫(yī)藥行業(yè)中,因變量y取0,1,…,g等g+1個不同的值,分別表示不同用藥類型,y=0表示正常情況,y=1,…,g表示不同用藥后的反應(yīng);藥的劑量x1,性別x2,年齡x3,體重x4,血壓x5,…等等為自變量x;顯然因變量y與自變量x有關(guān)。很顯然,這里因變量是定性的,自變量有定性的也有定量的,問這些自變量對一個定性變量的關(guān)系是否獨立?不獨立又會具有什么形式的聯(lián)系?是線性的還是非線性的等等。
3.1Logit變換
在現(xiàn)實生活中常常會遇到這樣的問題,即要研究某一事件A發(fā)生的概率p以及p值的大小與某些因素的關(guān)系,但由于p對x的變化在p=0或p=1的附近是緩慢的,或說不敏感的,比如像一個可靠度p已經(jīng)是0.998的可靠系統(tǒng),不管如何改善條件和系統(tǒng)結(jié)構(gòu),它的可靠度增長只能在0.000以后。于是人們就希望尋找一個形式相對較簡單、且在p=0或p=1附近變化幅度較大、p的函數(shù)θ(p)。根據(jù)導(dǎo)數(shù)的意義,用dθ(p)dp來反映θ(p)在p附近的變化是很合適的,同時希望p=0或p=1,dθ(p)dp有較大的值,因此取
4結(jié)語
定性資料統(tǒng)計分析的內(nèi)容豐富,方法實用,在教學(xué)質(zhì)量評價實際工作中,對于列聯(lián)表,可根據(jù)實際需要來選擇模型,既可用對數(shù)線性模型也可用Logistic模型。研究表明了在對調(diào)查資料中進(jìn)行定性隨機(jī)變量之間的關(guān)聯(lián)程度探討分析時,實施數(shù)據(jù)挖掘,發(fā)現(xiàn)新的知識,是提高信息反饋的質(zhì)量,提供決策參考的科學(xué)性與可靠性的有效途徑。
參考文獻(xiàn)
[1](美)Mehmed kantardazic, DATA MINING concepts, Models, Methods, and Algorithms[M].北京:清華大學(xué)出版社,2003.
[2]邸凱昌.空間數(shù)據(jù)發(fā)掘與知識發(fā)現(xiàn)[M].武漢:武漢大學(xué)出版社,2000.
[3]高惠璇.統(tǒng)計計算[M].北京:北京大學(xué)出版社,1999.
[4]王中宇,夏新濤,朱堅民.測量不確定度的非統(tǒng)計理論[M].北京:國防工業(yè)出版社,2000.
[5]胡細(xì)寶,孫洪祥,王麗霞.概率論·數(shù)理統(tǒng)計·隨機(jī)過程[M].北京:北京郵電大學(xué)出版社,2006.