国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

邏輯斯蒂回歸模型在電信領(lǐng)域中的應(yīng)用

2018-06-15 02:23:36金海月
關(guān)鍵詞:多任務(wù)線性邏輯

金海月

(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽 110159 )

電信規(guī)模龐大、紛繁雜亂的歷史數(shù)據(jù)的背后隱藏著很多具有決策意義的有價(jià)值的信息,如何利用這些對(duì)電信經(jīng)營(yíng)決策有用的信息,已成為電信行業(yè)的當(dāng)務(wù)之急。目前國內(nèi)電信運(yùn)營(yíng)商基本完成了企業(yè)級(jí)數(shù)據(jù)倉庫的設(shè)計(jì)與建設(shè)。隨著全業(yè)務(wù)運(yùn)營(yíng)時(shí)代的到來,產(chǎn)品日益同質(zhì)化,各大運(yùn)營(yíng)商的客戶流失問題漸顯;同時(shí)隨著全球電信市場(chǎng)進(jìn)入高速增長(zhǎng)階段,用戶開始流動(dòng)遷移,如何維系客戶關(guān)系,保持客戶粘性,使現(xiàn)有客戶由于工作需要或個(gè)人意愿需要更換現(xiàn)有業(yè)務(wù)時(shí),仍然選購當(dāng)前運(yùn)營(yíng)商的服務(wù),成為企業(yè)和學(xué)者關(guān)注的問題之一。文獻(xiàn)[1]采用多任務(wù)學(xué)習(xí)方式,主要通過對(duì)不同任務(wù)域之間的共性特征進(jìn)行尋找并共享而完成,而對(duì)于不同任務(wù)域的學(xué)習(xí)來說,采用知識(shí)遷移加速的方式可以為每個(gè)任務(wù)域構(gòu)建分類器。文獻(xiàn)[2]從理論上證明了通過構(gòu)造多任務(wù)分類器的“開銷函數(shù)”和“差異性度量函數(shù)”,MTC-LR 算法可以提高多任務(wù)分類器的各自分類精度。

本文通過分析電信領(lǐng)域用戶的類別特點(diǎn),導(dǎo)出邏輯斯蒂回歸模型,研究電信領(lǐng)域中新服務(wù)的接受率問題。

1 邏輯斯蒂回歸[3-5]

一般說的邏輯斯蒂(Logistic)回歸,是指二分類問題。

對(duì)于連續(xù)的變量x,假設(shè)其服從邏輯斯蒂回歸,設(shè)定u、b、γ、h為多元線性回歸模型的未知常數(shù),x是線性模型的基函數(shù),則

(1)

(2)

對(duì)應(yīng)概率密度以及分布函數(shù)如圖1所示。

圖1 概率密度及分布函數(shù)圖

定義邏輯斯蒂回歸模型:

x∈Rn為輸入,Y∈{0,1}為對(duì)應(yīng)輸出,二項(xiàng)邏輯斯蒂回歸對(duì)應(yīng)如下模型:

(3)

(4)

為表示方便,記參數(shù)向量為W。

w=(w(1),w(2),…,w(n),b)T,x=(x(1),x(2),…,x(n),1)r,則表達(dá)式簡(jiǎn)化為

(5)

(6)

式(5)、式(6)是一個(gè)線性回歸的表達(dá)式。

參數(shù)的求解,就是求解w,利用最大似然估計(jì)求解。

(7)

定義sigmoid函數(shù):

(8)

準(zhǔn)則函數(shù)重新寫為:

(9)

準(zhǔn)則函數(shù)可以借助梯度下降或牛頓法求解。

利用求解得到的w,即可以進(jìn)行概率判斷,哪個(gè)概率大既判給哪個(gè)類別。概率判斷可據(jù)式(10)和式(11)。

(10)

(11)

2 邏輯斯蒂回歸

邏輯斯蒂回歸拓展了多元線性回歸的思想,處理因變量y是二值的情況(為簡(jiǎn)單起見,通常用0和1對(duì)這些值編碼)。和多元線性回歸一樣,自變量x1、x2、x3、…、xk可以是分類變量、連續(xù)變量或二者的混合類型。

2.1 算法應(yīng)用

算法中采用的仿真數(shù)據(jù)來自AT&T公司在美國的調(diào)查,樣本數(shù)據(jù)(新服務(wù))中總體接受新服務(wù)的概率是1628/10524=0.155。但是,接受新服務(wù)的概率因教育、居住穩(wěn)定性和收入等自變量的類別不同而異;最低值是0.069,來自低收入、無遷居并且受過某種高等教育的家庭;最高值是0.270,來自高收入、有遷居并且受過某種高等教育的家庭,如表1所示。標(biāo)準(zhǔn)多元線性回歸模型不適合對(duì)這種數(shù)據(jù)建模,原因如下:

(1)模型的預(yù)測(cè)率可能會(huì)超過0~1的范圍。

(2)因變量并非正態(tài)分布。事實(shí)上,二項(xiàng)式模型更合適。例如:如果一個(gè)單元共11個(gè)住戶,則該變量只能取11個(gè)不同值0,1,2,3,…,11。設(shè)定單元中家庭的響應(yīng)通過隨機(jī)擲硬幣確定,正面朝上代表接受,正面朝上的概率隨單元變化。

(3)如果認(rèn)為正態(tài)分布是二項(xiàng)式模型的近似,則在所有的單元中,因變量的方差不是常數(shù):對(duì)于接受新服務(wù)的概率p接近0.5的單元,方差比p在0或1附近的那些單元高。該方差還隨一個(gè)單元的住戶數(shù)增加而增加,且等于n(1-p)本質(zhì)上,消費(fèi)者理論是說當(dāng)一個(gè)消費(fèi)者面臨一組選擇時(shí),其所做的選擇具有最高的效用(效用是以任意的零點(diǎn)和尺度對(duì)價(jià)值的量化度量)。假定消費(fèi)者對(duì)選擇列表有一個(gè)傾向性排序,而這一排序滿足一些合理的標(biāo)準(zhǔn),如傳遞性。傾向性排序可以基于個(gè)體(如調(diào)研中的社會(huì)經(jīng)濟(jì)特征)或所做選擇的屬性。隨機(jī)效用模型認(rèn)為一個(gè)選擇的效用是納入一個(gè)隨機(jī)元。當(dāng)對(duì)一個(gè)隨機(jī)元建模,假設(shè)其來自于一個(gè)“合理的”分布時(shí),可以邏輯地導(dǎo)出預(yù)測(cè)選擇行為的邏輯斯蒂模型。

表1 邏輯斯蒂回歸模型分析的數(shù)據(jù)格式 個(gè)

2.2 邏輯斯蒂建模

如果以Y=1表示選擇一個(gè)選項(xiàng),Y=0表示不選擇該項(xiàng),則邏輯斯蒂回歸模型定義為

式中β0、β1、β2、β3、…、βk是類似于多元線性回歸模型的未知常數(shù)。模型中的因變量是

x1=(教育:高中或以下=0,大?;蛞陨?1);

x2=(居住穩(wěn)定性:近五年沒變化=0,近五年有變化=1);

x3=收入(低=0,高=1)。

表1中的數(shù)據(jù)是以回歸程序所要求的典型格式組織。

AT&T的邏輯斯蒂模型是:

通過下面的式子得到系數(shù)的有用解釋:

邏輯斯蒂模型是下面形式的幾率乘積:

對(duì)于給定的x1、x2、x3,接受新服務(wù)的幾率=exp(β0)×exp(β1x1)×exp(β2x2)×exp(β3x3)={基本情況的幾率}×{關(guān)于x1的因子}×{關(guān)于x2的因子}×{關(guān)于x3的因子}

如果x1=1,那么無論x2和x3的取值如何,接受新服務(wù)的幾率都將被乘以相同的因子;同樣,關(guān)于x2和x3的因子也不隨其他變量的取值而改變。變量的這個(gè)因子說明了該變量的存在對(duì)接受新服務(wù)的幾率的影響。

如果βi=0,那么相應(yīng)(變量)的因子沒有作用(乘以1)。如果βi<0,則(變量)因子降低了接受新服務(wù)的幾率以及概率;而當(dāng)βi>0時(shí),(變量)因子增加了接受新服務(wù)的概率。

3 實(shí)驗(yàn)仿真分析

本次調(diào)查旨在分析4G網(wǎng)絡(luò)技術(shù)體系情況下,廣大用戶對(duì)4G手機(jī)產(chǎn)品、4G可視電話增值服務(wù)業(yè)務(wù)的選擇,為手機(jī)廠商、電信運(yùn)營(yíng)商和增值服務(wù)提供商針對(duì)4G產(chǎn)品和服務(wù)提出較為有效的建議。

接受新服務(wù)概率的最大似然估計(jì)值需要經(jīng)過計(jì)算機(jī)程序的迭代計(jì)算。設(shè)置95%置信區(qū)間一個(gè)典型的計(jì)算機(jī)程序的輸出結(jié)果見表2。

根據(jù)系數(shù)的估計(jì)值,對(duì)于自變量的家庭,接受4G新服務(wù)的估計(jì)概率

Probability(Y=1|x1,x2,x3|)=

用該模型估計(jì)采用4G新服務(wù)的家庭個(gè)數(shù)是具有自變量值x1、x2、x3的家庭總數(shù)乘以以上的概率。表3給出了自變量取值的各種組合所對(duì)應(yīng)的接受新服務(wù)估計(jì)值,常數(shù)β0取值-2.5,標(biāo)準(zhǔn)差為0.058。

表2 邏輯斯蒂回歸分析的輸出

表3 基于邏輯斯蒂回歸模型的估計(jì)輸出

將擬合模型中沒有使用的保留數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),有598個(gè)用戶組成了驗(yàn)證數(shù)據(jù),見表4所示。

表4 檢驗(yàn)數(shù)據(jù)

總體誤差是-2.8/119=-2.3%,平均絕對(duì)值誤差比是:

(0.800+4.390+4.689+9.705+0.374+0.855+3.338+5.472)/119=0.249=24.9%。表5列出了驗(yàn)證數(shù)據(jù)集的用戶家庭的混淆矩陣。

表5 混淆矩陣

和多元線性回歸一樣,可以引入由相互作用的新因子來構(gòu)建更復(fù)雜的模型來反映自變量之間的相互影響。例如,如果認(rèn)為x1和x2之間存在相互影響的效果,可以增加相互影響項(xiàng)x4=x1×x2

4 結(jié)束語

邏輯斯蒂回歸模型拓展了多元線性回歸的思想。通過設(shè)置電信領(lǐng)域中注冊(cè)用戶的類別分類,設(shè)計(jì)了羅杰斯諦回歸模型。將仿真數(shù)據(jù)設(shè)計(jì)為回歸模型中所要求的典型格式,利用二階導(dǎo)數(shù)牛頓法迭代出最大似然估計(jì),求解出最優(yōu)解。實(shí)驗(yàn)證明,邏輯斯蒂模型在實(shí)際應(yīng)用過程中具有預(yù)測(cè)率高,關(guān)鍵變量選取準(zhǔn)確的特點(diǎn)。

參考文獻(xiàn):

[1] 陳倬.基于邏輯回歸的多任務(wù)域快速分類學(xué)習(xí)算法[J].數(shù)字技術(shù)與應(yīng)用,2016(11):123-123.

[2] 顧鑫,曹丹華,吳裕斌,等.基于邏輯回歸的多任務(wù)域快速分類學(xué)習(xí)算法[J].計(jì)算機(jī)工程與應(yīng)用,2017(15):47-56.

[3] 張鵬麗,李育.邏輯斯蒂模型在河谷型城市洪水事件研究中的驗(yàn)證[J].西北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,53(1):128-134.

[4] 楊波,余建星,王謙.邏輯斯蒂增長(zhǎng)模型在集裝箱運(yùn)量長(zhǎng)期預(yù)測(cè)中的應(yīng)用[J].海洋技術(shù),2006,25(4):88-93.

[5] 梁慧玲,王文輝,郭福濤,等.比較邏輯斯蒂與地理加權(quán)邏輯斯蒂回歸模型在福建林火發(fā)生的適用性[J].生態(tài)學(xué)報(bào),2017,37(12):4128-4141.

猜你喜歡
多任務(wù)線性邏輯
刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
法律方法(2022年2期)2022-10-20 06:44:24
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
邏輯
創(chuàng)新的邏輯
線性回歸方程的求解與應(yīng)用
基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
二階線性微分方程的解法
女人買買買的神邏輯
37°女人(2017年11期)2017-11-14 20:27:40
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
会昌县| 环江| 博野县| 瑞安市| 时尚| 嘉祥县| 宜兰县| 五大连池市| 海盐县| 正阳县| 蒲江县| 出国| 长汀县| 确山县| 邵东县| 水富县| 青川县| 丰都县| 新宁县| 柘荣县| 商河县| 虹口区| 榆中县| 乐安县| 乌拉特中旗| 邯郸县| 巨野县| 关岭| 瑞昌市| 株洲县| 绥阳县| 浮山县| 长岛县| 元阳县| 建德市| 奉节县| 普安县| 宜兰县| 莎车县| 大足县| 富阳市|