国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息繭房與準(zhǔn)確率:基于復(fù)合型算法的個性化模擬推薦系統(tǒng)

2020-01-18 05:52嚴(yán)宇橋張蔚坪
電子技術(shù)與軟件工程 2019年24期
關(guān)鍵詞:繭房準(zhǔn)確率文本

文/嚴(yán)宇橋 張蔚坪

隨著智媒時代的到來,以算法型信息分發(fā)技術(shù)滲透到了各個媒體當(dāng)中。算法推送帶來的收益和效果正在影響各行各業(yè),也引起了媒介研究的興趣。算法與傳媒業(yè)的深度融合,不斷形塑著傳媒業(yè)的實踐,同時也給傳播倫理造成了相當(dāng)大的影響。本文在分析算法型信息分發(fā)的主要推薦機(jī)制基礎(chǔ)上,指出了在實際的研究中,算法推薦的準(zhǔn)確率如何衡量的一種方法,并結(jié)合了協(xié)同過濾和文本分析兩種主流推薦機(jī)制設(shè)計了基于復(fù)合型推薦算法的模擬個性化信息推薦系統(tǒng)。

1 算法信息分發(fā)的推薦機(jī)制綜述

對于推薦系統(tǒng),最重要的任務(wù)是連接信息和用戶之間的關(guān)系。該系統(tǒng)應(yīng)幫助用戶找到對他們有價值的信息,同時讓該信息在感興趣的用戶面前顯示和推薦,從而達(dá)到信息消費與生產(chǎn)雙贏的局面。當(dāng)前,推薦系統(tǒng)主要有三種推薦模式:基于協(xié)同過濾的推薦,基于關(guān)聯(lián)規(guī)則的推薦和基于文本的推薦。

對于協(xié)同過濾推薦來說,最基本的策略是計算用戶之間的相似度,例如余弦相似度。根據(jù)相似度排序,設(shè)置相似度閾值或設(shè)置最近鄰閾值,選擇一定數(shù)量的用戶,并讓這些用戶評估的產(chǎn)品形成候選集,對這些項目進(jìn)行加權(quán)以計算分?jǐn)?shù),最后排序,向用戶推薦評分最高的項目。

公式(1)余弦相似度計算方法

但是,基于內(nèi)存的協(xié)同過濾推薦的問題在于它們過于依賴歷史數(shù)據(jù)庫。歷史數(shù)據(jù)庫是系統(tǒng)中整個推薦功能的原始資料。當(dāng)缺乏數(shù)據(jù)資料時,將出現(xiàn)一系列的問題,諸如冷啟動結(jié)果不令人滿意,以及推薦的準(zhǔn)確性降低等。

基于內(nèi)容的推薦是基于用戶歷史項提取,過濾和生成文本信息特征模型,并最終向用戶推薦類似于歷史瀏覽文本內(nèi)容的信息。該算法在提取和分析文本信息的特征方面比較擅長,但是在非結(jié)構(gòu)化數(shù)據(jù)的分析能力方面存在缺陷。基于關(guān)聯(lián)規(guī)則的推薦基于用戶的歷史資料,以挖掘用戶數(shù)據(jù)背后的相關(guān)關(guān)聯(lián),從而為用戶的潛在需求分析提供推薦。

綜上所述,這三種方法都有一定程度的局限性,每種方法都有一些難以解決的問題。目前,商業(yè)算法處理方法使用復(fù)合推薦方法進(jìn)行推薦。

2 信息繭房的爭論與自變量缺失:如何從量化上評估算法推薦效果?

伴隨信息量的激增和網(wǎng)絡(luò)技術(shù)的日益普及,每個人對于關(guān)注的話題都可以自主選擇。桑斯坦認(rèn)為,這種技術(shù)趨勢將導(dǎo)致“信息繭房”的問題,導(dǎo)致觀念封閉甚至兩極分化,這將造成非理性的極端主義。在傳統(tǒng)媒體時代,媒體組織向大眾傳播新聞,受眾意識不強(qiáng)?;谒惴ㄍ扑]的內(nèi)容分發(fā)以用戶的個人特征為標(biāo)準(zhǔn)在技術(shù)層面上篩選信息,并向用戶推薦與其價值觀,偏好和個人興趣相匹配的信息,形成了``一千個人就有一千個哈姆雷特的''內(nèi)容消費形式。近年來相關(guān)專家學(xué)者對于“信息繭房”的討論越來越激烈。傳統(tǒng)媒介倫理和媒介道德的鼓吹者認(rèn)為,算法推送導(dǎo)致的用戶接受信息的窄化是導(dǎo)致近年來群體極化的罪魁禍?zhǔn)?,而愈演愈烈的輿論極端化事件和輿論反轉(zhuǎn)現(xiàn)象就是他們的佐證。然而以喻國明為主要代表的技術(shù)樂觀主義者則堅持稱,信息偏食現(xiàn)象從傳播現(xiàn)象開始時就有,并非算法推送帶來的問題。

如果需要從研究方面解決目前關(guān)于“信息繭房”的爭論,就需要研究“算法推薦的進(jìn)步”這個變量會對用戶產(chǎn)生何種效果。對于因果關(guān)系的證明,最有效的方法是通過實驗室控制變量的實驗來解決。從目前的研究中相關(guān)性研究居多而缺乏因果關(guān)系的討論來看,這個問題還缺乏一個切實有效的研究工具。二戰(zhàn)以來,效果研究都是心理學(xué)、傳播學(xué)等主流社會科學(xué)研究的議題,因此并不缺少該問題的因變量操作工具。但是,因此人們無法將“算法推薦”這個自變量進(jìn)行量化,由此來看,如何將算法推薦作出有效的量化計算,是研究該問題的關(guān)鍵。因此,本研究就圍繞著這一問題設(shè)計了能夠有效將該變量操作化的工具。

3 推薦水平評測:程序設(shè)計的理論依據(jù)及程序用途

信息推薦水平如何去測量和評價,是評測工具上的技術(shù)難點。比如,在用戶數(shù)量遠(yuǎn)大于產(chǎn)品數(shù)量的系統(tǒng)上,基于協(xié)同過濾算法的用戶反饋很高;否則,它很低。相關(guān)的影響因素還包括評分量表和稀疏性,以及評估數(shù)據(jù)集其他特征的目的。但是,大多數(shù)推薦系統(tǒng)可以使用準(zhǔn)確性來評估推薦算法的級別。假設(shè)用戶可以檢查所有產(chǎn)品的信息,并可以根據(jù)其對產(chǎn)品的偏好對產(chǎn)品分類,則準(zhǔn)確度可以定義為推薦算法的預(yù)測排名與用戶的實際排名的接近程度。包含準(zhǔn)確率和召回率的分類準(zhǔn)確度指標(biāo)在計算機(jī)領(lǐng)域應(yīng)用最為廣泛。其具體計算方法采用Billsusd的邏輯,Billsusd也是率先準(zhǔn)確度與召回率引入到推薦系統(tǒng)的評價中的學(xué)者。

例如,整個平臺中所有的產(chǎn)品數(shù)量為N,被推薦給用戶產(chǎn)品的總數(shù)為Ns,其中Ns=Nrs+Nis,Nrs和Nis分別為在被推薦產(chǎn)品中,用戶喜歡的產(chǎn)品數(shù)量與不喜歡的產(chǎn)品數(shù)量。相應(yīng)地,Nrn和Nin分別為未被推薦產(chǎn)品中用戶喜歡和不喜歡的產(chǎn)品數(shù)。

綜上所述,準(zhǔn)確率的計算就應(yīng)當(dāng)是:P=N(用戶喜歡的產(chǎn)品數(shù)量)/N(所有向用戶呈現(xiàn)的產(chǎn)品的數(shù)量)。

也就是說,對于一個算法推送式的平臺,可以將個性化水平也就是準(zhǔn)確率分解成:(準(zhǔn)確率=用戶喜好的信息條數(shù)/用戶看到的信息總條數(shù))

因此,本研究的自變量和因變量分解就是:

自變量:個性化推送的準(zhǔn)確率

因變量:點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、轉(zhuǎn)發(fā)情況(數(shù)量、關(guān)系等)

4 本程序的設(shè)計邏輯及用戶界面

因此,本程序使用java環(huán)境進(jìn)行開發(fā),設(shè)置出可調(diào)節(jié)準(zhǔn)確率的用戶文本庫??傮w來說程序設(shè)計思路是:輸入用戶興趣的關(guān)鍵詞語,進(jìn)行文本匹配以及協(xié)同過濾生成偏好關(guān)鍵詞,根據(jù)關(guān)鍵詞在微博進(jìn)行搜索并爬取文本或圖片信息,制作成信息庫。最終用戶瀏覽信息庫文本、并利用虛擬按鍵統(tǒng)計用戶的行為。在本系統(tǒng)中,操作信息推薦水平只需要操作:相關(guān)信息與無關(guān)信息的比例即可。

如圖1,首先以python為開發(fā)語言,在以Google Crome瀏覽器中進(jìn)行的微博搜索中嵌套了一個用戶頭部信息的儲存機(jī)制,實現(xiàn)用戶信息的“冷啟動”。第二步是整個程序設(shè)計的關(guān)鍵一步,也就是基于用戶個人偏好數(shù)據(jù)的挖掘和主體實驗材料的生成。主體流程就是:根據(jù)興趣標(biāo)簽、搜索歷史、點開的鏈接等進(jìn)行個性化特征采集,形成基于協(xié)同過濾和文本匹配的用戶特征,再在全網(wǎng)文本上采集與該特征相符合的信息。在此之后,隨機(jī)在網(wǎng)上采集排除掉相關(guān)特征的信息,然后二者按比例混合,生成不同準(zhǔn)確率下根據(jù)個人興趣愛好的可操作實驗資料庫。第三步是總體的實驗界面。第一步測過的用戶依次再次進(jìn)入實驗室,這次就讓他們查看已經(jīng)根據(jù)他們之前的用戶習(xí)慣編好的資料庫,然后不計時,只統(tǒng)計下不同比例的資料庫中,被試的傳播行為和傳播偏向。

最后將這三個步驟統(tǒng)一起來,展示的界面能夠查看視頻和圖片,并且可以實時進(jìn)行關(guān)鍵詞聯(lián)想,最終整合成為一個在線測試系統(tǒng)呈現(xiàn)給被試,如圖2。

經(jīng)過與《被試情感傾向量表》、《批判性思維量表》等因變量研究工具結(jié)合,本系統(tǒng)已經(jīng)得到驗證可以平穩(wěn)進(jìn)行并準(zhǔn)確記錄行為數(shù)據(jù)。該系統(tǒng)可以通過控制推薦信息的準(zhǔn)確率,來將算法推薦水平做出量化操作,可以以此為自變量觀測用戶的行為數(shù)據(jù)、認(rèn)知數(shù)據(jù)和用戶態(tài)度的改變等。同時該系統(tǒng)可以對接大多數(shù)心理學(xué)和用戶體驗量表,使得研究者能夠在實驗室環(huán)境測量算法推薦的準(zhǔn)確率造成的用戶效果上的影響,從而為解決技術(shù)倫理層面爭論多年的“信息繭房”命題提供了一種可用的研究工具。

圖1:程序設(shè)計邏輯示意圖

圖2:用戶界面與操作設(shè)計

猜你喜歡
繭房準(zhǔn)確率文本
信息繭房
輪椅總裁與“繭房”姑娘,十萬公里的愛穿越生死
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
織就信息繭房的人,或許就是你自己
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本