国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)爬蟲技術(shù)的創(chuàng)新創(chuàng)業(yè)競賽服務(wù)平臺研制

2018-01-04 11:06孫穎馨王靜由揚
電腦知識與技術(shù) 2018年30期
關(guān)鍵詞:創(chuàng)業(yè)競賽大數(shù)據(jù)

孫穎馨 王靜 由揚

摘要:本項目通過數(shù)據(jù)爬蟲等數(shù)據(jù)采集技術(shù)動態(tài)收集各類分散的創(chuàng)新創(chuàng)業(yè)競賽信息,通過大數(shù)據(jù)處理技術(shù)對數(shù)據(jù)進行清洗、組裝及整合分類保存,形成創(chuàng)新創(chuàng)業(yè)競賽大數(shù)據(jù)中心,通過數(shù)據(jù)訂閱及智能推薦系統(tǒng)將數(shù)據(jù)精確的推送給有需求的創(chuàng)業(yè)者和競賽組織者。同時,還可以通過大數(shù)據(jù)分析技術(shù),為政府部門提供創(chuàng)業(yè)資源數(shù)據(jù)分析服務(wù),及對政府決策提供數(shù)據(jù)支持。

關(guān)鍵詞:爬蟲技術(shù);大數(shù)據(jù);競賽;創(chuàng)業(yè);創(chuàng)新

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)30-0203-03

1 引言

在國家政策和創(chuàng)新創(chuàng)業(yè)大環(huán)境的影響下,各種推動和促進創(chuàng)新創(chuàng)業(yè)的網(wǎng)絡(luò)平臺不斷涌現(xiàn)。而目前,國內(nèi)已經(jīng)開發(fā)完成并對外提供服務(wù)的創(chuàng)新創(chuàng)業(yè)競賽網(wǎng)絡(luò)平臺還沒有形成,帶有交易功能的創(chuàng)業(yè)服務(wù)網(wǎng)絡(luò)平臺也少有出現(xiàn)。國內(nèi)絕大部分創(chuàng)新創(chuàng)業(yè)競賽服務(wù)平臺都存在只能針對單一場次競賽提供咨詢以及創(chuàng)業(yè)信息,信息更新及時率低,信息資源有限等方面的問題。

因此迫切需要創(chuàng)建創(chuàng)新創(chuàng)業(yè)競賽大數(shù)據(jù)分析平臺,實現(xiàn)創(chuàng)業(yè)主體以及創(chuàng)業(yè)服務(wù)過程的有效整合,提高不同的創(chuàng)業(yè)主體基于不同的創(chuàng)業(yè)過程的服務(wù)能力和水平,實現(xiàn)網(wǎng)絡(luò)創(chuàng)業(yè)環(huán)境的持續(xù)創(chuàng)立和優(yōu)化,并帶動實體創(chuàng)業(yè)環(huán)境的建設(shè)。

2 系統(tǒng)關(guān)鍵技術(shù)

2.1 Hadoop技術(shù)

Hadoop是由Apache基金會開發(fā)的分布式系統(tǒng)架構(gòu)。它實際是實現(xiàn)了一個能夠讓用戶輕松架構(gòu)和使用的分布式平臺,即分布式文件系統(tǒng)。使得用戶可以在不了解系統(tǒng)底層細節(jié)的情況下,開發(fā)應(yīng)用程序。利用它用戶可以輕松地開發(fā)和運行包含海量數(shù)據(jù)的應(yīng)用程序。

Hadoop具有高容錯性,可充分利用集群的特性進行高速運算和存儲,并可以以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。它還可以提供對高吞吐量應(yīng)用程序數(shù)據(jù)的訪問能力,特別適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。另外,Hadoop還可以部署在低廉的硬件上。

2.2 聚焦網(wǎng)絡(luò)爬蟲技術(shù)

聚焦網(wǎng)絡(luò)爬蟲,又稱主題網(wǎng)絡(luò)爬蟲,是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。

聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評價模塊以及內(nèi)容評價模塊。聚焦爬蟲爬行策略實現(xiàn)的關(guān)鍵是評價頁面內(nèi)容和鏈接的重要性,不同的方法計算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。常用的幾種策略如下:

l 基于內(nèi)容評價的爬行策略;

l 基于鏈接結(jié)構(gòu)評價的爬行策略;

l 基于增強學(xué)習(xí)的爬行策略;

l 基于語境圖的爬行策略。

2.3 智能推薦算法技術(shù)

1)基于內(nèi)容推薦

基于內(nèi)容的推薦是由于信息過濾技術(shù)的發(fā)展而產(chǎn)生的,它不需要依據(jù)用戶對項目的意見評價,而是利用機器學(xué)習(xí)的方法從相關(guān)內(nèi)容的描述上得到用戶的興趣資料。在推薦系統(tǒng)中,通過相關(guān)的特征的屬性來定義項目或?qū)ο?,基于用戶已評價特征,學(xué)習(xí)其興趣,匹配用戶資料與待測項目的相關(guān)程度。常用決策樹、神經(jīng)網(wǎng)絡(luò)和基于向量的表示等方法,并根據(jù)用戶的歷史數(shù)據(jù),來建立用戶的資料模型。并且可以隨著用戶的興趣的改變而做出相應(yīng)的調(diào)整。

2)協(xié)同過濾推薦

協(xié)同過濾推薦是從用戶的角度來進行相應(yīng)推薦的,這一過程不需要用戶填寫適合自己興趣的推薦信息。而是自動地從用戶的購買模式或瀏覽行為等隱式獲得的。協(xié)同過濾最大優(yōu)點是對推薦對象沒有特殊的要求,并且可以能處理非結(jié)構(gòu)化的復(fù)雜對象,如音樂、電影等。

這種技術(shù)一般是利用用戶的歷史喜好來計算用戶的距離,并以目標用戶的最近鄰居用戶對商品評價為基礎(chǔ),進行加權(quán)來預(yù)測目標用戶對特定商品的喜好程度。并根據(jù)喜好程度推薦給目標用戶。

雖然協(xié)同過濾作為一種典型的推薦技術(shù)有其相當(dāng)?shù)膽?yīng)用,但協(xié)同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題(Sparsity)和可擴展問題(Scalability)。

3 系統(tǒng)功能實現(xiàn)

本系統(tǒng)主要完成以下幾個子平臺的設(shè)計。

1)基于大數(shù)據(jù)爬蟲技術(shù)的數(shù)據(jù)采集平臺

數(shù)據(jù)采集平臺正是基于網(wǎng)絡(luò)爬蟲技術(shù)設(shè)計研發(fā),采集平臺支持各種網(wǎng)站類型:新聞、論壇、電商、社交、行業(yè)資訊、企業(yè)門戶等都可以實現(xiàn)數(shù)據(jù)抓取。并支持多終端平臺,與PC網(wǎng)站一樣,手機網(wǎng)站亦可抓取,爬蟲可模擬移動端agent。同時支持多種網(wǎng)頁類型:服務(wù)器側(cè)動態(tài)頁面、瀏覽器側(cè)動態(tài)頁面(AJAX內(nèi)容)、靜態(tài)頁面都可抓取,甚至可抓取沒有終點的瀑布流頁面。爬蟲在默認狀態(tài)下就可抓取AJAX、JavaScript動態(tài)頁面、服務(wù)器動態(tài)頁面等動態(tài)頁面,無須其他設(shè)置;甚至還可以自動滾屏抓取動態(tài)加載的內(nèi)容。

2)消息訂閱平臺

消息訂閱平臺主要實現(xiàn)訂閱、退訂、更新與接收新消息的基本功能,完成觀察者和內(nèi)容主題之間的交互過程。當(dāng)訂閱方需要訂閱,在內(nèi)容主題框中顯示訂閱方信息,退訂時則刪除其中的退訂方信息。使得新消息內(nèi)容只有在訂閱用戶列表中的用戶能收到消息更新,退訂者和沒有訂閱者都不會收到新消息。

3)智能推薦平臺

個性化智能推薦平臺設(shè)計建設(shè)由三步構(gòu)成:第一步建立平臺用戶行為的召回模型,維度基于用戶歷史行為的數(shù)據(jù)召回、用戶偏好召回和用戶地域召回來實現(xiàn),用戶歷史行為數(shù)據(jù)召回基于用戶歷史瀏覽、點擊、評論、分享、收藏、關(guān)注等觸點,分類推薦在線相關(guān)、在線相似、離線相關(guān)、離線相似行為;基于用戶偏好召回是基于用戶歸類畫像與平臺多屏互通融合;基于用戶地域召回是基于用戶地域的網(wǎng)格化來實現(xiàn)地域行為推薦算法;第二步是召回模型匹配算法,利用高斯邏輯回歸及多維算法來得出與用戶召回行為的匹配商品及廣告信息;第三步是平臺針對匹配模型推薦結(jié)果的排序算法,基于用戶交互日志通過模型訓(xùn)練特征權(quán)重,采用排序算法來實現(xiàn)自動匹配個性化推薦。在系統(tǒng)實現(xiàn)技術(shù)架構(gòu)上,為支撐個性化推薦系統(tǒng)平均至少每周進行算法迭代。

通過智能推薦平臺,可以使用戶進入平臺頁面時,根據(jù)其日常的行為喜好和習(xí)慣、心理,在還沒有點擊頁面時,將頁面自動推薦給用戶,以提升平臺用戶體驗性。甚至可以在用戶還沒有訪問,或者還沒有打開電腦時,通過郵件或信息等方式,在特定的時間或者周期性的推送給用戶。

4)大數(shù)據(jù)中心

該數(shù)據(jù)中心提供數(shù)據(jù)整合、挖掘、分析及訂閱功能,為創(chuàng)業(yè)者、孵化機構(gòu)和政府部門提供數(shù)據(jù)支持、推薦、訂閱和統(tǒng)計分析服務(wù)。

本中心提供的獨立功能有如下幾個部分。

l 海量數(shù)據(jù)云存儲功能:采用云存儲技術(shù),為大規(guī)模、海量數(shù)據(jù)及文件提供存儲和管理等功能。

l 標準數(shù)據(jù)庫管理:各類創(chuàng)業(yè)競賽數(shù)據(jù)庫、大學(xué)生基本信息庫、企業(yè)基本信息庫等。

l 數(shù)據(jù)交換功能:把各類創(chuàng)業(yè)競賽的數(shù)據(jù)進行抽取、臟數(shù)據(jù)清晰,斷鏈條數(shù)據(jù)修復(fù)。代碼轉(zhuǎn)換,接口模式認證,為其他系統(tǒng)提供硬件的支持。

云存儲數(shù)據(jù)中心結(jié)構(gòu)示意圖如圖1所示:

各類用戶,無論是企業(yè)還是個人,都可以通過電腦、手機等登錄云計算數(shù)據(jù)中心的各類服務(wù)接口,獲得所需信息。云計算管理平臺是數(shù)據(jù)中心的“大腦”,既管理該云用戶服務(wù)定制的接入,計算處理接入定制服務(wù)的內(nèi)容,還組織協(xié)調(diào)數(shù)據(jù)中心內(nèi)外網(wǎng)的服務(wù)節(jié)點,經(jīng)由管理節(jié)點制作或加工定制服務(wù)內(nèi)容,然后交付該端用戶定制服務(wù)。其中的節(jié)點就是泛在網(wǎng)絡(luò)中的傳感器。

數(shù)據(jù)中心的云服務(wù)管理平臺,給端用戶的印象是一臺超級計算機,擁有無窮的服務(wù)資源,來滿足端用戶的定制服務(wù)需求。而實際上,該服務(wù)資源即數(shù)據(jù)中心內(nèi)外網(wǎng)的服務(wù)節(jié)點。只不過由該平臺組織協(xié)調(diào),從而虛擬為超級計算機而已。

4 項目建設(shè)的意義

1)項目建設(shè)將有效推動創(chuàng)新創(chuàng)業(yè)競賽開展,提高參賽項目創(chuàng)業(yè)成功率

本項目能夠有效推動創(chuàng)新創(chuàng)業(yè)競賽中各種創(chuàng)業(yè)資源的對接和推廣。同時能夠提高創(chuàng)業(yè)者的創(chuàng)新熱情,促進創(chuàng)業(yè)意識的產(chǎn)生,采取有效措施規(guī)避創(chuàng)業(yè)過程中的風(fēng)險,提高參賽項目創(chuàng)業(yè)成功率;同時通過網(wǎng)絡(luò)平臺整合不同的創(chuàng)業(yè)主體和創(chuàng)業(yè)資源,能夠帶動更多的創(chuàng)業(yè)者參與到創(chuàng)新創(chuàng)業(yè)競賽中來,進而提高創(chuàng)業(yè)的數(shù)量,實現(xiàn)創(chuàng)業(yè)帶動就業(yè)的目標。

2)項目建設(shè)擴大創(chuàng)新創(chuàng)業(yè)競賽資源整合的范圍,有效改善創(chuàng)新創(chuàng)業(yè)競賽資源的閑置狀態(tài)

項目建設(shè)將成為全國創(chuàng)新創(chuàng)業(yè)競賽資源整合模式最新穎、創(chuàng)新創(chuàng)業(yè)競賽資源內(nèi)容最豐富、創(chuàng)新創(chuàng)業(yè)競賽資源更新最及時、創(chuàng)新創(chuàng)業(yè)競賽服務(wù)最優(yōu)化的綜合性的創(chuàng)業(yè)服務(wù)平臺,能夠有效改善目前創(chuàng)業(yè)園、高校等教育機構(gòu)、政府創(chuàng)業(yè)服務(wù)和監(jiān)管部門所掌握的創(chuàng)新創(chuàng)業(yè)競賽資源的閑置狀態(tài),強化創(chuàng)業(yè)資源載體對創(chuàng)業(yè)過程的參與力度和程度,能夠營造良好的創(chuàng)業(yè)環(huán)境。

項目實現(xiàn)創(chuàng)新創(chuàng)業(yè)競賽服務(wù)信息化、網(wǎng)絡(luò)管理,能夠有效降低提供創(chuàng)業(yè)服務(wù)的成本,提高創(chuàng)新創(chuàng)業(yè)競賽服務(wù)的效益。

項目實現(xiàn)創(chuàng)業(yè)服務(wù)內(nèi)容的網(wǎng)上交易,將有效調(diào)動創(chuàng)業(yè)資源對創(chuàng)業(yè)過程的參與程度,創(chuàng)業(yè)服務(wù)資源在參與交易服務(wù)過程中也在不斷地優(yōu)化和改進,產(chǎn)生創(chuàng)業(yè)大數(shù)據(jù)。

3)項目建設(shè)將實現(xiàn)創(chuàng)新創(chuàng)業(yè)競賽資源數(shù)據(jù)分析,為政府決策提供依據(jù)

項目建設(shè)將匯集創(chuàng)新創(chuàng)業(yè)競賽資源,并對數(shù)據(jù)資源進行分析整理,將有利于政府決策的數(shù)據(jù)信息分析處理,為政府管理部門更有效的制定創(chuàng)業(yè)就業(yè)服務(wù)政策、調(diào)整和分配創(chuàng)業(yè)資源以及提高創(chuàng)業(yè)園的服務(wù)水平提供管理工具和決策依據(jù),更有利于發(fā)揮創(chuàng)業(yè)帶動就業(yè)的作用。

4)項目建設(shè)基于用戶行為大數(shù)據(jù),實現(xiàn)資源需求智能分析推薦

項目建設(shè)通過數(shù)據(jù)爬蟲技術(shù)有效地收集存儲創(chuàng)新創(chuàng)業(yè)競賽資源數(shù)據(jù),建立創(chuàng)新創(chuàng)業(yè)競賽資源大數(shù)據(jù)中心,并依托數(shù)據(jù)資源進行挖掘分析,開發(fā)創(chuàng)業(yè)者、孵化機構(gòu)和政府需要的創(chuàng)業(yè)應(yīng)用。推動萬眾創(chuàng)新和開放創(chuàng)新提供動力?;谄脚_建立的創(chuàng)新創(chuàng)業(yè)競賽資源大數(shù)據(jù)中心,創(chuàng)業(yè)者可在平臺的訂閱中心根據(jù)自身的需要訂閱所需要的創(chuàng)新創(chuàng)業(yè)競賽資源信息,系統(tǒng)會根據(jù)需要按時發(fā)送所感興趣的創(chuàng)業(yè)信息。

5 結(jié)束語

基于大數(shù)據(jù)爬蟲技術(shù)的創(chuàng)新創(chuàng)業(yè)競賽服務(wù)平臺可以提供網(wǎng)上項目收集、競賽信息收集、需求推薦、創(chuàng)業(yè)幫扶、項目推廣以及交易對接等服務(wù)。促進不同的創(chuàng)業(yè)主體之間創(chuàng)業(yè)服務(wù)交易對接,為創(chuàng)業(yè)資源的可獲性提供良好的工具。既能提升創(chuàng)新創(chuàng)業(yè)競賽的整體水平,又能促進各種創(chuàng)業(yè)資源的持續(xù)發(fā)展、更新和豐富,為創(chuàng)業(yè)資源載體提供盈利機會和能力,從而更好地為創(chuàng)業(yè)提供服務(wù),促進創(chuàng)業(yè)成果轉(zhuǎn)化。

參考文獻:

[1] 劉鑫.網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2017(8).

[2] 姚劍,等.基于個性化導(dǎo)購的商品智能動態(tài)推薦系統(tǒng)[J].價值工程,2017(8).

[3] 段薇,路向陽.基于Hadoop的高校移動圖書館個性化信息服務(wù)平臺設(shè)計[J].科技廣場,2017(5).

[4] 高鵬.協(xié)同過濾推薦方法在新媒體領(lǐng)域中的應(yīng)用[J].廣播與電視技術(shù),2015(6).

【通聯(lián)編輯:朱寶貴】

猜你喜歡
創(chuàng)業(yè)競賽大數(shù)據(jù)
2020絲綢之路數(shù)學(xué)競賽
我看競賽
微時代文化創(chuàng)意類創(chuàng)業(yè)現(xiàn)狀調(diào)查
內(nèi)蒙古自治區(qū)高校畢業(yè)生就業(yè)指導(dǎo)服務(wù)體系建設(shè)及對策研究
平山县| 五寨县| 兴国县| 来安县| 大连市| 平乡县| 永昌县| 罗定市| 呼和浩特市| 长海县| 江口县| 西藏| 广安市| 阳泉市| 高要市| 梓潼县| 会东县| 葫芦岛市| 永仁县| 皋兰县| 伊宁市| 洛扎县| 吐鲁番市| 军事| 新竹市| 林芝县| 桑日县| 高陵县| 贡觉县| 漳平市| 阿图什市| 治县。| 宣武区| 保山市| 安达市| 丹凤县| 东山县| 吉木乃县| 龙井市| 莱阳市| 临颍县|