(主要完成單位: 清華大學(xué),北京搜狗科技發(fā)展有限公司
主要完成人: 劉奕群,王小川,張敏,陳煒鵬,馬少平,許靜芳,毛佳昕,王蟒,馬為之)
隨著互聯(lián)網(wǎng)信息爆炸增長(zhǎng),搜索引擎已成為最重要的互聯(lián)網(wǎng)應(yīng)用之一,關(guān)系到社會(huì)信息處理水平與利用效率;當(dāng)前絕大部分國(guó)家的搜索服務(wù)被跨國(guó)巨頭壟斷,擁有自主可控的搜索技術(shù)對(duì)國(guó)家信息安全意義重大。
2006年至今,清華大學(xué)與搜狗公司通過(guò)緊密的校企合作建設(shè)了搜狗搜索引擎,致力于提供性能突出、自主可控、內(nèi)容可信的搜索服務(wù)。面對(duì)互聯(lián)網(wǎng)搜索技術(shù)面臨的重要挑戰(zhàn),項(xiàng)目組凝練以認(rèn)知計(jì)算為核心的創(chuàng)新思路,從以下三個(gè)方面實(shí)現(xiàn)了顯著突破:
(1)查詢需求理解: 提出基于用戶交互模型的查詢需求理解方法,利用用戶群體智能改進(jìn)需求理解,將搜狗查詢推薦系統(tǒng)的點(diǎn)擊通過(guò)率顯著提升。成果曾獲亞洲信息檢索會(huì)議(AIRS)最佳論文獎(jiǎng)。
(2)資源質(zhì)量評(píng)價(jià): 首次提出基于異常瀏覽模式監(jiān)測(cè)的識(shí)別方法,大大縮短搜狗搜索垃圾網(wǎng)頁(yè)識(shí)別周期,性能顯著優(yōu)于傳統(tǒng)算法。成果曾獲國(guó)際信息檢索大會(huì)(SIGIR)最佳學(xué)生論文獎(jiǎng)、最佳論文提名獎(jiǎng)。
(3)異質(zhì)資源匹配: 首次提出多媒體結(jié)果的聚合排序方法,利用深度表示學(xué)習(xí)技術(shù)整合多模態(tài)特征,顯著提升搜狗系統(tǒng)排序效果。成果曾獲國(guó)際信息與知識(shí)管理大會(huì)(CIKM)最佳論文獎(jiǎng)。
本項(xiàng)目已發(fā)表高水平論文70余篇,獲專利與軟著31項(xiàng),構(gòu)建了比較完整的知識(shí)產(chǎn)權(quán)體系。由中國(guó)電子學(xué)會(huì)組織的科技成果鑒定指出,本項(xiàng)目成果總體達(dá)到國(guó)際先進(jìn)水平,部分成果達(dá)到國(guó)際領(lǐng)先水平。相關(guān)成果組成了搜狗搜索的核心模塊,協(xié)助其成為中國(guó)第二大搜索服務(wù)提供商。近年來(lái)在移動(dòng)搜索領(lǐng)域搜狗份額迅速增長(zhǎng),驗(yàn)證了市場(chǎng)和用戶對(duì)項(xiàng)目成果的認(rèn)可。此外,項(xiàng)目成果還直接應(yīng)用于百度學(xué)院技術(shù)培訓(xùn)服務(wù),騰訊微信、知乎和搜狐等平臺(tái)。經(jīng)濟(jì)效益方面,經(jīng)審計(jì),以搜索業(yè)務(wù)知識(shí)產(chǎn)權(quán)占比計(jì)算,項(xiàng)目成果近幾年推動(dòng)新增利潤(rùn)超18億元。社會(huì)效益方面,相關(guān)技術(shù)成果融入網(wǎng)絡(luò)空間治理體系,甄別垃圾網(wǎng)頁(yè)超過(guò)150億個(gè),協(xié)助北京市工商局主動(dòng)發(fā)現(xiàn)違法線索超6萬(wàn)個(gè),辦結(jié)案件超9000起。
搜索技術(shù)發(fā)展與社會(huì)信息化水平息息相關(guān),項(xiàng)目組將持續(xù)關(guān)注搜索技術(shù)中的各種挑戰(zhàn),在取得國(guó)際領(lǐng)先水平的核心創(chuàng)新成果的同時(shí),致力于為廣大中文互聯(lián)網(wǎng)用戶提供性能突出、自主可控、高可信度的搜索服務(wù)。