本刊記者
通用大模型,被譽(yù)為“AI時代”的靈魂,是指一種集成了多種功能的AI系統(tǒng)。其在語音識別、自然語言處理、圖像識別等領(lǐng)域的應(yīng)用,極大地推動了人工智能技術(shù)的發(fā)展。
然而,一個普遍的事實(shí)是,當(dāng)前,通用大模型存在算力成本高、本地化部署難、數(shù)據(jù)泄漏風(fēng)險高、領(lǐng)域?qū)I(yè)知識弱等痛點(diǎn)難點(diǎn),市場需求難以得到滿足。
在2023“直通烏鎮(zhèn)”全球互聯(lián)網(wǎng)大賽人工智能(大模型及數(shù)字人)專題賽上,北京中科聞歌科技有限公司(以下簡稱“中科聞歌”)以“雅意”大模型為參賽項(xiàng)目,針對行業(yè)的痛點(diǎn)問題,帶來了中科聞歌的解決方案。
聞弦歌知“雅意”,善推理知決策
“聞歌”二字起源于《呂氏春秋》中的“聞弦歌知雅意”,從創(chuàng)立伊始,中科聞歌便將人工智能的內(nèi)涵蘊(yùn)藏于企業(yè)名字之中?!拔覀兊脑妇笆峭ㄟ^大數(shù)據(jù)分析、人工智能技術(shù)洞悉行業(yè)難題及本質(zhì),解決隱藏其中的難點(diǎn),以技術(shù)服務(wù)國家戰(zhàn)略需求?!敝锌坡劯柘嚓P(guān)負(fù)責(zé)人說道。
而中科聞歌此次帶來的“雅意”大模型,更是與企業(yè)名字暗合,聞弦歌、知雅意,善推理、會決策,“雅意”大模型的定位便是一款人工智能認(rèn)知與決策技術(shù)領(lǐng)域的企業(yè)級通用大模型。
據(jù)介紹,“雅意”大模型由中科聞歌自主研發(fā),擁有五大核心功能,包括實(shí)時聯(lián)網(wǎng)問答、領(lǐng)域知識問答、復(fù)雜場景信息抽取、多語言內(nèi)容理解、多模態(tài)內(nèi)容生成,共100余項(xiàng)特色技能,支持云端MaaS使用、本地一體機(jī)部署、自主私有訓(xùn)練部署三種使用方式,可快速對接政府、企業(yè)數(shù)據(jù)并一鍵生成大模型專屬應(yīng)用服務(wù)。
作為垂直領(lǐng)域的專屬大模型,“雅意”圍繞行業(yè)垂直生態(tài),推出“5+N”計(jì)劃,面向媒體、宣傳、金融、治理、安全等五大方向進(jìn)行針對性訓(xùn)練,并泛化到家居、醫(yī)療、教育等行業(yè),可適配多樣化、專業(yè)的業(yè)務(wù)場景。目前,“雅意”已搭載在中科聞歌多款行業(yè)產(chǎn)品中,包括面向輿情信息領(lǐng)域的“晴天”多模態(tài)信息洞察平臺、面向媒體數(shù)字化領(lǐng)域的“紅旗”智能媒體操作系統(tǒng),以及面向金融領(lǐng)域的“多投”投研資管平臺等。
5到700,500萬到10億,0到4億
許多人不知道的是,中科聞歌還藏著“國家隊(duì)”的基因。2017年,“人工智能”首次被寫入全國“兩會”政府工作報告,報告提出,“要全面實(shí)施戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃,加快新材料、人工智能、集成電路、生物制藥、第五代移動通信等技術(shù)研發(fā)和轉(zhuǎn)化,做大做強(qiáng)產(chǎn)業(yè)集群”。
在國家科技政策的鼓勵支持下,人工智能市場迎來了發(fā)展高潮,出現(xiàn)萬億級的“時代賽道”。彼時,已在中國科學(xué)院深耕AI和大數(shù)據(jù)研究十余年的王磊等五位青年技術(shù)人員,選擇走出實(shí)驗(yàn)室,在180平方米的辦公室,拿著500萬元的天使啟動資金,就這樣“下?!绷?。
“國家隊(duì)”的基因?yàn)橹锌坡劯鑸F(tuán)隊(duì)之后的研發(fā)成果輸出,奠定了良好的科技基礎(chǔ)。從王磊等人的中科院工作經(jīng)歷算起,到今天,前后共17年,核心團(tuán)隊(duì)一直堅(jiān)持在人工智能與復(fù)雜數(shù)據(jù)解析核心技術(shù)創(chuàng)新領(lǐng)域。如今,企業(yè)研發(fā)人員占比達(dá)60%,碩博人才占比高,僅學(xué)術(shù)帶頭科學(xué)家便達(dá)20余人。有了科技基因和科技成果的中科聞歌,第三步便是發(fā)揮市場化基因,為此,企業(yè)建立了完全市場化的經(jīng)營模式,組建起一支多元化的人才隊(duì)伍。
從5個人到700人,從500萬啟動資金到10億的資產(chǎn)規(guī)模,從0到年銷售額達(dá)4億元,從北京到全國15家分公司,中科聞歌一路穩(wěn)扎穩(wěn)打,逐步在人工智能領(lǐng)域走出了自己的道路。
今年9月1日,由國家信息互聯(lián)網(wǎng)辦公室發(fā)布的第二批境內(nèi)深度合成服務(wù)算法備案名單中,中科聞歌“雅意”大模型算法便位列其中。目前,雅意大模型的性能在國內(nèi)權(quán)威C—EVAL評測的所有模型中,名列第四,在國際權(quán)威評測LLM leaderboard評測的同等參數(shù)規(guī)模模型中同樣名列前茅。
專注前沿科技創(chuàng)新,服務(wù)國家人工智能戰(zhàn)略需求
習(xí)近平總書記曾指出,“新一代人工智能是我們贏得全球科技競爭主動權(quán)的重要戰(zhàn)略抓手,是推動我國科技跨越發(fā)展、產(chǎn)業(yè)優(yōu)化升級、生產(chǎn)力整體躍升的重要戰(zhàn)略資源”。從2016年3月,“人工智能”一詞寫入國家“十三五”規(guī)劃綱要開始,近年來,國家的重視為人工智能的發(fā)展提供了強(qiáng)勁的動能,而一大批像中科聞歌這樣的科技企業(yè),一直沖鋒在攻克各項(xiàng)技術(shù)壁壘的前沿,為這個萬億賽道助力。
從梳理技術(shù)選賽道開始,中科聞歌幾乎是一腳便站上了最難的賽道。從感知智能向認(rèn)知和決策智能進(jìn)軍,這個研究方向在業(yè)界被稱為人工智能皇冠上的明珠,是人工智能取得進(jìn)一步突破的關(guān)鍵瓶頸,也是形成更大產(chǎn)業(yè)規(guī)模的關(guān)鍵技術(shù)。
在“雅意”研發(fā)過程中,技術(shù)壁壘便是層出不窮。據(jù)介紹,“雅意”是基于BigScience發(fā)布的bloomz—7b—mt模型(開源可商用的預(yù)訓(xùn)練模型,70億參數(shù))和Hugging Face發(fā)布的StarCoder(開源可商用的預(yù)訓(xùn)練模型,150億參數(shù))權(quán)重作為初始化權(quán)重,并基于詞表進(jìn)行擴(kuò)展,前后經(jīng)歷了三個階段的訓(xùn)練:第一階段是面向通用技能領(lǐng)域,使用聞海自有數(shù)據(jù)篩選高質(zhì)量多樣性樣本數(shù)據(jù)364萬條,進(jìn)行指令微調(diào);第二階段是在人工構(gòu)造的高質(zhì)量領(lǐng)域數(shù)據(jù)上,進(jìn)行領(lǐng)域性指令微調(diào),包括媒體、輿情、安全、金融、治理等五大領(lǐng)域數(shù)百種自然語言指令任務(wù),共計(jì)80萬條高質(zhì)量知識數(shù)據(jù);第三階段則是針對安全性/毒性等場景,做了針對性訓(xùn)練,訓(xùn)練數(shù)據(jù)約5萬條,并結(jié)合人工反饋優(yōu)化增加模型的忠實(shí)性和安全性。
在經(jīng)過內(nèi)部構(gòu)建的55個任務(wù)綜合評測后,“雅意”與目前主流的幾個大模型相比,取得了不俗的性能,在基礎(chǔ)能力測試方面,其整體性能與目前開源的同等規(guī)模參數(shù)的大模型能力相當(dāng)。
“中科聞歌一直致力于引領(lǐng)人工智能從感知向認(rèn)知、決策技術(shù)跨越,目前正在訓(xùn)練的一個千億規(guī)模的大模型,在數(shù)據(jù)、模型、應(yīng)用等方面擁有完全自主知識產(chǎn)權(quán),希望將來能以先進(jìn)的大模型技術(shù)服務(wù)行業(yè)數(shù)智化轉(zhuǎn)型,服務(wù)國家層面的人工智能戰(zhàn)略需求?!?/p>
談及此次烏鎮(zhèn)之旅,項(xiàng)目團(tuán)隊(duì)負(fù)責(zé)人表示,通過大賽,不僅接觸到了最新的大模型和數(shù)字人技術(shù),通過與專家和同行的交流,項(xiàng)目團(tuán)隊(duì)還了解到了更多的新研究方向和應(yīng)用場景,這對中科聞歌未來的研究和實(shí)踐有很大的幫助,同時對國內(nèi)大模型和數(shù)字人賽道的未來發(fā)展前景充滿信心。