只有幾家大公司零星宣布將在未來推出自己的大模型,幾個明星創(chuàng)業(yè)者透露將在這個領(lǐng)域創(chuàng)業(yè)。在這樣的背景下,MiniMax 的“橫空出世”無疑是一個意外的驚喜。
以ChatGPT為代表的AI技術(shù),將從根本上改變每一個軟件服務(wù)類別——微軟總裁納德拉的這句斷言,今天已經(jīng)成為全球大部分科技從業(yè)者的共識。
當(dāng)國外科技行業(yè)熱火朝天投入這波浪潮中時,中國從業(yè)者卻悲哀地發(fā)現(xiàn),國內(nèi)在大模型領(lǐng)域幾乎是一片空白。只有幾家大公司零星宣布將在未來推出自己的大模型,幾個明星創(chuàng)業(yè)者透露將在這個領(lǐng)域創(chuàng)業(yè)。在這樣的背景下,MiniMax 的“橫空出世”無疑是一個意外的驚喜。
MiniMax把大模型變成人類想象力的引擎,就像電影《Her》表現(xiàn)的那樣,主人公可以和逝世多年的Alan Wstts的虛擬AI在線聊天。
“硬核”團隊
核心創(chuàng)始人楊斌用“我和我一群志同道合的朋友們”來形容MiniMax的創(chuàng)始團隊。而這個“志同道合”,指的是對AGI(通用人工智能)理想的熱愛和執(zhí)著。
MiniMax的創(chuàng)始團隊稱得上是“中科院系”。創(chuàng)始人閆俊杰博士畢業(yè)于中科院自動化所,曾經(jīng)是商湯科技的副總裁、通用智能技術(shù)負(fù)責(zé)人。楊斌于2014年在中科院自動化所第一次參與深度學(xué)習(xí)相關(guān)的項目,2016年前往加拿大多倫多大學(xué)攻讀博士學(xué)位。在海外留學(xué)期間,他先后作為創(chuàng)始團隊成員在Uber ATG研究院、自動駕駛初創(chuàng)公司W(wǎng)aabi等供職,擁有多年研發(fā)經(jīng)驗,對基于數(shù)據(jù)驅(qū)動的端到端系統(tǒng)問題頗有研究。另一位核心成員周彧聰也是商湯科技早期員工之一,曾經(jīng)在商湯科技研究院帶領(lǐng)算法團隊。目前,MiniMax團隊人數(shù)已過百,公司核心技術(shù)研發(fā)成員均來自全球知名高校。
楊斌表示,過去三四年內(nèi),AI領(lǐng)域出現(xiàn)了三個關(guān)鍵事件。
第一件是2020年6月,OpenAI發(fā)布GPT-3。這表明在自然語言任務(wù)上,也存在類似“摩爾定律”的規(guī)律,即如果讓模型的參數(shù)量呈指數(shù)級增加,并配合足夠多的語料數(shù)據(jù),就會發(fā)生化學(xué)反應(yīng)——GPT-3擁有了對自然語言的推理能力,并擁有很好的泛化能力,幾乎能夠解決任何文本處理任務(wù),如翻譯、續(xù)寫、評價等。
第二件是2021年1月,OpenAI提出了跨模態(tài)模型CLIP,該模型能夠在互聯(lián)網(wǎng)上抓取大量圖片文本,學(xué)習(xí)一段時間過后,CLIP能夠用自然語言解釋對圖片的理解,也能通過文字描述來生成圖片,這便是一種跨模態(tài)的生成和轉(zhuǎn)換。
第三件事是2021年8月,特斯拉在AI Day上證明了完全由數(shù)據(jù)驅(qū)動的、端到端的深度學(xué)習(xí)技術(shù)棧能夠在自動駕駛上被成功應(yīng)用,并且已經(jīng)成功上車,在現(xiàn)實世界跑通了數(shù)據(jù)閉環(huán)。此后,全球各大自動駕駛公司才相信這件事原來能夠做成。
基于以上三件事,MiniMax初創(chuàng)團隊認(rèn)為:AI技術(shù)將在未來兩三年內(nèi)發(fā)生質(zhì)的升級,AGI將成為可能?;趯GI趨勢的判斷,以“和用戶共同創(chuàng)造通用智能 Intelligence with Everyone”為使命的MiniMax,在2021年12月成立。
從底層做起
MiniMax從底層做起,形成了文本到視覺(text to visual)、文本到語音(text to audio)、文本到文本(text to text)三大模態(tài)的基礎(chǔ)模型架構(gòu),可能是國內(nèi)第一家同時擁有3個模態(tài)大模型能力的創(chuàng)業(yè)公司。
MiniMax的商業(yè)模式與OpenAI相似,包括to C與to B兩大方向。在to C方向,其大模型驅(qū)動的首款產(chǎn)品Glow,上線應(yīng)用商店約4個月,就獲得近500萬用戶;在to B方向,MiniMax對外開放API。
有用戶將Glow形容為“第一人稱視角下的開放世界”。玩家通過和AI驅(qū)動的智能體對話,來建造自己的世界。去年底,Glow的升級版Talkie: Soulful AI(以下簡稱Talkie)在Google Play新西蘭、英國、加拿大、澳大利亞、美國等地區(qū)娛樂(免費)排行榜持續(xù)一個月霸榜前十。
在官網(wǎng)首頁,百余類角色Chat可供用戶在線聊天。角色由用戶創(chuàng)建,提供普通和高保真兩種模式創(chuàng)建人物角色。用戶在普通模式中可以上傳一張形象圖生成機器人,高保真模式則需要上傳20~40張圖片生成一個虛擬化身。
在創(chuàng)建過程中,用戶可以添加提示詞塑造角色,增強角色準(zhǔn)確性。形象確定后,用戶需在基礎(chǔ)語音的基礎(chǔ)上調(diào)整比例配出角色音。經(jīng)添加問候語等步驟后,用戶提交審核確認(rèn),角色便能上線平臺面向所有用戶開放。Talkie隨機生成,其核心玩法是聊天,軟件界面由發(fā)現(xiàn)和聊天界面組成。
聊天界面背景是人設(shè)形象,用戶向智能體發(fā)送文字或提示詞,Chat AI在與用戶聊天時會同時提供語音和文字兩種回復(fù),并能生成英語、日文、中文等多種回答。在Talkie中,人物有特定的性格和背景設(shè)定,以日本動漫《咒術(shù)回戰(zhàn)》熱門人物五條悟為例,其中有學(xué)生時期、教師時期等不同場景人設(shè)下的AI機器人,用戶可在相應(yīng)界面中定制個人人設(shè)再發(fā)起聊天。
讓Talkie脫穎而出的是其卡牌機制,吸引了大批熱愛OC(原創(chuàng)角色)、AGC角色及渴望陪伴交流的用戶。用戶與角色Chat自然交流的過程中如果觸發(fā)特定話題會有抽取CG卡牌的機會,這同樣是Talkie變現(xiàn)的重要方式。
MiniMax在C端發(fā)力的同時,面向B端的動作也很頻繁。2023年8月,MiniMax大模型全面開放,能力適用于大多數(shù)文本處理相關(guān)的場景,如邏輯推理、文本續(xù)寫、文案生成、文本擴寫、文本改寫、內(nèi)容摘要、代碼生成、知識檢索等。此外,MiniMax開放平臺還提供聲音大模型能力,可應(yīng)用于配音和音頻交互等場景中。2024年1月,MiniMax全量發(fā)布大語言模型 abab6,為國內(nèi)首個MoE大語言模型。
眼下,MiniMax已經(jīng)完成多輪融資,估值超過25億美元。
延伸
閱讀
應(yīng)用創(chuàng)新成為中國大模型創(chuàng)業(yè)的風(fēng)口
從ChatGPT,到今年的Sora,國內(nèi)對于大模型的討論居高不下。過去一年以來,資本市場也在試圖挖掘出“中國版的OpenAI”。AI時代的應(yīng)用競賽已經(jīng)開始,在大模型的基礎(chǔ)設(shè)施和技術(shù)逐漸成熟的過程中,應(yīng)用創(chuàng)新顯然將成為下一個重要的突破口。業(yè)內(nèi)有觀點認(rèn)為,2024年或是AI大模型應(yīng)用的浪潮年。
據(jù)統(tǒng)計,截至2023年11月20日,2023年有14 家人工智能公司在一級市場獲得了1億美元以上的融資,其中,基礎(chǔ)大模型的初創(chuàng)企業(yè)被更多地看見和關(guān)注。例如,成立于4年前的智譜AI于去年宣布融資額達(dá)到25億元人民幣,估值超過百億元。“想要追趕,你不能簡單踩著別人的腳印往前走?!敝亲VCEO張鵬表示。
大模型的核心壁壘包括算力、數(shù)據(jù)、算法,一切需從底層做起。度小滿CTO許冬亮表示,只有極少的企業(yè)能夠從頭到尾地完成產(chǎn)業(yè)級研發(fā)。不僅如此,這條賽道已經(jīng)十分擁擠。公開資料顯示,到去年10月,國內(nèi)已涌現(xiàn)了238個大模型;自2023年8月第一批國產(chǎn)大模型通過備案起,截至今年2月,已經(jīng)有40余款大模型獲批對外開放。到現(xiàn)在這個時間點,這顯然已經(jīng)不再是一個適合創(chuàng)業(yè)公司的賽道。
經(jīng)過了一年的生長,大模型企業(yè)的方向逐漸明晰:要么深耕基座技術(shù),要么聚焦應(yīng)用創(chuàng)新。而后者則被認(rèn)為是當(dāng)前更合適的創(chuàng)業(yè)路徑。百度創(chuàng)始人、董事長兼CEO李彥宏就曾表示:“AI原生時代,我們需要100萬量級的AI原生應(yīng)用,但是不需要100個大模型?!?/p>
目前,應(yīng)用創(chuàng)業(yè)的一種路徑是基于原有的產(chǎn)品來融合大模型的能力,另一種路徑是重新搭載關(guān)于大模型的基于場景的應(yīng)用。大多數(shù)應(yīng)用都是選擇了后者。對于創(chuàng)業(yè)者來說,應(yīng)用方面的創(chuàng)業(yè)確實更容易起步;對于投資者來說,也傾向于更快見到商業(yè)上的反饋。
由此可見,大模型產(chǎn)業(yè)走向垂直化、細(xì)分化、專業(yè)化,已經(jīng)成為未來最重要的趨勢之一。無論是GPT還是其他基于Transformer架構(gòu)下的大模型產(chǎn)品,其生成反饋的原則都并非線性的邏輯思考,而是根據(jù)“學(xué)到的知識和規(guī)律”來進行概率組合,這也是為何大模型學(xué)的越多越強悍的原因。
在教育、政企服務(wù)、醫(yī)療等領(lǐng)域,許多大模型都開始了走向垂直化,包括網(wǎng)易的子曰教育大模型,專注政企客戶的雅意大模型,在金融、醫(yī)療等領(lǐng)域深耕的百川大模型等。通過小而精的訓(xùn)練方法,不僅能夠突破大模型無法解決專業(yè)問題的阻礙,還能進一步降低成本,讓大規(guī)模推廣成為可能。
(編輯 周靜 charm1121@sina.com)