OpenAI新發(fā)布的o1模型怎么樣？

2025-02-19 00:00:00王俊煜

第一財(cái)經(jīng) 2025年2期

2024年12月5日，OpenAI正式發(fā)布了o1模型。

關(guān)于o1，坊間早有傳聞。2023年11月，OpenAI那場(chǎng)短暫的“政變”過(guò)去沒(méi)幾天，路透社就報(bào)道說(shuō)，Sam Altman被“除掉”的原因之一是OpenAI正在研發(fā)中的代號(hào)為“Q*”的模型過(guò)于強(qiáng)大，董事會(huì)擔(dān)心這項(xiàng)技術(shù)若所托非人，將威脅人類文明，“Q*”后來(lái)又被稱為“Strawberry”，也就是現(xiàn)在上線的o1。

對(duì)于一個(gè)可能會(huì)威脅人類文明的AI，我們還是有一些好奇心的。但好奇心是昂貴的，要使用“完全體”的o1，需要充值每月收費(fèi)高達(dá)200美元的ChatGPT Pro，才能解鎖o1的“專業(yè)模式”，且不提供試用。按照Sam Altman的說(shuō)法，“專業(yè)模式”可以讓o1“更用力地思考最難的問(wèn)題”。

什么叫難題？按OpenAI自己發(fā)布的評(píng)測(cè)，o1能在物理、生物、化學(xué)等諸多學(xué)科領(lǐng)域超過(guò)博士水平；如果去參加2024年的美國(guó)數(shù)學(xué)邀請(qǐng)賽，它能進(jìn)入全美前500名。但坦白說(shuō)，對(duì)此類宣傳，我們作為用戶已經(jīng)有些無(wú)感了。新模型出現(xiàn)的速度越來(lái)越快，每個(gè)新模型發(fā)布的時(shí)候都會(huì)跑一堆分?jǐn)?shù)，宣稱自己在某些測(cè)試中破了紀(jì)錄。聽(tīng)起來(lái)都是很厲害的“做題家”，但作為普通人，難免會(huì)感到困惑：我們?nèi)粘Ｓ玫降哪Ｐ秃孟駴](méi)有那么厲害。如果我并不打算挑戰(zhàn)國(guó)際數(shù)學(xué)奧賽金牌，這些模型的分?jǐn)?shù)跟我的日常工作有什么關(guān)系？

于是，我打算拿工作中“最難的問(wèn)題”來(lái)試試。

說(shuō)到最難的問(wèn)題，我首先想到的是學(xué)術(shù)研究工作。我自己不做學(xué)術(shù)研究，但我的同學(xué)中研究什么的都有。我在大學(xué)和中學(xué)同學(xué)群中，請(qǐng)各行各業(yè)的同學(xué)幫忙列出自己工作中“最難”的問(wèn)題。最后，我收集到了來(lái)自數(shù)學(xué)、物理、大氣、化學(xué)、生物、材料、哲學(xué)、藝術(shù)、經(jīng)濟(jì)、金融、法律、財(cái)務(wù)……等等領(lǐng)域的問(wèn)題。其中，最酷的是我的數(shù)學(xué)家同學(xué)，“能不能證出我的定理？”。天哪，他都有自己的定理了。

用他們的問(wèn)題向o1提問(wèn)，開(kāi)啟“專業(yè)模式”后，等待數(shù)分鐘，就會(huì)收到答案。

同學(xué)們拿到答案后，大多數(shù)人認(rèn)為和之前的模型相比更加詳細(xì)，有更多細(xì)節(jié)，邏輯也更加清晰，“條理清楚、主次分明、考慮全面”，但同時(shí)“說(shuō)話也更繞了”。大家普遍認(rèn)為，它看起來(lái)“肯定嚼了很多文獻(xiàn)”，“作為文獻(xiàn)收集整理挺好”，“知識(shí)水平上跟博士生差不多”；材料科學(xué)家認(rèn)為，“如果能穩(wěn)定保持這個(gè)水平的話，當(dāng)科研助手絕對(duì)不亞于一個(gè)博士生，關(guān)鍵是博士生回答這個(gè)問(wèn)題至少要一周?！?/p>

但它是否真的擁有博士生的能力？可能取決于這個(gè)能力有多通用。大氣科學(xué)家表示它套用的分析問(wèn)題的“模式”是正確的，雖然很基礎(chǔ)，但仍然“可以給我們很多具體的參考”。生物學(xué)家則有不同意見(jiàn)，他問(wèn)了一個(gè)基因編輯的問(wèn)題，認(rèn)為AI并沒(méi)有真正理解蛋白質(zhì)切割的原理，“不是真的分析了蛋白結(jié)構(gòu)，而是直接找已有結(jié)論”。

從研究的角度，“沒(méi)有什么突破性的思路”。但說(shuō)到這里同學(xué)們?cè)掍h一轉(zhuǎn)，紛紛開(kāi)始吐槽，“現(xiàn)在的博士生基本也沒(méi)有……”“現(xiàn)在研究生的水平也不好，讓他們?nèi)ジ?，還不如自己干了”。

所以，從這個(gè)角度來(lái)說(shuō)，o1確實(shí)可以和博士生比一比。最早給別人介紹ChatGPT時(shí)，我會(huì)比喻說(shuō)，可以把它看成一位本科學(xué)歷的、接受過(guò)良好通識(shí)教育、但不具有專業(yè)知識(shí)的助理，稍微有些偏文科，依靠直覺(jué)來(lái)做事。在過(guò)去這兩年，它被證明可以輕松勝任的工作是總結(jié)摘要、翻譯，以及一些應(yīng)付式的官樣文章寫作。今天要介紹o1，可以用一模一樣的比喻，只是變成了一位有些偏理工科的博士，強(qiáng)調(diào)的是推理、邏輯能力。

那么，假如不從事研究工作，這種推理能力是否有用？這個(gè)問(wèn)題有點(diǎn)像，理工科學(xué)生在大學(xué)都要學(xué)微積分，但大部分人的工作是不需要用到微積分的，那么為什么要學(xué)？要回答這個(gè)問(wèn)題，我們讓o1去上班試試。

我原來(lái)創(chuàng)辦的互聯(lián)網(wǎng)公司大約有500人，當(dāng)時(shí)我們將所有的崗位分為了軟件工程師、系統(tǒng)運(yùn)維、產(chǎn)品管理、產(chǎn)品設(shè)計(jì)、用戶研究和戰(zhàn)略分析、市場(chǎng)營(yíng)銷、商務(wù)銷售、運(yùn)營(yíng)等幾大類，并制定了統(tǒng)一的級(jí)別劃分和相應(yīng)的職責(zé)能力要求。簡(jiǎn)單重新瀏覽這些要求后，我發(fā)現(xiàn)，除了軟件工程師（這在上期專欄已討論過(guò)）和戰(zhàn)略研究員（這和上面的學(xué)術(shù)研究更相似），其他崗位的入門級(jí)別雖然工作難度不高，但涉及大量人際溝通、原始數(shù)據(jù)收集和落地執(zhí)行等事務(wù)，目前很難被立刻取代。

反而是一線經(jīng)理人的工作，由于更多涉及制定計(jì)劃、策劃方案、分析結(jié)果等純“動(dòng)腦”的部分，可以被AI取代的部分更多一些。我們拿實(shí)際工作中的問(wèn)題，分別請(qǐng)o1撰寫了一份競(jìng)爭(zhēng)戰(zhàn)略分析報(bào)告、一份產(chǎn)品需求文檔，和一份市場(chǎng)營(yíng)銷活動(dòng)策劃。按市場(chǎng)營(yíng)銷同事的看法，之前的大語(yǔ)言模型輸出的更像是“模板”，實(shí)際內(nèi)容還是需自己去思考和撰寫，o1的輸出第一次讓人感覺(jué)稍作修改就可以直接拿去用。我們也確實(shí)拿去用了。

當(dāng)然，如果要AI給出更有針對(duì)性的方案而不是泛泛而談，你需要告訴它更多細(xì)節(jié)。有趣的是，當(dāng)你不得不長(zhǎng)篇大論地把問(wèn)題說(shuō)清楚，你腦中的問(wèn)題可能已經(jīng)迎刃而解了。說(shuō)到這里，我意識(shí)到這其實(shí)更像請(qǐng)外部顧問(wèn)—在真正的咨詢項(xiàng)目中，向顧問(wèn)講清問(wèn)題、幫助他理解上下文，本身就是很大的工作量。從這個(gè)角度說(shuō)，如果你是一名決策者，這一代AI或許能扮演好你可以每天請(qǐng)教的智囊角色，而不僅僅是幫你收集材料、潤(rùn)色文檔的助理。

你還是需要理解大語(yǔ)言模型的局限，包括沒(méi)有實(shí)時(shí)數(shù)據(jù)、喜歡胡編亂造、記性不太好，等等。o1沒(méi)有實(shí)時(shí)搜索能力，在這方面和主流模型相比有些倒退，這意味著它只能憑借自己的積累來(lái)回答問(wèn)題，“不知有漢，無(wú)論魏晉”。它自己不知道“o1”是什么，也無(wú)法直接回答關(guān)于特朗普再次當(dāng)選和TikTok的問(wèn)題。至于胡編亂造，隨著AI智能程度的提升，可能更難被一眼看出。它的工作，你確實(shí)需要仔細(xì)檢查。

說(shuō)到底，AI即使有再聰明的大腦，但缺少眼睛和手腳，也很難真的解決實(shí)際工作中的問(wèn)題，畢竟大部分工作任務(wù)并不是單純的“思考”。當(dāng)我問(wèn)經(jīng)濟(jì)學(xué)家同學(xué)，AI是否能取代研究生時(shí)，他告訴我，他最近在做進(jìn)出口相關(guān)的研究，研究生目前的主要任務(wù)是將海關(guān)官網(wǎng)的數(shù)據(jù)復(fù)制粘貼到表格中，因?yàn)楹ｊP(guān)官網(wǎng)做了防爬蟲(chóng)—我嘗試了半天，用AI編程，確實(shí)就是卡在了那個(gè)我們耳熟能詳?shù)摹巴献磮D”的驗(yàn)證環(huán)節(jié)上?，F(xiàn)狀是，我們可能反而需要雇用人類來(lái)當(dāng)AI的眼睛和手腳，每天坐在電腦前拖拽拼圖。

就在o1正式發(fā)布兩周后，Google、DeepSeek等廠商推出的新模型又在若干測(cè)試中超越了它；而在Google推出新模型的次日，OpenAI公布了“o3”，又重新拉開(kāi)了差距，它可以挑戰(zhàn)比國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽題更專業(yè)的數(shù)學(xué)問(wèn)題。

從業(yè)者要面對(duì)的現(xiàn)實(shí)是，ChatGPT上線兩年來(lái)，雖然模型能力早已大幅提升，但測(cè)試分?jǐn)?shù)難以直接翻譯成普通用戶的使用體驗(yàn)，用戶只能依靠口碑和自己的經(jīng)驗(yàn)來(lái)為每一項(xiàng)任務(wù)挑選合適的模型，像我日常使用的模型就有五六款之多。模型的表現(xiàn)也不穩(wěn)定，常常需要反復(fù)嘗試不同模型，增加了使用難度。這些，都是普通用戶讓AI在工作生活中發(fā)揮更大作用的障礙。

我認(rèn)為，和模型能力的提升相比，我們?cè)诋a(chǎn)品形態(tài)的探索上大幅滯后。上期專欄提到“AI程序員”之所以更接近現(xiàn)實(shí)，編程能力強(qiáng)是基礎(chǔ)，更因?yàn)樾袠I(yè)大量投入，讓“AI程序員”擁有了眼睛和手腳，通過(guò)Cursor、Windsurf、Devin等產(chǎn)品形態(tài)的創(chuàng)新釋放了AI的價(jià)值，而不是只能通過(guò)聊天來(lái)和AI溝通。將這種做法復(fù)制到其他領(lǐng)域中，才有可能讓AI發(fā)揮價(jià)值。

Sam Altman說(shuō)，ChatGPT Pro目前是虧損的。這讓我想起大學(xué)軍訓(xùn)結(jié)束那一天，我們一群男生涌進(jìn)學(xué)校旁邊19.9元的自助肥牛火鍋店而老板欲哭無(wú)淚的情景。如果你已經(jīng)是ChatGPT等工具的重度用戶，并且感到已有模型有些力不從心，有信心把這個(gè)錢吃回來(lái)，不妨一試。當(dāng)然，在此之前，Google的對(duì)應(yīng)模型暫時(shí)可以免費(fèi)試用，不妨先試試看。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

OpenAI新發(fā)布的o1模型怎么樣？

OpenAI新發(fā)布的o1模型怎么樣？