国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

OpenAI新發(fā)布的o1模型怎么樣?

2025-02-19 00:00:00王俊煜
第一財(cái)經(jīng) 2025年2期
關(guān)鍵詞:博士生同學(xué)能力

2024年12月5日,OpenAI正式發(fā)布了o1模型。

關(guān)于o1,坊間早有傳聞。2023年11月,OpenAI那場(chǎng)短暫的“政變”過(guò)去沒(méi)幾天,路透社就報(bào)道說(shuō),Sam Altman被“除掉”的原因之一是OpenAI正在研發(fā)中的代號(hào)為“Q*”的模型過(guò)于強(qiáng)大,董事會(huì)擔(dān)心這項(xiàng)技術(shù)若所托非人,將威脅人類文明,“Q*”后來(lái)又被稱為“Strawberry”,也就是現(xiàn)在上線的o1。

對(duì)于一個(gè)可能會(huì)威脅人類文明的AI,我們還是有一些好奇心的。但好奇心是昂貴的,要使用“完全體”的o1,需要充值每月收費(fèi)高達(dá)200美元的ChatGPT Pro,才能解鎖o1的“專業(yè)模式”,且不提供試用。按照Sam Altman的說(shuō)法,“專業(yè)模式”可以讓o1“更用力地思考最難的問(wèn)題”。

什么叫難題?按OpenAI自己發(fā)布的評(píng)測(cè),o1能在物理、生物、化學(xué)等諸多學(xué)科領(lǐng)域超過(guò)博士水平;如果去參加2024年的美國(guó)數(shù)學(xué)邀請(qǐng)賽,它能進(jìn)入全美前500名。但坦白說(shuō),對(duì)此類宣傳,我們作為用戶已經(jīng)有些無(wú)感了。新模型出現(xiàn)的速度越來(lái)越快,每個(gè)新模型發(fā)布的時(shí)候都會(huì)跑一堆分?jǐn)?shù),宣稱自己在某些測(cè)試中破了紀(jì)錄。聽(tīng)起來(lái)都是很厲害的“做題家”,但作為普通人,難免會(huì)感到困惑:我們?nèi)粘S玫降哪P秃孟駴](méi)有那么厲害。如果我并不打算挑戰(zhàn)國(guó)際數(shù)學(xué)奧賽金牌,這些模型的分?jǐn)?shù)跟我的日常工作有什么關(guān)系?

于是,我打算拿工作中“最難的問(wèn)題”來(lái)試試。

說(shuō)到最難的問(wèn)題,我首先想到的是學(xué)術(shù)研究工作。我自己不做學(xué)術(shù)研究,但我的同學(xué)中研究什么的都有。我在大學(xué)和中學(xué)同學(xué)群中,請(qǐng)各行各業(yè)的同學(xué)幫忙列出自己工作中“最難”的問(wèn)題。最后,我收集到了來(lái)自數(shù)學(xué)、物理、大氣、化學(xué)、生物、材料、哲學(xué)、藝術(shù)、經(jīng)濟(jì)、金融、法律、財(cái)務(wù)……等等領(lǐng)域的問(wèn)題。其中,最酷的是我的數(shù)學(xué)家同學(xué),“能不能證出我的定理?”。天哪,他都有自己的定理了。

用他們的問(wèn)題向o1提問(wèn),開(kāi)啟“專業(yè)模式”后,等待數(shù)分鐘,就會(huì)收到答案。

同學(xué)們拿到答案后,大多數(shù)人認(rèn)為和之前的模型相比更加詳細(xì),有更多細(xì)節(jié),邏輯也更加清晰,“條理清楚、主次分明、考慮全面”,但同時(shí)“說(shuō)話也更繞了”。大家普遍認(rèn)為,它看起來(lái)“肯定嚼了很多文獻(xiàn)”,“作為文獻(xiàn)收集整理挺好”,“知識(shí)水平上跟博士生差不多”;材料科學(xué)家認(rèn)為,“如果能穩(wěn)定保持這個(gè)水平的話,當(dāng)科研助手絕對(duì)不亞于一個(gè)博士生,關(guān)鍵是博士生回答這個(gè)問(wèn)題至少要一周?!?/p>

但它是否真的擁有博士生的能力?可能取決于這個(gè)能力有多通用。大氣科學(xué)家表示它套用的分析問(wèn)題的“模式”是正確的,雖然很基礎(chǔ),但仍然“可以給我們很多具體的參考”。生物學(xué)家則有不同意見(jiàn),他問(wèn)了一個(gè)基因編輯的問(wèn)題,認(rèn)為AI并沒(méi)有真正理解蛋白質(zhì)切割的原理,“不是真的分析了蛋白結(jié)構(gòu),而是直接找已有結(jié)論”。

從研究的角度,“沒(méi)有什么突破性的思路”。但說(shuō)到這里同學(xué)們?cè)掍h一轉(zhuǎn),紛紛開(kāi)始吐槽,“現(xiàn)在的博士生基本也沒(méi)有……”“現(xiàn)在研究生的水平也不好,讓他們?nèi)ジ?,還不如自己干了”。

所以,從這個(gè)角度來(lái)說(shuō),o1確實(shí)可以和博士生比一比。最早給別人介紹ChatGPT時(shí),我會(huì)比喻說(shuō),可以把它看成一位本科學(xué)歷的、接受過(guò)良好通識(shí)教育、但不具有專業(yè)知識(shí)的助理,稍微有些偏文科,依靠直覺(jué)來(lái)做事。在過(guò)去這兩年,它被證明可以輕松勝任的工作是總結(jié)摘要、翻譯,以及一些應(yīng)付式的官樣文章寫作。今天要介紹o1,可以用一模一樣的比喻,只是變成了一位有些偏理工科的博士,強(qiáng)調(diào)的是推理、邏輯能力。

那么,假如不從事研究工作,這種推理能力是否有用?這個(gè)問(wèn)題有點(diǎn)像,理工科學(xué)生在大學(xué)都要學(xué)微積分,但大部分人的工作是不需要用到微積分的,那么為什么要學(xué)?要回答這個(gè)問(wèn)題,我們讓o1去上班試試。

我原來(lái)創(chuàng)辦的互聯(lián)網(wǎng)公司大約有500人,當(dāng)時(shí)我們將所有的崗位分為了軟件工程師、系統(tǒng)運(yùn)維、產(chǎn)品管理、產(chǎn)品設(shè)計(jì)、用戶研究和戰(zhàn)略分析、市場(chǎng)營(yíng)銷、商務(wù)銷售、運(yùn)營(yíng)等幾大類,并制定了統(tǒng)一的級(jí)別劃分和相應(yīng)的職責(zé)能力要求。簡(jiǎn)單重新瀏覽這些要求后,我發(fā)現(xiàn),除了軟件工程師(這在上期專欄已討論過(guò))和戰(zhàn)略研究員(這和上面的學(xué)術(shù)研究更相似),其他崗位的入門級(jí)別雖然工作難度不高,但涉及大量人際溝通、原始數(shù)據(jù)收集和落地執(zhí)行等事務(wù),目前很難被立刻取代。

反而是一線經(jīng)理人的工作,由于更多涉及制定計(jì)劃、策劃方案、分析結(jié)果等純“動(dòng)腦”的部分,可以被AI取代的部分更多一些。我們拿實(shí)際工作中的問(wèn)題,分別請(qǐng)o1撰寫了一份競(jìng)爭(zhēng)戰(zhàn)略分析報(bào)告、一份產(chǎn)品需求文檔,和一份市場(chǎng)營(yíng)銷活動(dòng)策劃。按市場(chǎng)營(yíng)銷同事的看法,之前的大語(yǔ)言模型輸出的更像是“模板”,實(shí)際內(nèi)容還是需自己去思考和撰寫,o1的輸出第一次讓人感覺(jué)稍作修改就可以直接拿去用。我們也確實(shí)拿去用了。

當(dāng)然,如果要AI給出更有針對(duì)性的方案而不是泛泛而談,你需要告訴它更多細(xì)節(jié)。有趣的是,當(dāng)你不得不長(zhǎng)篇大論地把問(wèn)題說(shuō)清楚,你腦中的問(wèn)題可能已經(jīng)迎刃而解了。說(shuō)到這里,我意識(shí)到這其實(shí)更像請(qǐng)外部顧問(wèn)—在真正的咨詢項(xiàng)目中,向顧問(wèn)講清問(wèn)題、幫助他理解上下文,本身就是很大的工作量。從這個(gè)角度說(shuō),如果你是一名決策者,這一代AI或許能扮演好你可以每天請(qǐng)教的智囊角色,而不僅僅是幫你收集材料、潤(rùn)色文檔的助理。

你還是需要理解大語(yǔ)言模型的局限,包括沒(méi)有實(shí)時(shí)數(shù)據(jù)、喜歡胡編亂造、記性不太好,等等。o1沒(méi)有實(shí)時(shí)搜索能力,在這方面和主流模型相比有些倒退,這意味著它只能憑借自己的積累來(lái)回答問(wèn)題,“不知有漢,無(wú)論魏晉”。它自己不知道“o1”是什么,也無(wú)法直接回答關(guān)于特朗普再次當(dāng)選和TikTok的問(wèn)題。至于胡編亂造,隨著AI智能程度的提升,可能更難被一眼看出。它的工作,你確實(shí)需要仔細(xì)檢查。

說(shuō)到底,AI即使有再聰明的大腦,但缺少眼睛和手腳,也很難真的解決實(shí)際工作中的問(wèn)題,畢竟大部分工作任務(wù)并不是單純的“思考”。當(dāng)我問(wèn)經(jīng)濟(jì)學(xué)家同學(xué),AI是否能取代研究生時(shí),他告訴我,他最近在做進(jìn)出口相關(guān)的研究,研究生目前的主要任務(wù)是將海關(guān)官網(wǎng)的數(shù)據(jù)復(fù)制粘貼到表格中,因?yàn)楹jP(guān)官網(wǎng)做了防爬蟲(chóng)—我嘗試了半天,用AI編程,確實(shí)就是卡在了那個(gè)我們耳熟能詳?shù)摹巴献磮D”的驗(yàn)證環(huán)節(jié)上?,F(xiàn)狀是,我們可能反而需要雇用人類來(lái)當(dāng)AI的眼睛和手腳,每天坐在電腦前拖拽拼圖。

就在o1正式發(fā)布兩周后,Google、DeepSeek等廠商推出的新模型又在若干測(cè)試中超越了它;而在Google推出新模型的次日,OpenAI公布了“o3”,又重新拉開(kāi)了差距,它可以挑戰(zhàn)比國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽題更專業(yè)的數(shù)學(xué)問(wèn)題。

從業(yè)者要面對(duì)的現(xiàn)實(shí)是,ChatGPT上線兩年來(lái),雖然模型能力早已大幅提升,但測(cè)試分?jǐn)?shù)難以直接翻譯成普通用戶的使用體驗(yàn),用戶只能依靠口碑和自己的經(jīng)驗(yàn)來(lái)為每一項(xiàng)任務(wù)挑選合適的模型,像我日常使用的模型就有五六款之多。模型的表現(xiàn)也不穩(wěn)定,常常需要反復(fù)嘗試不同模型,增加了使用難度。這些,都是普通用戶讓AI在工作生活中發(fā)揮更大作用的障礙。

我認(rèn)為,和模型能力的提升相比,我們?cè)诋a(chǎn)品形態(tài)的探索上大幅滯后。上期專欄提到“AI程序員”之所以更接近現(xiàn)實(shí),編程能力強(qiáng)是基礎(chǔ),更因?yàn)樾袠I(yè)大量投入,讓“AI程序員”擁有了眼睛和手腳,通過(guò)Cursor、Windsurf、Devin等產(chǎn)品形態(tài)的創(chuàng)新釋放了AI的價(jià)值,而不是只能通過(guò)聊天來(lái)和AI溝通。將這種做法復(fù)制到其他領(lǐng)域中,才有可能讓AI發(fā)揮價(jià)值。

Sam Altman說(shuō),ChatGPT Pro目前是虧損的。這讓我想起大學(xué)軍訓(xùn)結(jié)束那一天,我們一群男生涌進(jìn)學(xué)校旁邊19.9元的自助肥牛火鍋店而老板欲哭無(wú)淚的情景。如果你已經(jīng)是ChatGPT等工具的重度用戶,并且感到已有模型有些力不從心,有信心把這個(gè)錢吃回來(lái),不妨一試。當(dāng)然,在此之前,Google的對(duì)應(yīng)模型暫時(shí)可以免費(fèi)試用,不妨先試試看。

猜你喜歡
博士生同學(xué)能力
消防安全四個(gè)能力
中南大學(xué)教授、博士生導(dǎo)師
安全(2021年4期)2021-05-19 07:56:52
幫助同學(xué)
奇怪的新同學(xué)
大灰狼(2018年9期)2018-10-25 20:56:42
同學(xué)會(huì)上的殘酷真相
大興學(xué)習(xí)之風(fēng) 提升履職能力
你的換位思考能力如何
首都師范大學(xué)博士生導(dǎo)師
——王永平教授
福建師范大學(xué)博士生導(dǎo)師
——陳桂蓉教授
陜西師范大學(xué)博士生導(dǎo)師
——拜根興教授
延庆县| 保定市| 三亚市| 姚安县| 四川省| 高青县| 库伦旗| 那曲县| 稷山县| 曲阜市| 西丰县| 涪陵区| 花莲县| 马山县| 焉耆| 义乌市| 镇安县| 秀山| 达尔| 和静县| 修水县| 林口县| 翁源县| 新化县| 浙江省| 松桃| 饶平县| 垦利县| 土默特左旗| 金平| 威远县| 监利县| 绥化市| 岚皋县| 泰和县| 西和县| 高要市| 科尔| 韩城市| 寿阳县| 体育|