編輯:Aeneas 桃子 【新智元導(dǎo)讀】剛剛,OpenAI再度緊急出手,在發(fā)布會(huì)直播全新的「Deep Research」功能?;趏3的推理再加上聯(lián)網(wǎng)搜索,ChatGPT如今可以完成耗費(fèi)人類專家數(shù)小時(shí)的復(fù)雜研究了!現(xiàn)在,模型已經(jīng)刷爆「人類最后考試」榜單。 一大早,OpenAI開啟的在線直播,簡(jiǎn)直讓人猝不及防。 OpenAI研究負(fù)責(zé)人Mark Chen帶領(lǐng)三位工作人員,在20多分鐘內(nèi)向我們?cè)敿?xì)演示了Deep Research的功能。 最大亮點(diǎn)之一:只要數(shù)十分鐘,它就能完成人類專家花費(fèi)幾小時(shí)的復(fù)雜調(diào)研任務(wù)! Mark Chen將之稱為「我們的下一代智能體產(chǎn)品」。 去年,OpenAI就推出了o1,但這些推理模型的一個(gè)限制,是它們無(wú)法使用工具,因?yàn)槿鄙倭藶g覽互聯(lián)網(wǎng)這個(gè)核心能力, 因此,現(xiàn)在OpenAI宣布了一個(gè)重大步驟:引入Deep Research! 奧特曼激動(dòng)地表示,這就像是擁有一種超能力,可以隨時(shí)調(diào)用專家!
需要強(qiáng)調(diào)的是,Deep Research是基于優(yōu)化版o3打造——一個(gè)可以瀏覽網(wǎng)頁(yè)和執(zhí)行python代碼的o3。 這是一個(gè)可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究的模型,它能發(fā)現(xiàn)、綜合內(nèi)容,并對(duì)之進(jìn)行推理。甚至隨著發(fā)現(xiàn)更多信息,它還會(huì)調(diào)整自己的計(jì)劃。 也就是說(shuō),Deep Research的一大特點(diǎn),就是消除了模型中的延遲限制,它返回結(jié)果可能需要五分鐘,甚至長(zhǎng)達(dá)半小時(shí)。 模型能在無(wú)人監(jiān)督的情況下,以更長(zhǎng)時(shí)間執(zhí)行自主任務(wù),這儼然就是AGI的雛形。最終,OpenAI的愿景是:模型能自主發(fā)現(xiàn)和發(fā)掘新知識(shí)。 OpenAI研究員表示,「使用Deep Research對(duì)我來(lái)說(shuō)真的是一次個(gè)人的AGI時(shí)刻。只要10分鐘,它就能生成準(zhǔn)確又全面的競(jìng)爭(zhēng)對(duì)手和市場(chǎng)研究報(bào)告(還有來(lái)源),以前這些東西我得花3個(gè)小時(shí)才能做完」。 現(xiàn)在,Deep Research會(huì)自己上網(wǎng),然后給你一份全面、引用翔實(shí)的研究論文!也就是說(shuō),它已經(jīng)妥妥達(dá)到了某領(lǐng)域研究專家的級(jí)別。 奧特曼還特意發(fā)文表示,這還不是o3-mini的「One More Thing」,這個(gè)小彩蛋過(guò)幾天公布。 今天,Deep Research就將在Pro中推出了(每月100次查詢),之后還會(huì)很快在Plus、Team、Education和Enterprise版本中上線。 幫PM完成深度市場(chǎng)調(diào)查報(bào)告 從一個(gè)按鈕「Deep Research」開始,就可以和Deep Research聊天了。 OpenAI研究者演示說(shuō),自己一直在思考的就是,是否該開發(fā)一款新的語(yǔ)言翻譯app呢? 這個(gè)市場(chǎng)調(diào)研,就可以交給Deep Research—— 「幫我找到ios和Android的采用率,想要學(xué)習(xí)另一種語(yǔ)言的人的百分比,過(guò)去幾年移動(dòng)普及率的變化,以及發(fā)達(dá)國(guó)家和發(fā)展中國(guó)家的差異?!?/span> 研究者明確表示,希望自己想要的信息以格式化的報(bào)告呈現(xiàn),其中要包含表格和明確建議,說(shuō)明哪些是最佳的新興機(jī)會(huì)。 這個(gè)市場(chǎng)調(diào)查要求,可著實(shí)不簡(jiǎn)單。如果是普通打工人來(lái)調(diào)研,最少也得花費(fèi)數(shù)小時(shí)。 但是Deep Research,立馬就啟動(dòng)了調(diào)查。 接下來(lái),研究者進(jìn)一步細(xì)化了自己的要求:給我滲透率的用戶百分比,分析總體使用情況,對(duì)其余部分進(jìn)行最好的假設(shè)。 在這里,Deep Research就開始發(fā)揮自己的長(zhǎng)處:自主啟動(dòng)研究過(guò)程。 在這個(gè)過(guò)程中,它會(huì)瀏覽不同網(wǎng)頁(yè),查看相關(guān)圖片、表格、PDF,提取所有信息,來(lái)確定下一步要做什么。 在OpenAI的演示結(jié)束時(shí),Deep Research仍然在進(jìn)行搜索和調(diào)研。此時(shí),它已經(jīng)查看了29個(gè)不同來(lái)源和大量信息。 可以看出,它的報(bào)告中已經(jīng)包含了不同的表格,以及多種呈現(xiàn)數(shù)據(jù)的形式。 而且,我們能夠點(diǎn)擊查看模型的每一個(gè)引用,以及它遇到的不同網(wǎng)站。 對(duì)于不同學(xué)術(shù)領(lǐng)域的市場(chǎng)研究,比如物理學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué),Deep Research都很擅長(zhǎng)。 OpenAI研究者還展示了一個(gè)財(cái)務(wù)研究的例子:「我是一個(gè)硅谷風(fēng)投公司的投資分析師,想分析民用超音速航空旅行市場(chǎng),準(zhǔn)備一份詳盡的投資備忘錄?!?/span> 在這個(gè)過(guò)程中,模型開展了7分鐘的研究,使用了12個(gè)不同來(lái)源,提供了一份全面的調(diào)查報(bào)告。 下面是一個(gè)生物學(xué)方面的例子。 研究者上傳了一篇論文,想找到關(guān)于同一主題的其他論文。 最終Deep Research給出的結(jié)果,得到了生物學(xué)專家的認(rèn)可。 有趣的東西:買買買 而且,Deep Research能做的絕不僅僅是嚴(yán)肅的學(xué)術(shù)調(diào)查報(bào)告,它還可以幫你完成很多有趣、好玩的調(diào)查,比如——我該買什么? 如果我們要入手一件很貴的東西,肯定不敢貿(mào)然下單,而是提前在網(wǎng)上細(xì)細(xì)研讀每一頁(yè)說(shuō)明和買家評(píng)論。 比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報(bào)告。 在這個(gè)過(guò)程中,我們可以細(xì)化要求:高級(jí)滑雪者,有時(shí)雪是粉狀的,自己身高很高所以需要長(zhǎng)滑雪板,而且顏色要很漂亮。 最終,Deep Research給出了長(zhǎng)篇的報(bào)告,還對(duì)理想的滑雪板做了詳細(xì)列表。 也就是說(shuō),如果你想要的答案非常具體,那么Deep Research就會(huì)非常有效。 甚至,我們可以用Deep Research找出10年前在東京去過(guò)的餐廳的名字,或者找到我們忘記名字、但記得其中某集內(nèi)容的電視劇。 除了描述情節(jié)之外,其余的信息就是這是5到10年前的電視劇了。 結(jié)果,Deep Research居然找出了正確答案! 優(yōu)化版o3加持,AGI又近一步 去年12月,谷歌最先放出了研究智能體Deep Research。 OpenAI同款Deep Research,也是智能體的一種,能夠針對(duì)復(fù)雜任務(wù)上網(wǎng)進(jìn)行多步研究。 它能在幾十分鐘內(nèi),完成人類需要數(shù)小時(shí)才能完成的工作。 只需一個(gè)提示,ChatGPT即可查找、分析和綜合數(shù)百個(gè)在線資源,創(chuàng)建一份「研究分析師級(jí)」的綜合報(bào)告。 值得一提的是,Deep Research由即將推出的o3模型的「優(yōu)化版本」加持。 OpenAI通過(guò)端到端強(qiáng)化學(xué)習(xí),對(duì)它的深度瀏覽和推理任務(wù)進(jìn)行了訓(xùn)練。 該版本專門用于網(wǎng)頁(yè)瀏覽和數(shù)據(jù)分析,它利用推理能力來(lái)搜索、解釋和分析互聯(lián)網(wǎng)上大量的文本、圖像和PDF,并根據(jù)遇到的信息隨時(shí)調(diào)整方向。 要知道,「綜合知識(shí)」的能力,是創(chuàng)造新知識(shí)的先決條件。 因此,Deep Research的推出,標(biāo)志著OpenAI向更廣泛的目標(biāo)——開發(fā)AGI邁出了重要一步。 OpenAI研究科學(xué)家Hyung Won Chung對(duì)此表示:
畢竟,OpenAI一直設(shè)想,真正的AGI是能夠自己產(chǎn)出新穎的科學(xué)研究。 幾天前的Reddit在線問(wèn)答中,奧特曼也發(fā)表了同樣的觀點(diǎn)。
一個(gè)提示,即出一份專業(yè)報(bào)告 那么,Deep Research究竟能做什么? 據(jù)OpenAI介紹,它是專為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識(shí)工作,需要全面、精確和可靠研究的人們而打造的。 對(duì)于那些「買買買」購(gòu)物狂來(lái)說(shuō),Deep Research還能為你所需研究的購(gòu)買項(xiàng)目,比如汽車、家電、家具等,提供高度的個(gè)性化建議。 而且,每個(gè)輸出都有完整的文檔記錄,包含清晰的引用和思維過(guò)程總結(jié),方便隨后參考和驗(yàn)證。 尤其是,它特別擅長(zhǎng)發(fā)現(xiàn)需要瀏覽眾多網(wǎng)站才能獲取的小眾、非直觀信息。 只需查詢一次,Deep Research就能get要點(diǎn),加快復(fù)雜、耗時(shí)的網(wǎng)絡(luò)研究,節(jié)省了大量寶貴的時(shí)間。 此外,Deep Research能夠獨(dú)立發(fā)現(xiàn)、推理并整合來(lái)自網(wǎng)絡(luò)各種見解。 在技術(shù)層面上,它采用了與o1相同的強(qiáng)化學(xué)習(xí)方法,并進(jìn)行了重要的升級(jí)。 它在真實(shí)世界任務(wù)中進(jìn)行了訓(xùn)練,整合了瀏覽器的操作能力,強(qiáng)化了Python工具使用。 雖然o1在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域展示了令人印象深刻的能力,但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從不同在線來(lái)源獲取大量背景和信息。 Deep Research在這些推理能力的基礎(chǔ)上彌補(bǔ)了這一差距,使其能夠處理人們?cè)诠ぷ骱腿粘I钪忻媾R的各類問(wèn)題。 最快5分鐘,圖像數(shù)據(jù)可視化要來(lái) 進(jìn)入ChatGPT,可以再聊天對(duì)話框中選擇「Deep Research」,直接輸入提示即可。 不論是對(duì)流媒體平臺(tái)的競(jìng)爭(zhēng)分析,還是關(guān)于最佳通勤自行車的個(gè)性化報(bào)告,ChatGPT全能hold住。 甚至,你還可以上傳文件、電子表格,提供與問(wèn)題更多相關(guān)的背景信息。 一旦開啟對(duì)話,側(cè)邊欄會(huì)顯示所采取步驟和信息來(lái)源的摘要。 一般來(lái)說(shuō),Deep Research需要5-30分鐘完成一份研究,具體實(shí)踐取決于深入網(wǎng)絡(luò)研究所需的時(shí)間。 在此期間,你完全可以去干別的事,ChatGPT完成研究后會(huì)主動(dòng)向你發(fā)送通知,最終的輸出將以報(bào)告形式展現(xiàn)在聊天中。 更驚喜的是,未來(lái)幾周,OpenAI還將在這些報(bào)告中添加嵌入式圖像、數(shù)據(jù)可視化和其他分析輸出,提供更多清晰度和背景信息。 與Deep Research相比,GPT-4o更適合實(shí)時(shí)的多模態(tài)對(duì)話。 對(duì)于需要深入和細(xì)節(jié)的多維度、專業(yè)領(lǐng)域的問(wèn)題,Deep Research能夠進(jìn)行廣泛探索并為每個(gè)論點(diǎn)提供引用來(lái)源。 這種能力使其有別于簡(jiǎn)單的快速總結(jié),而是能夠提供經(jīng)過(guò)充分論證和驗(yàn)證的專業(yè)答案,這些答案的質(zhì)量足以作為正式的工作成果使用。 比如,你想要統(tǒng)計(jì)過(guò)去10年內(nèi),按GDP排名的前10個(gè)發(fā)達(dá)國(guó)家和前10個(gè)發(fā)展中國(guó)家的以下數(shù)據(jù):iOS和安卓系統(tǒng)的使用率、想學(xué)習(xí)另一門語(yǔ)言的人口比例、移動(dòng)設(shè)備普及率的變化。 GPT-4o僅僅是幫你列了出來(lái),而Deep Research更像是一個(gè)報(bào)告,甚至給出了完整的可視化表格。 端到端強(qiáng)化學(xué)習(xí),與o1同源 Deep Research是如何運(yùn)作的? 它通過(guò)在各個(gè)領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上,進(jìn)行端到端強(qiáng)化學(xué)習(xí)訓(xùn)練而成。 通過(guò)這種訓(xùn)練,它學(xué)會(huì)了規(guī)劃和執(zhí)行多步驟路徑,找到所需數(shù)據(jù),必要時(shí)可以回溯并對(duì)實(shí)時(shí)信息做出反應(yīng)。 該模型還能夠?yàn)g覽用戶上傳的文件,使用Python工具繪制和迭代圖表,在回答中嵌入生成的圖表和網(wǎng)站圖片,并引用其來(lái)源中的具體句子或段落。 通過(guò)這種訓(xùn)練,它在多個(gè)關(guān)注現(xiàn)實(shí)世界問(wèn)題的公開評(píng)估中刷新SOTA。 人類最后一場(chǎng)考試,得分26.6%刷爆了 全網(wǎng)爆火的「人類最后一次考試」中,Deep Research取得了26.6%準(zhǔn)確率破紀(jì)錄。 奧特曼驕傲地表示,早在周五,「人類最后一場(chǎng)考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經(jīng)達(dá)到了26.6%。 要知道這項(xiàng)測(cè)試包含了超3,000道「專家級(jí)」多選題和簡(jiǎn)答題,涵蓋從語(yǔ)言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個(gè)學(xué)科。 與o1相比,最大的進(jìn)步出現(xiàn)在化學(xué)、人文社會(huì)科學(xué)和數(shù)學(xué)領(lǐng)域。 驅(qū)動(dòng)Deep Research的模型通過(guò)在必要時(shí)有效尋找專業(yè)信息,展現(xiàn)出類人的解決方案。 GAIA 在GAIA測(cè)試中,這是一個(gè)評(píng)估AI解決現(xiàn)實(shí)世界問(wèn)題能力的公開基準(zhǔn)測(cè)試。 驅(qū)動(dòng)Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。 這些測(cè)試包含三個(gè)難度等級(jí)的問(wèn)題,成功完成這些任務(wù)需要具備推理能力、多模態(tài)流暢性、網(wǎng)頁(yè)瀏覽和工具使用等多項(xiàng)技能。 下面是一級(jí)和三級(jí)任務(wù)的對(duì)比區(qū)別。 專家級(jí)任務(wù) 另外,在對(duì)各個(gè)領(lǐng)域?qū)<壹?jí)任務(wù)的內(nèi)部評(píng)估中,Deep Research能夠自動(dòng)化完成,需要多個(gè)小時(shí)的復(fù)雜人工調(diào)查工作。 下圖為專家級(jí)任務(wù)與最大工具調(diào)用次數(shù)的對(duì)比,顯示出了模型花更多時(shí)間思考和瀏覽時(shí),性能就會(huì)更強(qiáng)。 這跟OpenAI的理念相吻合:在未來(lái)世界里,智能體將花費(fèi)越來(lái)越長(zhǎng)的時(shí)間,完成越來(lái)越困難的任務(wù)。 下面這個(gè)案例中,Deep Research進(jìn)行的化學(xué)研究,節(jié)省了大約4小時(shí)的時(shí)間。 語(yǔ)言學(xué)方面,更是節(jié)省了5個(gè)小時(shí)。 以下兩個(gè)圖表可以證實(shí)這一事實(shí)。其中,上圖為不同估算經(jīng)濟(jì)價(jià)值范圍的通過(guò)率,下圖為完成不同任務(wù)所需時(shí)間范圍的通過(guò)率。 所謂通過(guò)率,即模型在專家級(jí)任務(wù)中提供滿意答案的比率,答案由專家評(píng)定。 從圖表中可以看出,通過(guò)率與估算經(jīng)濟(jì)價(jià)值的相關(guān)性,比估計(jì)小時(shí)數(shù)的相關(guān)性更高,也就是說(shuō),模型發(fā)現(xiàn)困難的事,也是對(duì)人類來(lái)說(shuō)更耗時(shí)的事。 局限性 Deep Research仍處于早期階段,同樣存在一些限制。 根據(jù)內(nèi)部評(píng)估,它有時(shí)會(huì)在回答中產(chǎn)生虛構(gòu)的事實(shí)或做出錯(cuò)誤的推斷,不過(guò),頻率明顯低于現(xiàn)有的ChatGPT模型。 它可能難以區(qū)分權(quán)威信息和謠言,目前在置信度校準(zhǔn)方面表現(xiàn)較弱,往往無(wú)法準(zhǔn)確傳達(dá)不確定性。 在發(fā)布時(shí),報(bào)告和引用可能存在微小的格式錯(cuò)誤,任務(wù)可能需要更長(zhǎng)時(shí)間才能開始。 OpenAI預(yù)計(jì)所有這些問(wèn)題都會(huì)隨著使用時(shí)間的增加而快速改善。 Pro用戶先上手,Plus一個(gè)月內(nèi)上線 OpenAI稱,Deep Research在ChatGPT中非常消耗計(jì)算資源。 研究查詢所需時(shí)間越長(zhǎng),所需的推理計(jì)算就越多。 目前,OpenAI開始向Pro用戶提供優(yōu)化版本,每月最多100次查詢。 接下來(lái),這項(xiàng)功能會(huì)逐漸向Plus和Team用戶(帶越一個(gè)月內(nèi)),以及Enterprise用戶推出。 未來(lái),所有付費(fèi)用戶都將獲得更高的使用配額。 屆時(shí),OpenAI將發(fā)布一個(gè)更快、更具成本效益的深度研究版本,它由更小的模型驅(qū)動(dòng),但仍能提供高質(zhì)量的結(jié)果。 下一步:Operator+Deep Research ChatGPT的Deep Research功能現(xiàn)已在網(wǎng)頁(yè)版正式上線,并將在一個(gè)月內(nèi)推廣到移動(dòng)端和桌面端。 如前所述,目前,Deep Research可以訪問(wèn)實(shí)時(shí)互聯(lián)網(wǎng),獲取最新信息,并對(duì)上傳的文件進(jìn)行深入分析。 但,這僅僅是開始。 未來(lái),任何一個(gè)人將能夠接入更專業(yè)的數(shù)據(jù)源,比如學(xué)術(shù)期刊或企業(yè)內(nèi)部資源。 這種定制化的知識(shí)獲取能力,讓ChatGPT真正成為你的專屬智能助手。 最激動(dòng)人心的是,OpenAI正在醞釀一場(chǎng)更大的革命。 下一步,通過(guò)將Deep Research(負(fù)責(zé)異步網(wǎng)絡(luò)調(diào)查)與Operator(負(fù)責(zé)實(shí)際行動(dòng)執(zhí)行)相結(jié)合,ChatGPT將不再局限于信息處理,能夠?yàn)槊總€(gè)人執(zhí)行愈加復(fù)雜的任務(wù)。 這種突破性組合,將開創(chuàng)一個(gè)全新的AI個(gè)人助手時(shí)代。 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽