97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

2025-1-25 08:13| 發(fā)布者: admin| 查看: 101| 評論: 0
摘要: 關(guān)于 OpenAI 推出「智能體(Agent)」的傳聞早已甚囂塵上。去年 11 月起,就不斷有爆料消息指出,OpenAI 將在 2025 年 1 月上線首個智能體,稍早前還被海外科技媒體 The Information 把范圍縮小到了本月底。而現(xiàn)在, ...

關(guān)于 OpenAI 推出「智能體(Agent)」的傳聞早已甚囂塵上。去年 11 月起,就不斷有爆料消息指出,OpenAI 將在 2025 年 1 月上線首個智能體,稍早前還被海外科技媒體 The Information 把范圍縮小到了本月底。


而現(xiàn)在,OpenAI 終于按下了智能體時代的啟動鍵——發(fā)布了旗下首個智能體 Operator。北京時間 1 月 24 日凌晨,OpenAI 的直播活動吸引了全球科技圈的目光。這場直播的主角,正是萬眾矚目的 Operator。


作為真·智能體,Operator 能夠模擬人類在電腦上的操作行為,通過點擊、滾動、輸入等操作直接與網(wǎng)頁進行交互,完成各種任務(wù)。簡單來說,Operator 就像一個擁有「自主意識」的數(shù)字員工,可以像人類一樣瀏覽網(wǎng)頁、填寫表格、訂購商品以及預(yù)訂餐廳等,由此也就可以代替我們進行一些繁瑣甚至復(fù)雜的操作。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

Operator 起始頁面,圖/ OpenAI


在此之前,OpenAI 已經(jīng)邁出一步推出了「Tasks(任務(wù))」功能,嘗試將 ChatGPT 從一個完全被動的 AI 聊天機器人,開始轉(zhuǎn)變成主動執(zhí)行任務(wù)的 AI 數(shù)字助手。而 Operator 的出現(xiàn),則標(biāo)志著 OpenAI 正式邁入了智能體時代,實現(xiàn)從「被動處理信息」到「主動完成任務(wù)」的進化——這是通往通用人工智能(AGI)的關(guān)鍵一步。


當(dāng)ChatGPT 學(xué)會了「網(wǎng)上沖浪」


首先要說明的是,Operator 目前處于研究預(yù)覽階段,僅面向美國的 ChatGPT Pro(200 美元/月)用戶,Plus 用戶也不能體驗。不也同于 Claude 的 Computer Us 以及智譜的 GLM-PC 智能體都直接操作用戶的電腦,Operator 是在云端打開一個「瀏覽器」進行操作。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

左邊是對話,右邊是云端的瀏覽器,圖/ OpenAI


但要真正明白 Operator 的意義,還是回到實際場景中,在 OpenAI 的現(xiàn)場演示中,看看 AI 是如何像一個經(jīng)驗豐富的「網(wǎng)上沖浪老手」一樣,在數(shù)字世界里自由穿梭,完成各種任務(wù)。


比如在 OpenAI 的現(xiàn)場演示中,就要求 Operator 在 Beretta(餐廳)訂一桌今晚 7 點兩人的位置。這個指令對于我們?nèi)祟悂碚f,只需要在美食預(yù)訂網(wǎng)站上進行幾次搜索和篩選就能完成,但對于 AI 來說,卻是一項不小的挑戰(zhàn)。


而輸入餐廳預(yù)訂要求后,Operator 會在初步分析需求后直接打開一個云端的瀏覽器后臺,開始分步驟搜索餐廳、查看并開始預(yù)訂。當(dāng)然,用戶也可以透過窗口直接觀察到 Operator 的每一步點擊、滑動和輸入,就像人類一樣操作。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

通過快照可以回看到 AI 的每一步思考和操作,圖/ OpenAI


Operator 的表現(xiàn)確實令人驚艷。它迅速啟動了內(nèi)置的瀏覽器,然后開始「觀察」屏幕上的內(nèi)容,通過分析網(wǎng)頁的結(jié)構(gòu)和元素,找到了搜索框和各種篩選選項。整個過程行云流水,就像真的有一個人在處理一切。


有意思的是,開始 Operator 發(fā)現(xiàn) Beretta 今晚 7 點沒有位置后,還會重新檢索一個接近用戶要求的「預(yù)訂」,最終告知并主動詢問用戶是否選擇「今晚 7 : 45」這個時間進行預(yù)訂。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

AI 檢索后推薦了一個接近的時間,圖/ OpenAI


同樣地,當(dāng)「今晚 7 : 45」的機會被其他人搶到后,Operator 回過頭來又能提供「今晚 6 : 15」和「今晚 8 : 15」兩個預(yù)訂時間供用戶選擇。


不僅如此,在購買一組雜貨的任務(wù)中也可以看出,Operator 可以連續(xù)執(zhí)行任務(wù),通過不斷搜索商品、添加到購物車。而最終結(jié)算前,Operator 也會要求用戶接管控制,進行最終的確認和付款(可以登錄賬戶并保留登入狀態(tài)),用戶也可以臨時進行添加或者修改。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

購買雜物(2x 播放),圖/ OpenAI


再結(jié)合 OpenAI 此前推出的「Tasks」功能,完全可以想象以后讓 Operator 定期補充購買日用品的景象。


而從官方演示以及少數(shù)用戶分享的測試來看,在購物、訂票等場景中,Operator 展現(xiàn)出了很強的適應(yīng)性和通用性,能夠出色地完成各種不同的任務(wù)。


另外正如前文所述,用戶可以觀察 Operator 的每一步操作,當(dāng)然也可以選擇不看,繼續(xù)讓 Operator 同時執(zhí)行另一個任務(wù),或者干脆忙自己的工作,Operator 向你發(fā)送提醒后再進行確認即可。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

同時運行多個任務(wù),圖/ YouTube


不管是官方演示還是油管博主的測試,都說明了這一點。但 Operator 到底是如何做到這一切的呢?


基于 GPT-4o 打造“CUA”是關(guān)鍵


Operator 之所以能夠像人類一樣操作電腦,離不開 OpenAI 為其量身打造的「計算機使用智能體(CUA)」。CUA 基于 GPT-4o 的視覺能力以及高級推理技術(shù)打造,讓 AI「看懂」和「操作」電腦界面,或者說讓 AI 和人類一樣有了與圖形用戶界面(GUI)交互的能力。


CUA 首先要做的就是「看懂」屏幕上的內(nèi)容。它通過分析屏幕截圖,理解圖像、文字等多種信息,識別出網(wǎng)頁上的各種元素,例如按鈕、鏈接、文本框等等。這個過程就像我們?nèi)祟愑醚劬τ^察世界一樣。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

甚至知道等一下,圖/ OpenAI


然后,CUA 會根據(jù)用戶的指令和「看到」的內(nèi)容進行推理和判斷,決定下一步要執(zhí)行什么操作。例如,當(dāng)用戶要求預(yù)訂餐廳時,CUA 會推理出需要先訪問餐廳預(yù)訂網(wǎng)站,然后在搜索框中輸入關(guān)鍵詞。這個過程就像我們?nèi)祟愒谒伎紗栴}一樣。


同時,CUA 會執(zhí)行相應(yīng)的操作,例如鼠標(biāo)移動、點擊、鍵盤輸入等等。這些操作都非常精準(zhǔn),就像我們通過鼠標(biāo)、鍵盤操作電腦一樣。也因為這種通用的交互能力,Operator 不需要網(wǎng)站提供 API 接口,幾乎可以適用于任何網(wǎng)頁。


為了讓操作更加智能和連貫,CUA 還通過一個迭代循環(huán)進行操作,不斷地「觀察」、「思考」和「行動」,直至任務(wù)完成。遇到挑戰(zhàn)或犯錯誤,Operator 可以利用其推理能力進行自我糾正。而當(dāng)遇到困難或者需要用戶操作時,Operator 也會將控制權(quán)交還給用戶。


而且 OpenAI 很巧妙地選擇了在云端運行瀏覽器,而不像 Claude Computer Us 以及智譜的 GLM-PC 智能體直接操作用戶電腦,容易產(chǎn)生「占用」「隱私」「環(huán)境」的問題。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

Claude Computer Use,圖/ Anthropic


前兩個很容易理解。「占用」意味著在智能體操作電腦的時候,用戶無法同時進行其他操作,只能等待智能體?!鸽[私」問題可想而知,畢竟在用戶電腦中通常存有大量私密的文件和信息。


「環(huán)境」則是指用戶實際使用的電腦通常運行環(huán)境復(fù)雜,不僅是可能遭遇各種系統(tǒng)和軟件 Bug,甚至單單啟動軟件都可能遭遇權(quán)限等問題,不管在 Windows、macOS 還是 Linux 下。


相比之下,OpenAI 似乎想避免「步子邁大扯到蛋」,把使用場景限定在最通用的「瀏覽器」上,同時通過云端運行來確保統(tǒng)一、隱私、可后臺運行的操作環(huán)境。


盡管 OpenAI 不是第一個打造真·智能體的大模型廠商,但這些技術(shù)與產(chǎn)品設(shè)計的結(jié)合,不僅實現(xiàn)了 AI 從「被動處理信息」到「主動完成任務(wù)」的跨越,讓 Operator 能夠完成各種任務(wù),也讓 Operator 在一定程度上超越了 Claude Computer Us 或是智譜的 GLM-PC,更適合主流大眾使用。


AI 改變世界,智能體改變 AI


過去一年,智能體幾乎成了 AI 行業(yè)的共識。但實際上很多廠商宣傳的「智能體」只是對上下文進行了簡單的定制,例如角色扮演類的「智能體」只是預(yù)設(shè)了一段人物設(shè)定文本,然后將問題進行拆分執(zhí)行。


本質(zhì)上仍然是軟件模塊,而非真正能夠自主行動的智能體。


而真正的智能體作為大模型時代的應(yīng)用或者說交互窗口,應(yīng)該能夠像人類一樣進行操作和行動,例如操作電腦、執(zhí)行任務(wù)等,直接替代人類執(zhí)行所有不必要的操作。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

圖/智譜


這一點非常重要,可以區(qū)分概念炒作和真正的技術(shù)突破,也能讓我們看清 Claude Computer Use、榮耀 YOYO 智能體以及今天 OpenAI Operator 的價值。


不過也要明白,Operator 以及其他類似的「真·智能體」仍然處于早期的摸索階段。核心還是「通用性」的挑戰(zhàn),即便到了今天 OpenAI 的 Operator,智能體還是沒有實現(xiàn)真正和人類一樣的通用化交互能力,還不支持任意網(wǎng)站和任意程序。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

YOYO 智能體自動訂購的咖啡,圖/雷科技


而互聯(lián)網(wǎng)是一個充滿變化的世界,面對數(shù)不清的網(wǎng)站和交互設(shè)計,如何讓智能體始終保持適應(yīng)性,是一個需要長期解決的問題。


盡管如此,但依舊能夠看到智能體作為「AI 應(yīng)用」的巨大價值,可以將我們從繁瑣重復(fù)的操作中解放出來,讓我們有更多的時間和精力去從事更有創(chuàng)造性和更有意義的工作。更重要的是極大地提高了交互效率,降低了交互門檻。


舉一個非常實際的例子,最近短視頻和社交平臺上都在流行大學(xué)生過年回家給老人卸載流氓應(yīng)用、關(guān)閉廣告設(shè)置,一個關(guān)鍵原因在于智能手機對于老一輩來說交互門檻還是高了。


與此相對的是,大模型帶來了前所未有的自然語言交互能力,而智能體則在嘗試更進一步解放人類的雙手和大腦。



OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?


路過

雷人

握手

鮮花

雞蛋

關(guān)注我們:東遠物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!